Die Anzahl der Wörter in einer PDF-Datei

Wie kann ich die Wortzahl einer PDF-Datei erhalten? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtzahl der Wörter erhalten möchte, eine Textebene eingebettet haben, sodass ich keine OCR benötige.

Die Aufgabe entstand aus der Suche nach wissenschaftlichen Arbeiten bekannter Größe, z.B. 15000 Wörter. Die meisten Moders Papiere werden im PDF-Format veröffentlicht

Author: osgx, 2010-12-13

11 answers

Schnelle Antwort:

pdftotext myfile.pdf - | wc -w

Lange Antwort:

Wenn Sie unter Unix sind, können Sie pdftotext:

Und führen Sie dann die Wortzahl in der generierten Datei aus. Wenn unter Unix, können Sie verwenden:

wc -w converted-pdf.txt

Um die Wortzahl zu erhalten.

Siehe auch den Kommentar von frabjous-grundsätzlich können Sie dies in einem Schritt tun, indem Sie stattdessen zu stdout in eine temporäre Datei leiten:

pdftotext myfile.pdf - | wc -w
 101
Author: icyrock.com,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2015-07-03 16:16:46

Dies ist eine schwierige Aufgabe, die nicht leicht zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF-Viewer in eine Textdatei und überprüfen Sie es mit dem Werkzeug wc -w. Der Grund, warum in diesem Fall pdftotext nicht verwendet wird, ist: Mathematische Formeln können auch in die Ausgabe gelangen und als "Wörter"betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, die Sie von pdftotext erhalten.) Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.

Ein Weg ist nur um Wörter zu zählen, die mit einem Zeichen aus [A-Za-z] beginnen. Was ich also normalerweise mache, ist ein zweistufiger Ansatz:

  1. Holen Sie sich die Liste der Uniq-Wörter und prüfen Sie, ob zu viele Fehlalarme vorhanden sind:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    Ich verwende hier kein Wörterbuch, da einige Rechtschreibfehler nicht als Wörter zählen würden.

  2. Holen Sie sich diese Wortliste und grep sie in der Ausgabe von pdftotext:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Ich weiß, dies könnte durchgeführt werden innerhalb ein Einzeiler, aber dann Ich konnte das Filterergebnis vom ersten Schritt an nicht leicht sehen. Das -F kann helfen Sie, wie angegeben, durch den Kommentar von moi unten (danke).

 14
Author: math,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-09-01 08:31:38

Ich habe gerade ein kostenloses Programm ausprobiert, Translator ' s Abacus. Sie können per Drag & Drop verschiedene Dateitypen (einschließlich PDF), und es erscheint ein Browser mit einem druckbaren Bericht der Wortzahl für jedes Dokument. Es funktionierte gut für mich. (Es ist speziell für Wortzahlen erstellt und ist nur 435 KB... das heißt, keine "große Anwendung"). Übersetzer Abacus funktioniert nicht auf PDF 1.5 oder höher.

Alternativ: Sie können einfach Strg+A zum Auswählen des gesamten Textes in Acrobat Reader und kopieren Sie es dann in ein Programm wie Microsoft Word (das eine Wortzahl in der Statusleiste am unteren Bildschirmrand hat).

 10
Author: Adam,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2014-03-05 16:11:01

Eine einfache Möglichkeit, dies zu tun, wenn Sie Acrobat Pro verwenden, besteht darin, die PDF-Datei in ein Microsoft Word-Dokument zu exportieren und dann die Wortzahl in Word auszuführen. Alternativ können Sie es in eine Nur-Text-Datei exportieren und ein Word Count-Dienstprogramm im Texteditor Ihrer Wahl/verwenden. Ich habe gerade eine Wortzählung für einen PDF-Artikel mit der Word-Methode durchgeführt und es dauerte alle 30 Sekunden.

Hoffe, das hilft.

 2
Author: Bruce Crawford,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-04-12 03:01:50

Sie können installieren OCRFeeder. Wählen Sie darin Datei - >PDF importieren - >Alle Seiten automatisch erkennen und erkennen->Nach ODT exportieren und das libreoffice Writer-Dokument ist bereit für die Wortzahl oder eine andere RTF-Funktion, die Sie verwenden möchten.

 1
Author: user55926,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2014-08-19 04:20:37

In Windows können Sie ab Microsoft Office 2013 eine PDF-Datei in MS Word öffnen. Hier ist ein Beispiel für eine PDF-Datei , die ich in MS Word 2016 geöffnet habe:

geben Sie hier die Bildbeschreibung ein

Sobald es geöffnet ist, können Sie die Anzahl der Wörter unten links in der MS Word-Statusleiste sehen.

 1
Author: s.ouchene,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2020-01-28 17:09:02

Ich finde den in abracadabra tools enthaltenen Wortzähler praktisch. Die Installation ist jedoch etwas schrullig.

 0
Author: Christoph,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2015-04-13 21:50:44

Sie können das Konsolen-JavaScript von Adobe Acrobat mit dem folgenden Code verwenden, den ich aus Dave Merchants Antwort auf forums.adobe.com:

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

Getestet mit Adobe Acrobat Pro DC 2018.011.20040 auf Windows 7 SP1 x64 Ultimate.


Um die JavaScript-Konsole zu aktivieren:

geben Sie hier die Bildbeschreibung ein

Zum Starten des JavaScript-Konsolenfensters:

STRG + J

geben Sie hier die Bildbeschreibung ein

FYI, wenn Sie die LaTeX - quelle, die dem PDF entspricht: Korrekte Wortzahl eines LaTeX-Dokuments.

 0
Author: Franck Dernoncourt,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2018-08-17 04:27:22

Beachten Sie, dass Sie, wenn Ihre PDF - Datei aus Latex-Quellen erstellt wird, mehrere Möglichkeiten haben, die Wortzählung aus diesen Quellen durchzuführen, siehe TeX-LaTeX SE.

Insbesondere ist Latex in der Lage, seine eigene detaillierte Zählung durchzuführen: geben Sie hier die Bildbeschreibung ein

 0
Author: Joce,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2021-01-20 08:49:27

De facto Standard, den Übersetzer seit rund 2000 verwenden, ist AnyCount Word Count Tool Es macht Wortzahlen in PDF und 37 anderen Formaten.

 -1
Author: Vladimir,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2017-11-06 16:12:25

Strg+Verschiebung+F Geben Sie erweiterte Suche Geben Sie das Wort ein und es wird gezählt, wie oft es im Dokument ist. Es ist keine Raketenwissenschaft.

 -3
Author: Johnny Boy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2013-03-28 19:54:31