Wie kopiere ich Text aus einer PDF-Datei, ohne die Formatierung zu verlieren?

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Arten verstümmelt. Formatierungen wie Fett und kursiv gehen verloren; weiche Zeilenumbrüche innerhalb eines Textabsatzes werden in harte Zeilenumbrüche umgewandelt; Bindestriche, um ein Wort über zwei Zeilen zu brechen, bleiben erhalten, auch wenn sie nicht sein sollten; und einfache und doppelte Anführungszeichen werden ersetzt durch ? unterzeichnen.

Im Idealfall möchte ich Text aus einer PDF-Datei kopieren und die Formatierung in HTML-Codes konvertieren lassen, "smart quotes" konvertiert in "und", und Zeilenumbrüche richtig gemacht. Gibt es eine Möglichkeit, dies zu tun?

 44
pdf
Author: Colen, 2010-10-11

9 answers

Erstens müssen Sie verstehen, was ein PDF ist. PDFs sind so konzipiert, eine gedruckte Seite zu imitieren, und sie sind entworfen nur als Ausgabeformat, kein Eingabeformat. eine PDF-Datei ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) enthält.) oder Bilder. In den meisten Fällen speichert eine PDF-Datei nicht einmal Informationen darüber, wo ein Wort endet und ein anderes beginnt, geschweige denn Dinge wie weiche Pausen vs. harte Pausen für Absatz Nervenenden.

(Ein paar aktuelle PDFs speichern einige Informationen über dieses Zeug, aber das ist eine neue Technologie, und Sie würden glücklich sein, solche PDFs zu finden. Selbst wenn Sie dies tun, weiß Ihr PDF-Viewer möglicherweise nichts davon.)

Wie auch immer, es liegt an Ihrer Software, eine Art "künstliche Intelligenz" zu implementieren, um nur aus den Positionen einzelner Zeichen zu extrahieren, was ein Wort, was ein Absatz ist und so weiter. Andere Software wird dies besser machen als andere, und es wird auch abhängig davon, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Viel besser zu versuchen, das zu erhalten, wenn Sie können.

Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (den teuren, nicht den kostenlosen Reader) zu verwenden, um das PDF in HTML zu konvertieren. Auch das wird keine perfekten Ergebnisse erzielen.

Es gibt freie Software, die verwendet werden kann, um Text aus PDFs mit einigen Formatierungen intakt, aber auch hier erwarten keine perfekten Ergebnisse. Siehe z. B. calibre (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm (mit aktivierten Import/Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarte keine Perfektion mit einem dieser Ergebnisse. Sie gehen hier gegen den Strich. PDF ist einfach nicht als editierbares Eingabeformat gedacht.

 56
Author: frabjous,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-10-11 22:24:01

Eine weitere Option ist das Herunterladen und Verwenden des kostenlosen PDF-Viewers Foxit (es ist gut). Dann können Sie 'Speichern unter' und wählen .txt, um es in eine Textdatei zu konvertieren. Dadurch bleiben alle Formatierungen erhalten. Ich weiß nicht, ob Sie dasselbe in Adobe tun können, da ich es vor einiger Zeit nicht mehr verwendet habe, als ich zu Foxit konvertiert bin.

 10
Author: chris,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2013-01-24 07:05:37

Es gibt ein sehr gutes Online-Tool namens Sej-da. Seine befasst sich mit erweiterten PDF-Manipulation. Es gibt keine software zum download. Da es sich um ein neues Online-Tool handelt, befindet es sich derzeit noch in der Beta-Phase. Es ermöglicht Ihnen, Text aus einer PDF-Datei zu extrahieren, sowie eine Vielzahl von anderen PDF-Funktionalitäten

Http://www.sejda.com/

Eine kurze Videoüberprüfung der Sejda-Funktionen erfolgte am 14. November 2012 durch Revision 3. hier:

Http://revision3.com/tzdaily/sejda-online-pdf

 6
Author: Simon,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2012-12-01 14:38:27

Öffnen Sie Ihre PDF-Datei mit einem Browser(Google Chrome und Firefox sind getestet)und kopieren Sie Ihren Text dort.

 5
Author: harsini,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2012-12-02 10:45:37

Hierfür können Sie Adobe Acrobat Pro verwenden.

Für Tabellen: Mit Acrobat 9/10 gab es eine Select Tables-Funktion. Mit Acrobat X können Sie einfach auf Speichern unter > Tabellenkalkulation > Excel klicken. Es verkettet sogar Seiten in eine lange Tabelle. Awesome feature.

Für Text: Eine ähnliche Funktion existiert für den Export nach MS Word. Speichern unter > Word > Word Doc.

Quellen:

 4
Author: user156787,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2012-09-06 19:00:19

Foxit wechselt zwischen der Anzeige der Originaldatei als normales PDF oder als Text durch Drücken von Strg + 6 (Mit ein wenig Hantieren mit der Zoomstufe des Textmodus gibt es nicht viel Sprung in Position hin und her zwischen Lesen und Kopieren)

 0
Author: Stoatly,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2015-04-13 11:19:56

Ich fand das sehr nützlich ( Zeilenumbrüche entfernen ):

Hier ist ein nützlicher Trick, um dies schnell zu beheben, ohne alle Zeilenumbrüche manuell entfernen zu müssen. Grundsätzlich ersetzt es automatisch alle unerwünschten Zeilenumbrüche durch ein einzelnes Leerzeichen, sodass der gesamte Text zu einem einzigen Absatz zusammenläuft:

1 - kopieren Sie den gewünschten text aus der PDF-Datei.

2-in ein neues Word-Dokument einfügen.

3-Klicken Sie auf "Bearbeiten" und dann auf "Ersetzen"

4 - stellen Sie sicher, Sie sind in der "suchen" - Feld

5 - klicken Sie auf "mehr" und dann auf "Spezial" -

6 - Wählen Sie "Absatzmarke" (oben in der Liste)

7-klicken Sie in das Feld" Ersetzen durch "

8 - drücken Sie die Leertaste einmal

9 - klicken Sie auf "alle ersetzen" -

10-Klicken Sie auf " ok "und schließen Sie das Feld" Suchen & Ersetzen".

 0
Author: sky-light,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2017-02-25 23:17:51

Sie können von Adobe Reader in MS Excel kopieren und formatieren (Tabelle), wie Sie wollen, und dann kopieren und einfügen aus Excel. Diese Lösung funktioniert großartig. Sie müssen keine teure Adobe Professional-Kopie kaufen.

 -1
Author: Murali Sastry,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2015-12-11 13:39:27

Ich habe versucht, den Text und das Format einer PDF-Datei zu speichern, die in einer Tabelle organisiert war. In Acrobat Professional wurde mir klar, dass es eine Option "Speichern unter" gibt, die das Speichern als Excel-Dokument ermöglicht. Dies funktionierte gut für meine Bedürfnisse. Mir ist auch aufgefallen, dass es auch eine Option zum Speichern als Word-Dokument gibt. Ich habe es aber nicht versucht.

 -1
Author: Douglas Thompson,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-01-22 16:15:08