Wie entferne ich OCR aus einem PDF?

Ich habe seit einiger Zeit Google gesucht, kann aber keine Antwort auf meine Frage finden.

Ich habe unerwünschte OCR-Ebenen in einem Dokument, das ich kürzlich mit Adobe Acrobat gescannt habe. Es wurde nicht richtig OCRed, und ich möchte einige Informationen redigieren, aber die OCR lässt die gewünschten Informationen löschen. Ich habe die Dateien in TIFs konvertiert, aber einen (sehr) signifikanten Qualitätsverlust festgestellt. Ich habe gehört, dass das Drucken in ein anderes PDF entweder den Text beibehält oder die Bildqualität.

Ich schätze jede Hilfe bei der Lösung dieses Problems SO schnell wie möglich.

Danke.

Author: Sanoo, 2014-10-11

9 answers

In Acrobat Pro DC lautet der entsprechende Befehl "Versteckte Informationen entfernen", der sowohl über die Tools" Schützen "als auch" Redigieren " verfügbar ist.

Beim Ausführen des Befehls werden nur die versteckten Informationen durchsucht, das Dokument wird jedoch nicht geändert. Sie müssen Acrobat dann mitteilen, welche Informationen entfernt werden sollen. Wählen Sie in diesem Fall im Ergebnisbereich "Versteckter Text" aus, klicken Sie auf die Schaltfläche Entfernen und speichern Sie das geänderte Dokument.

 6
Author: user1125483,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2017-09-22 01:06:46

Nach vielen Experimenten stellte ich fest, dass das Drucken in Adobe PDF von Adobe Acrobat das Dokument ohne OCR und ohne Qualitätsverlust druckt (eine auf den ersten Blick nicht erkennbare Auflösung geht verloren).

Viele Websites behaupten jedoch, dass dies nicht funktioniert. Ich habe auch die anderen Drucker wie Foxit Reader und OneNote ausprobiert, aber die Qualität wurde reduziert. JPEG war auch das gleiche.

Bitte beachte, dass dein Kilometerstand variieren kann.

Hinweis: ich verlasse diesen thread markiert als unbeantwortet in der Hoffnung, eine bessere Antwort als meine zu finden.

 1
Author: Sanoo,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2014-10-13 07:53:25

(vor einem Jahr...)

Wenn, wie Sie sagen, die Dokumente gescannt und nicht in PDF von Word zum Beispiel gedruckt werden, können Sie leicht mit Ihrem Adobe entfernen:

Wählen Sie Dokument Prüfen Dokument - und jetzt können Sie die versteckten text (OCR).

 1
Author: Fran,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2015-12-10 10:50:02

In Acrobat Pro: Verwenden Sie ' Versteckte Informationen entfernen '(unter 'Schutz'). Wählen Sie alle, ausführen, OCR ist verschwunden

 1
Author: jazzzz,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-10-20 15:55:20

In Acrobat X gibt es unter Schutz eine Schaltfläche zum Bereinigen von Dokumenten, mit der ALLES außer dem, was angezeigt wird (einschließlich der OCR-Textebene), entfernt und das Dokument in eine abgeflachte Bitzuordnung konvertiert wird.

 1
Author: Dave,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2018-01-30 16:51:41

Ich habe es gelöst, indem ich es in JPEG und dann aus JPEG 'Dateien in Acrobat kombinieren'exportiert habe. Dies stammt von einem Dokument, das ursprünglich ein Word-Dokument war und in PDF konvertiert wurde. OCR ist Weg.

 1
Author: rando cal,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2020-03-25 17:51:12

Ich habe ein Tool dafür erstellt free PDF Redactor. Wenn Sie das Bild hochladen und einfach auf Redaktion klicken, wird Ihre PDF-Datei abgeflacht und OCR entfernt. Wenn Sie möchten, können Sie auch Redaktionszeichen auf das Dokument zeichnen.

 0
Author: levinology,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2019-01-31 08:19:18

Versuchen Sie den Treiber "MS Print to PDF". Es wird mit allen aktuellen Windows-Versionen ausgeliefert. Überprüfen Sie "Als Bild drucken" unter erweiterte Einstellungen, um OCR zu entfernen.

Der Qualitätsverlust beim Drucken in PDF ist vernachlässigbar. Es behält jedoch standardmäßig die OCR bei, es sei denn, Sie drucken als Bild.

geben Sie hier die Bildbeschreibung ein

 0
Author: toster-cx,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2020-05-12 12:12:34

Einfache Möglichkeit, OCR-Layer aus PDF zu entfernen: Öffnen Sie PDF in Firefox und "drucken" Sie es in ein anderes PDF.

Beachten Sie, dass "nette" PDF-Dateien (z. B. von MS Word erstellt) viel größer werden (in meinem Fall von 0,5 auf 2 MB) und die Qualität etwas reduziert wird. Stellen Sie sicher, dass Sie beim "Drucken"das richtige Papierformat einstellen.

Wenn Sie OCR wiederholen möchten, anstatt es vollständig zu entfernen, und Ihnen die Befehlszeile nichts ausmacht, verwenden Sie ocrmypdf:

ocrmypdf --redo-ocr --output-type=pdf input.pdf output.pdf

Unter Windows 10 der einfachste Weg zum Einrichten und Verwenden ocrmypdf ist über WSL.

 0
Author: alexanderlukanin13,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2021-01-21 11:22:42