Dokumente einscannen, OCR zur Texterkennung und durchsuchbare PDF-Dateien erstellen

pdf-durchsuchbarWer auf dem Weg zum papierlosen Büro ist, kommt um das scannen von Belegen nicht herum. Damit diese Belege auch später noch über eine Suchfunktion auf dem Desktop oder in der Cloud gefunden werden können, sollte die eingescannten Belege als durchsuchbare PDF’s abspeichern. Durchsuchbare PDF’s haben zusätzlich zu dem als Bild eingescannten Dokument, ein unsichtbares Overlay mit markierbaren Text. Dadurch lässt sich das Dokument innerhalb eines PDF-Readers durchsuchen, der Text kann von der Desktopsuche oder bei Speicherung im Web von den Suchmaschinen gelesen und indiziert werden.

Leider gibt es hier noch wenig kostenlose Programme (Freeware, OpenSource) und wenn doch, habe ich noch nicht die Richtigen gefunden, die alles auf einmal erledigen. Hier einige Beispiele:

FreeOCR

screen_freeocrFreeOCR (Link) ist eine kostenlose Software um in eingescannten Bildern die Texte mittels OCR zu erkennen. Die Software ist nur mit englischem Interface zu bekommen, als OCR-Sprache lässt sich aber auf „deutsch“ einstellen. Die erkannten Texte können per copy&paste übernommen oder direkt in eine Word-Datei geschrieben werden. Hierbei wird die sehr gute Tesseract-Engine, von Google entwickelt, für die Texterkennung verwendet.

Die Dokumente können als Bild importiert oder direkt über einen angeschlossenen Scanner eingelesen werden. PDF’s lassen sich mit dieser Software aber nicht erzeugen.

Ich benutze von diesem Programm allerdings nur die Scan-Funktion und speichere das Bild im JPEG-Format. Mit der Funktion „Copy selection to clip board“ kann man auch das gescannte Bild in die Zwischenablage legen.

Zur Erstellung von durchsuchbaren PDF’s benutze ich ein kostenloses Programm:

PDF OCR X

screen_pdfocrxPDF OCR X (Link) ist kostenlos für einseitige PDF’s. Um mehrseitige Dokumente nach PDF umzuwandeln muss man 29,99$ bezahlen.

Eingescannte Dokumente lassen sich als Bilddateien und PDF’s importieren. Achtung: beim einfügen von Bildern aus der Zwischenablage mit paste(Strg-v) werden die erzeugten PDF’s sehr groß (bis 10 MB), da hier das Bild nicht komprimiert wird.

Die mit OCR erkannten Texte werden zusammen mit dem gescannten Bild, in einer durchsuchbare PDF gespeichert werden. Die Texterkennung läuft recht zügig und für eine Seite ist das Tool völlig ausreichend.

Adobe Acrobat

Die beste Software zur Erstellung von durchsuchbaren PDF’s kommt aber immer noch von Adobe selbst. Leider sind die Adobe Acrobat Versionen recht teuer. Zum Glück hatte ich noch eine alte Version Adobe Acrobat 7 Professional liegen. Da Adobe den Aktivierungs-Server abgeschaltet hat, gibt es von Adobe eine geänderte Version zum Download (Link), die nicht mehr aktiviert werden muss. Diese lässt sich im Download-Bereich bei Adobe herunterladen. Hier findet sich dann auch eine spezielle Lizenznummer, zum freischalten der Software. Zum downloaden muss eine Registrierung bei Adobe vorliegen bzw. eingerichtet werden. Aber Achtung:

„Die im Rahmen des Downloads erhaltenen Seriennummern dürfen ausschließlich von Kunden verwendet werden, die CS2 oder Acrobat 7 rechtmäßig erworben haben und weiterhin nutzen möchten. Ein Download der Software sowie die Nutzung der Seriennummern durch Personen, die CS2 oder Acrobat 7 in der Vergangenheit weder von Adobe direkt noch einem autorisierten Händler erworben haben, ist nicht gestattet und stellt eine Verletzung von Adobe’s Urheberrechten dar.“

screen-acrobat

Wer nur scannen, OCR-Erkennung und PDF’s bearbeiten möchte, dem reicht die Acrobat Standard Anwendung. Ein Vergleich der unterschiedlichen Versionen findet sich hier.

Im Adobe Acrobat Programm gibt es den Menüpunkt „PDF von Scanner erstellen“. Hier lässt sich dann der Scanner auswählen. In den Einstellungen sollte die Scanner-Auflösung auf 300DPI eingestellt werden, damit die Texte optimal erkannt werden.

Die Adobe-Software richtet dabei auch leicht schräg gescannte Dokumente richtig aus und erzeugt schnell die besten durchsuchbaren PDF’s. Schwarz-Weiß-PDF’s sind recht klein mit ca. 50-100 KB, farbige Scans werden in einer PDF mit ca. 300-400 KB abgespeichert. Der Adobe Acrobat bettet die Schriften platzsparend im Postscript-Format ein.

ABBY FineReader

screen_pdf_abbyy

Eine preiswerte Alternative zu der Acrobat-Version bietet der ABBY Finereader. Da es nicht immer die neueste Version sein muss, könnte auch noch der ABBYY FineReader 9.0 Professionalinteressant sein, den ich aber nicht getestet habe.

Zum Testen für 30 Tage habe ich mir auf der Homepage des Herstellers eine aktuelle Version heruntergeladen. Die 370MB große Installationsdatei braucht ca. 10 Minuten für die mächtige Installation. Das Programm hat gefühlt ebenso viele Funktionen wie der Adobe Acrobat. Der Punkt „durchsuchbare PDF erstellen“ erzeugt auch recht zügig eine PDF. Die Dateien sind aber ca. doppelt so groß wie die PDF’s vom Adobe Acrobat, was aber auch an den Einstellungen wie PDF/A und den eingebundenen TrueType-Schriften liegen kann.

Es gibt noch weitere kostenpflichtige Programme, die durchsuchbare PDF’s erstellen. Hilfreich bei der Suche nach der besten Software finde ich immer die Bestsellerlisten bei Amazon. Der Link für die Bestellerlisten zur PDF-Bearbeitung findet ihr hier: Bestsellerliste PDF oder Bestsellerliste in Texterkennung

by - [-]
Rank/Rating: -/-
Price: -

by - [-]
Rank/Rating: -/-
Price: -

by - [-]
Rank/Rating: -/-
Price: -

by - [-]
Rank/Rating: -/-
Price: -

by - [-]
Rank/Rating: -/-
Price: -

by - [-]
Rank/Rating: -/-
Price: -

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.