Kostenlose Texterkennung (OCR) mit IrfanView

IrfanView_LogoIch benutze schon länger IrfanView als kostenloses Tool, um dieverse Aufgaben mit Bildern zu erledigen. Ob es um die Konvertierung mehrerer Bilder in andere Formate oder die Veränderung der Bildgröße geht, das Programm hat mir oftmals sehr viel Arbeit abgenommen. Um so mehr habe ich mich gefreut, dass es damit sogar möglich ist, im einfachen Umfang Auszüge aus Büchern und Zeitschriften in echten Text erkennen zu lassen (OCR). Diese kann man dann in eigene Artikel, Beiträge oder sonstige Publikationen einbinden.

Vorraussetzungen:

1. Hardware: Ein Scanner, welcher mindestens mit einer Auflösung von 300 DPI arbeitet. Als Alternative, mit der heutigen Fototechnik, kann man natürlich auch versuchen die Seiten mit einer digitalen Kamera zu fotografieren. Dabei sollte man jedoch Folgendes beachten, da dies um einiges schwieriger ist:

  • wenn vorhanden, ein  Stativ benutzen, um verwackelte Bilder zu vermeiden
  • falls die Kamera die Funktion unterstützt, vorher einen Weißabgleich machen
  • es sollten schon mindestens 6 Megapixel für die Aufnahme zur Verfügung stehen um brauchbare Resultate zu erzielen
  • die Seiten sollten nicht nach oben gebogen sein

2. Software: IrfanView, Graphic Viewer PlugIns und das OCR (Optical Character Recognition) Plugin

Vorgehensweise:

Hat man die Bilder mit einer digitalen Kamera gemacht, kann man diese natürlich ganz normal öffnen (das Programm unterstützt durch das Graphic Viewer PlugIn nahezu alle gängigen Bildformate) und den direkt folgenden Punkt überspringen. Ist jedoch ein Scanner bereits angeschlossen und installiert, kann man über:

„Datei“ -> „Scannen/Batch-Scannen“  oder die Tastenkombination „STRG + SHIFT + A“ den Scannerdialog starten.  Hierbei kann man jetzt auswählen, ob man nur eine einzelne Seite scannen oder mehrere Bilder vom Gerät importieren möchte.

Sind die Bilddateien auf dem PC, kann es losgehen. Zuerst öffnen wir ein Bild und drücken entweder die F9 Taste oder wir gehen über das Menü „Optionen“ -> „OCR Starten… (PlugIn)“

IrfanView_OCR_01

War die Auflösung für das gewählte Bild zu klein, erscheint ein Hinweis, dass keine Zeichen gefunden werden können. In diesem Fall sollte man das Seite mit einer größeren Auflösung einscannen. Ist alles in Ordnung, sieht man jetzt das Berabeitungsfenster des OCR Plugins:

IrfanView_OCR_02

Ich hatte hier als Beispiel einen Blindtext von www.blindtextgenerator.de verwendet

Ein Wörterbuch für die deutsche Sprache ist bereits vorinstalliert. Jetzt können diverse Einstellungen vorgenommen werden. Um einen Abschnitt oder die ganze Seite erkennen zu lassen, wählt man den Bereich mit gedrückter linker Maustaste aus. Wurde der Text erkannt, öffnet sich ein neues Fenster, in dem der Text jetzt als Zeichen erscheint.

IrfanView_OCR_03

Das Ergebnis könnt ihr jetzt entweder in die Zwischenablage kopieren, um es von dort aus in Textverarbeitungsprogramme wie Wordpad, Word usw. einzufügen oder ihr speichert es für eine spätere Bearbeitung in einer Textdatei.

Fazit:

Natürlich kann man die Ergebnisse und den Umfang  nicht mit properitären Programmen wie Omni Page oder Fine Reader vergleichen, da z.B. keine Schriftarten, Formatierungen oder Bilder übernommen werden. Mit Irfanview und dem Plugin kann man jedoch kleinere Texte einscannen. Das Ergebnis hängt jedoch sehr vom Ausgangsbild ab. Aus diesem Grund musste auch ich erst einmal mehrere Scans des selben Textes vornehmen, bis mich die Erkennungsgenauigkeit zufriedenstellte. Selbstverständlich muss man auch hier einiges nachträglich korrigieren, jedoch ist der Zeitaufwand für eine DIN A4 Seite und 10 Korrekturen immer noch im Verhätnis geringer, als diese per Hand abschreiben zu müssen. Zumindest gilt das noch für mich, der immer noch nicht Blind mit der Tastatur schreiben kann.

Links:

IrvanView Webseiten – dort findet man den Download und das „OCR_KADMOS“ Plugin

Über Torsten

Mein Name ist Torsten. Ich hoffe der Artikel hat dir gefallen und über ein Feedback von dir würde ich mich sehr freuen.

Hinterlasse jetzt einen Kommentar

Kommentar hinterlassen

E-Mail Adresse wird nicht veröffentlicht.


*


Durch das Fortsetzen der Benutzung dieser Seite, stimmst du der Benutzung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen", um Ihnen das beste Surferlebnis möglich zu geben. Wenn Sie diese Website ohne Änderung Ihrer Cookie-Einstellungen zu verwenden fortzufahren, oder klicken Sie auf "Akzeptieren" unten, dann erklären Sie sich mit diesen.

Schließen