Zeitung Heute : Das Aktuelle Computer-Lexikon: OGelesen und erkannt

RIMSCHA

OCR (optical character recognition) bedeutet Texterkennung.Wenn beispielsweise ein Text über einen Scanner eingelesen wird, so steht er zwar als Grafik zur Verfügung, nutzt in dieser Form aber noch wenig.Mit einer gängigen Textverarbeitung kann man schließlich keine Bilder bearbeiten.Was hier nötig ist, ist ein Werkzeug, mit dessen Hilfe der Text in einer Grafikdatei erkannt und als Text abgespeichert werden kann.Erst dann ist es möglich, das über den Scanner eingelesene Dokument sinnvoll weiterzuverarbeiten, ganz abgesehen davon, daß ein Text auf diese Weise ressourcenschonender gespeichert werden kann.

Die Qualität der Texterkennung ist mittlerweile recht gut, sauber eingelesene gedruckte Texte werden recht ordentlich erkannt.Um gerade bei dünnen Vorlagen das Durchschimmern der Rückseite zu vermeiden, sollte ein dunkler Hintergrund gewählt werden.Im Zweifelsfall legt man einfach ein schwarzes Blatt Papier auf die Rückseite.

Gute Systeme heben sich insbesondere durch die gezielte Unterstützung unterschiedlicher Sprachen ab.Auf diese Weise können Worte unter Verwendung eines Wörterbuches sowie unter Beachtung des Kontextes mit einer geringeren Fehlerquote erkannt werden.Auch die Formatierung der Texte ist beeindruckend.Ist das vorliegende Dokument in mehreren Spalten oder verschiedenen Schriftgrößen gesetzt, so wird das erkannt.Ebenso werden Bildsegmente, die nicht in Text übersetzt werden können, als Grafiken eingefügt.Das Resultat läßt sich meist im RTF-Format (rich text format) abspeichern, das von den meisten Textverarbeitungen problemlos gelesen werden kann.Auf diese Weise dürfte der Bedarf eines Heimanwenders abgedeckt sein.Eine wesentliche Herausforderung, die jedoch ungelöst bleibt, ist die Erkennung handgeschriebener Texte.Hier müssen die meisten der preiswerten Programme, die für den Privatanwender in Frage kommen, aufgeben.

Während professionelle Texterkennungssysteme recht teuer sind, bieten sich für den Heimanwender verschiedene Möglichkeiten, ein OCR-Werkzeug vergleichsweise preiswert zu kaufen.Darüberhinaus bieten verschiedene Hersteller sogenannte Cross-Upgrade-Möglichkeiten an: Wer irgendein OCR-Programm besitzt kann umsteigen.Auf diese Weise ist etwa das professionelle System Recognita zu haben.Verschiedene Scanner bieten sogar ein fest integriertes OCR-Modul an.Schließlich bieten gängige Grafikpakete wie etwa Corel-Draw OCR-Werkzeuge.In der Corel-Draw-Select-Edition beispielsweise ist ein entsprechendes Programm integriert.Dies dürfte wohl die preiswerteste Variante sein, schließlich ist hier neben dem Texterkennungssystem das komplette Grafikbearbeitungspaket enthalten.

Hintergründe und Expertisen zu aktuellen Diskussionen: Tagesspiegel Causa, das Debattenmagazin des Tagesspiegels.

Hier geht es zu Tagesspiegel Causa!

0 Kommentare

Neuester Kommentar
      Kommentar schreiben