OCR für gebrochene Schriften

Fraktur ist eine Druckschrift, die lange Zeit als schön galt – heute eher als schwer zu lesen. Sie wurde früher in mehreren Ländern standardmäßig verwendet, in Deutschland bis 1941. Wenn man Bücher aus dieser Zeit in eine digitale Bibliothek einstellen möchte, hat man ein besonderes Problem: die Schrifterkennung!

Standard-OCR-Programme können meist keine Fraktur-Schrift erkennen; die verwendeten Schrifttypen entsprechen keiner modernen Computerschrift. Hinzu kommen weitere Stolpersteine, die das Alter der Bücher mit sich bringt, z.B. das Fehlen einer einheitlichen Regelung der Schreibweise von Wörtern oder Schäden am Papier.
Diejenigen Programme, die eine Frakturerkennung anbieten wollen, sind entweder technisch unausgereift oder sehr teuer. Zumindest waren sie das bis vor kurzem.

In letzter Zeit gab es mehrere Versuche, eine Open Source Software zur Frakturerkennung zu entwickeln. Diese Bemühungen gehen oft in eine gute Richtung und einige lassen sich professionell anwenden.
Die wohl bekannteste Software ist Tesseract. Es arbeitet schnell und es existieren gute Anleitungen dafür. Der Tesseract-Code wird von vielen OCR-Programmen genutzt.
Eine weitere Software mit teilweise noch besseren Ergebnissen ist OCRopus. Die Nutzung ist allerdings noch nicht so komfortabel, an einer guten Benutzeroberfläche wird gearbeitet.

Advertisements

Kommentar verfassen

Bitte logge dich mit einer dieser Methoden ein, um deinen Kommentar zu veröffentlichen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s