OCR: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Keine Bearbeitungszusammenfassung |
K (Link auf dt. Quelle ergänzt, kleinere Optikkorr.) |
||
| Zeile 1: | Zeile 1: | ||
OCR ist eine Abkürzung für Optical Character Recognition. Man versteht darunter das maschinelle | OCR ist eine Abkürzung für Optical Character Recognition. Man versteht darunter das maschinelle Umsetzen von bildlich dargestelltem Text (Scans) in Testdaten. Es gibt sowohl kommerzielle als auch quelloffene Programme für OCR. Das wohl bekannteste quelloffene OCR-Programm ist Tesseract. | ||
Eine umfassende Erklärung, wie OCR funktioniert, findet sich auf | Eine umfassende Erklärung, wie OCR funktioniert, findet sich u. a. auf diesen Webseiten: | ||
* [http://how-ocr-works.com/OCR/OCR.html technisch extakt, englisch] | |||
* [http://www.computerbild.de/artikel/cb-Ratgeber-So-funktioniert-Texterkennung-4514615.html einfacher beschrieben, deutsch] | |||
== OCR bei genealogy.net == | == OCR bei genealogy.net == | ||
Aufgrund der großen Datenmengen scheint es in vielen Fällen verlockend, OCR einzusetzen. Die Werbeversprechen der Herstellern (95% Genauigkeit) hören sich erfolgversprechend an. Leider sieht es in der Praxis anders aus. Aus folgenden Gründen lässt sich für unsere Art von Dokumenten OCR nicht besonders gut einsetzen: | Aufgrund der großen Datenmengen scheint es in vielen Fällen verlockend, OCR einzusetzen. Die Werbeversprechen der Herstellern (95% Genauigkeit) hören sich erfolgversprechend an. Leider sieht es in der Praxis anders aus. Aus folgenden Gründen lässt sich für unsere Art von Dokumenten OCR nicht besonders gut einsetzen: | ||
* Die von den Herstellern angegebene Genauigkeit bezieht sich auf die ''Zeichengenaugikeit''. Die Wortgenauigkeit ist deutlich geringer. Beträgt z.B. die Zeichengenauigkeit 95%, so wird ein Wort mit sieben Buchstaben mit nur noch bei 70%<ref>0,95^7=0,7</ref>. Es gibt eine umfangreiche Studie, die zu dem Ergebnis kommt, dass schon in diesem Fall komplettes Abtippen effizienter als OCR mit anschließendem Korrekturlesen ist. | * Die von den Herstellern angegebene Genauigkeit bezieht sich auf die ''Zeichengenaugikeit''. Die Wortgenauigkeit ist deutlich geringer. Beträgt z.B. die Zeichengenauigkeit 95%, so wird ein Wort mit sieben Buchstaben mit nur noch bei 70%<ref>0,95^7=0,7</ref>. Es gibt eine umfangreiche Studie, die zu dem Ergebnis kommt, dass schon in diesem Fall komplettes Abtippen effizienter als OCR '''mit anschließendem Korrekturlesen''' ist. | ||
* Die Probleme mit der Zeichengenauigkeit kann man mit Hilfe von Grammatikanalyse und eines Wörterbuchs umgehen. Das funktioniert aber nur bei "normalem" Text, z.B. Tagebüchern, Manuskripten oder Briefen. Bei Familien- und Ortsnamen funktioniert es nicht, da es davon zu viele gibt und kein grammatikalischer Zusammenhang zu umgebenden Wort da ist. Aber gerade diese beiden Informationen sind für uns die wichtigsten. | * Die Probleme mit der Zeichengenauigkeit kann man mit Hilfe von Grammatikanalyse und eines Wörterbuchs umgehen. Das funktioniert aber nur bei "normalem" Text, z.B. Tagebüchern, Manuskripten oder Briefen. Bei Familien- und Ortsnamen funktioniert es nicht, da es davon zu viele gibt und kein grammatikalischer Zusammenhang zu umgebenden Wort da ist. Aber gerade diese beiden Informationen sind für uns die wichtigsten. | ||
* Die Erkennungsrate bei ''Frakturschrift'' ist geringer als die der heute üblichen Antiqua-Schrift. | * Die Erkennungsrate bei ''Frakturschrift'' ist geringer als die der heute üblichen Antiqua-Schrift. | ||
Version vom 13. Dezember 2015, 14:25 Uhr
OCR ist eine Abkürzung für Optical Character Recognition. Man versteht darunter das maschinelle Umsetzen von bildlich dargestelltem Text (Scans) in Testdaten. Es gibt sowohl kommerzielle als auch quelloffene Programme für OCR. Das wohl bekannteste quelloffene OCR-Programm ist Tesseract.
Eine umfassende Erklärung, wie OCR funktioniert, findet sich u. a. auf diesen Webseiten:
OCR bei genealogy.net
Aufgrund der großen Datenmengen scheint es in vielen Fällen verlockend, OCR einzusetzen. Die Werbeversprechen der Herstellern (95% Genauigkeit) hören sich erfolgversprechend an. Leider sieht es in der Praxis anders aus. Aus folgenden Gründen lässt sich für unsere Art von Dokumenten OCR nicht besonders gut einsetzen:
- Die von den Herstellern angegebene Genauigkeit bezieht sich auf die Zeichengenaugikeit. Die Wortgenauigkeit ist deutlich geringer. Beträgt z.B. die Zeichengenauigkeit 95%, so wird ein Wort mit sieben Buchstaben mit nur noch bei 70%[1]. Es gibt eine umfangreiche Studie, die zu dem Ergebnis kommt, dass schon in diesem Fall komplettes Abtippen effizienter als OCR mit anschließendem Korrekturlesen ist.
- Die Probleme mit der Zeichengenauigkeit kann man mit Hilfe von Grammatikanalyse und eines Wörterbuchs umgehen. Das funktioniert aber nur bei "normalem" Text, z.B. Tagebüchern, Manuskripten oder Briefen. Bei Familien- und Ortsnamen funktioniert es nicht, da es davon zu viele gibt und kein grammatikalischer Zusammenhang zu umgebenden Wort da ist. Aber gerade diese beiden Informationen sind für uns die wichtigsten.
- Die Erkennungsrate bei Frakturschrift ist geringer als die der heute üblichen Antiqua-Schrift.
- OCR-Programme sind auf Dokumentenarten wie Zeitungsartikel oder Literatur optimiert. Mit Tabellenstrukturen, wie man sie z.B. in Ortsverzeichnissen vorfindet, kommt OCR sehr schlecht zurecht.
- Bei Handschrifterkennung muss man derzeit mindestens 100 Seiten eines Autors von Hand abtippen, bevor die Handschrift maschinell gelesen werden kann. Das ist also nur bei sehr umfangreichen Werken eines einzelnen Autors machbar. Bei einer Quelle mit ständig wechselnder Handschrift (z.B. Kirchenbuch oder Standesamtsurkunden) funktioniert es nicht. Auch liegt die Genauigkeit bei lediglich 70-80% - vermutlich die Zeichengenaugikeit.
- ↑ 0,95^7=0,7