So verändern maschinelles Lernen und optische Zeichenerkennung die Familienforschung

Image of smart brunette woman 20s typing on laptop while working
Image of smart brunette woman 20s in casual clothing typing on laptop while working or studying at home
Drobot Dean - stock.adobe.com

Wenn dieser Artikel Ihre Aufmerksamkeit erregt hat, interessieren Sie sich vermutlich für Indexierung oder für historische Aufzeichnungen im Internet. Möglicherweise gehört die Indexierung bereits zu Ihrer wöchentlichen oder monatlichen freiwilligen Arbeit. Falls dies der Fall ist, machen Sie so weiter! Sie bieten Menschen auf der ganzen Welt die Möglichkeit, ihre Vorfahren zu entdecken und mehr über ihre Familiengeschichte zu erfahren.

Indes haben unsere freiwilligen Indexierer eine wahre Mammutaufgabe vor sich. Etliche Milliarden Dokumente auf der ganzen Welt warten darauf, indexiert zu werden. Obwohl hunderttausende Menschen bereit sind, uns zu helfen, sind wir immer noch zu wenige, und unsere Freiwilligen benötigen zweifellos Hilfe.

Stapel handgeschriebener Dokumente, schwierig zu lesen für Computer.

Hier kommt die optische Zeichenerkennung ins Spiel – auch OCR oder computergestützte Indexierung genannt. Wie man sie auch bezeichnen mag – wichtig ist vor allem, dass die Technologie funktioniert. Mit OCR können wir die Qualität der Indexierung verbessern, die Anzahl der indexierten Dokumente erhöhen und die historischen Aufzeichnungen schneller für die Menschen bereitstellen, die unsere Website besuchen.

Dadurch können mehr Informationen durchsucht und mehr Dokumente erkundet werden, es bestehen also mehr Möglichkeiten zur Erforschung der eigenen Familie und somit der eigenen Geschichte.

Was ist optische Zeichenerkennung?

Optische Zeichenerkennung (Optical Character Recognition, OCR) besteht im Wesentlichen darin, dass ein Computer ein Bild ausliest und versucht, die darin enthaltenen Informationen – Namen, Daten, Orte, Ereignisse und sonstigen Text – zu extrahieren. Erwartungsgemäß erfüllt der Computer diese Aufgabe sehr schnell, viel schneller als ein Mensch. Angesichts der großen Anzahl der – jetzt und in Zukunft – zu indexierenden historischen Dokumente erweist sich die optische Zeichenerkennung als äußerst komfortabel. Sie ist wundervoll!

Ein per Computer erstellter Index eines spanischen Dokuments; zu finden auf FamilySearch.org
Handgeschriebenes historisches Dokument auf Spanisch mit Informationen zu Manuel M. Bacalao und Matilde Avez

Ein Sonderfall: Historische Aufzeichnungen

Natürlich klingt es nach einer hervorragenden Sache, OCR auf Dokumente anzuwenden! Warum sollten wir OCR nicht einfach für alle Aufzeichnungen nutzen, die es gibt? Die Sache hat einen Haken: Computer sind nicht so präzise wie Menschen und können nicht so gut mit Rätseln umgehen. Bereits eine eigenwillige Handschrift oder eine leichte Änderung in der Struktur eines gedruckten Formulars kann den Computer vor ein arges Problem stellen. Seine Interpretation eines Bildes ist für gewöhnlich genau genug, damit die Informationen für unsere Suchmaschinen verfügbar werden. Damit die Informationen aber tatsächlich nützlich – und auffindbar – sind, ist jedoch immer noch ein Mensch erforderlich, der eine Überprüfung vornimmt und eventuelle Fehler korrigiert.

So können Indexierer und OCR zusammenarbeiten

Heute benötigt FamilySearch Ihre Hilfe beim Indexieren mehr denn je. Im Zuge der Entwicklung der OCR-Technologie ändert sich die Art Ihres Beitrags zur Indexierung möglicherweise ein wenig. Anstatt ein Dokument von Grund auf zu indexieren, können Sie ein per Computer indexiertes Dokument überprüfen und korrekturlesen. Bei FamilySearch werden Aufzeichnungen schon seit jeher auf Genauigkeit überprüft; mit dieser Aufgabe ist die überprüfende Person also im Wesentlichen betraut, wenn sie die von anderen Freiwilligen indexierten Dokumente prüft.

Zwei Frauen betrachten die Online-Indexierungsoberfläche auf FamilySearch.org

FamilySearch und computergestützte Indexierung

Bisher wurde die optische Zeichenerkennung bei FamilySearch für die Indexierung von sage und schreibe 64 Millionen historischen Dokumenten eingesetzt. Das betreffende Projekt beinhaltet eine Sammlung spanischsprachiger Aufzeichnungen: Tauf-, Heirats-, Bestattungs- und andere kirchliche Urkunden. Nach Abschluss dieses Projekts werden fast 900 Millionen Dokumente indexiert sein und der Überprüfung durch einen Menschen bedürfen.

Möchten Sie bei der Indexierung von Dokumenten mitmachen? Suchen Sie hier nach einem Indexierungsprojekt.

Sobald Sie Erfahrung im Indexieren erworben haben, können Sie auch Prüfer werden.

Nutzen Sie all diese mit OCR indexierten Dokumente

Neunhundert Millionen Einträge. Fast eine Milliarde. Und diese Anzahl stammt aus nur einem einzigen Projekt. Auf die Frage, was man mit dem Ergebnis dieser umfangreichen Indexierung anfangen soll, gibt es eine einfache Antwort: Nutzen daraus ziehen. Auf FamilySearch.org können Sie nach Ihren Vorfahren suchen und Ihren Familienstammbaum erstellen. Geben Sie nicht auf, wenn Sie das Gesuchte nicht gleich finden! Kommen Sie in ein paar Wochen oder Monaten zurück und versuchen Sie es erneut. Die computergestützte Indexierung bringt laufend immer mehr Informationen hervor.

Denken Sie daran: Je mehr Daten und Orte Sie zu Ihren Vorfahren angeben, desto mehr Hinweise auf Aufzeichnungen können wir für Sie bereitstellen. Bei 900 Millionen verfügbaren neuen Einträgen können Sie sicher sein, dass wir eine ganze Menge weiterer Hinweise zu bieten haben.

Über den Verfasser