Come Machine-Learning e OCR stanno cambiando la Storia Familiare

Image of smart brunette woman 20s typing on laptop while working
Image of smart brunette woman 20s in casual clothing typing on laptop while working or studying at home
Drobot Dean - stock.adobe.com

Se questo articolo ha attirato la vostra attenzione, probabilmente avete un interesse nell'indicizzazione o nei documenti storici on-line. Forse l'indicizzazione fa parte dei vostri sforzi di volontariato settimanali o mensili. Se è così, continuate questo fantastico lavoro! State rendendo possibile per le persone di tutto il mondo di scoprire i loro antenati e saperne di più delle loro storie familiari.

Tuttavia, i nostri volontari dell'indicizzazione hanno un compito colossale di fronte a loro. Il mondo ha miliardi e miliardi di documenti in attesa di essere indicizzati. Anche se abbiamo centinaia di migliaia di persone disposte ad aiutare, siamo ancora in inferiorità numerica ed è chiaro che i nostri volontari avranno bisogno di aiuto.

Pile di documenti scritti a mano, difficili da leggere per i computer.

Ed ecco il riconoscimento ottico dei caratteri, denominato anche OCR, o indicizzazione assistita da computer. Entrambi i nomi funzionano: la cosa più importante è che la tecnologia funzioni. Grazie a OCR, stiamo migliorando la qualità dell'indicizzazione, aumentando il numero di documenti indicizzati e accelerando la velocità con cui i documenti storici diventano disponibili per le persone che visitano il nostro sito web.

Il risultato sono più informazioni disponibili per le persone da ricercare e più documenti da esplorare, in breve, più opportunità per fare quella scoperta riguardo la vostra famiglia che vi collega al vostro passato.

Che cos'è il Riconoscimento Ottico dei Caratteri (OCR)?

In termini semplici, il riconoscimento ottico dei caratteri è un computer che legge un'immagine e cerca di estrarre le informazioni, ovvero nomi, date, luoghi, eventi e altre, che trova lì. Come ci si potrebbe aspettare, il computer può farlo molto velocemente, molto più velocemente di una persona. Alla luce dei molti, molti documenti storici che devono essere indicizzati, ora e in futuro, il riconoscimento ottico dei caratteri è più che conveniente. È miracoloso.

Un Indice creato al computer di un documento spagnolo, come mostrato su FamilySearch.org.
Documenti storici scritti a mano in spagnolo, che mostrano informazioni riguardanti Manuel M Bacalao e Matilde Avez.

Il Caso Speciale dei Documenti Storici

Usare OCR nei documenti sembra una cosa fantastica! Potreste chiedervi, perché non abbiamo usato OCR per indicizzare tutti i documenti al mondo? Il problema è che un computer non è preciso come un essere umano o bravo a capire i problemi. Uno stile insolito di scrittura a mano o un leggero cambiamento nella struttura di una forma stampata possono causare imprevisti per il computer. L'interpretazione di un'immagine da parte del computer è di solito abbastanza accurata da rendere le informazioni disponibili ai nostri motori di ricerca. Tuttavia, affinché le informazioni siano davvero utili e trovabili, abbiamo ancora bisogno di un essere umano per rivederle rapidamente e correggere eventuali errori.

Come Indicizzatori e OCR Possono Lavorare Insieme

Oggi, FamilySearch ha bisogno del vostro aiuto per l'indicizzazione più che mai. Con lo sviluppo della tecnologia OCR, il modo in cui aiutate nell'indicizzazione può cambiare leggermente. Anziché indicizzare un documento da zero, potete revisionare un documento indicizzato dal computer, assicurandovi che le informazioni siano corrette e correggendo eventuali errori riscontrati. A FamilySearch, i documenti indicizzati sono sempre stati revisionati per verificarne l'accuratezza, quindi questo compito è essenzialmente ciò che i revisori fanno quando esaminano un batch di documenti indicizzati da un altro volontario.

Due donne che guardano l'interfaccia di indicizzazione sul web su FamilySearch.org.

FamilySearch e l'Indicizzazione Assistita dal Computer

Finora, FamilySearch ha utilizzato il riconoscimento ottico dei caratteri per indicizzare ben 64 milioni di documenti storici. Il progetto in questione coinvolge una raccolta di documenti in lingua spagnola, vale a dire battesimi, matrimoni, sepolture e altri documenti della chiesa. Una volta completato il progetto, quasi 900 milioni di documenti saranno stati indicizzati e dovranno essere revisionati da una persona vera.

Volete aiutare con l'indicizzazione dei documenti? Trovate un progetto di indicizzazione qui.

Dopo aver fatto esperienza di indicizzazione, potete anche diventare un revisore dell'indicizzazione.

Approffittate di Tutti Questi Documenti Indicizzati usando OCR

Novecento milioni di documenti. Quasi un miliardo. E questo numero proviene da un solo progetto. Se vi state chiedendo cosa dovreste fare come risultato di tutta questa indicizzazione, la risposta è semplice: approfittarne. Continuate a cercare i vostri antenati e a costruire il vostro albero familiare su FamilySearch.org. Se non riuscite a trovare quello che state cercando, non arrendetevi! Tornate tra qualche settimana o qualche mese e riprovate. Con l'indicizzazione assistita da computer, sono in arrivo ulteriori informazioni.

E ricordate, più date e luoghi aggiungete riguardo gli antenati, più documenti suggeriti possiamo inviarvi. Con 900 milioni di nuovi documenti dai quali attingere, potete essere sicuri che avremo molti più suggerimenti da inviare.

Informazioni sull’autore