Cómo el aprendizaje automático y el OCR están cambiando la historia familiar

Image of smart brunette woman 20s typing on laptop while working
Image of smart brunette woman 20s in casual clothing typing on laptop while working or studying at home
Drobot Dean - stock.adobe.com

Si este artículo le llamó la atención, es probable que tenga interés en indexar o en los registros históricos en línea. Tal vez usted ha hecho que la indexación sea parte de sus esfuerzos voluntarios semanales o mensuales. De ser así, ¡siga con el increíble trabajo! Está haciendo posible que personas de todo el mundo descubran a sus antepasados y aprendan más sobre sus historias familiares.

Aún así, nuestros voluntarios de indexación tienen frente a ellos una tarea colosal. El mundo tiene miles de millones y miles de millones de registros a la espera de ser indexados. Aunque tenemos cientos de miles de personas dispuestas a ayudar, todavía estamos superados en número y está claro que nuestros voluntarios necesitarán ayuda.

Montones de documentos escritos a mano, difíciles de leer para las computadoras.

Ingrese el reconocimiento óptico de caracteres, también denominado OCR, o la indexación asistida por computadora. Cualquiera de los dos nombres funciona, lo más importante es que funcione la tecnología. Gracias al OCR, estamos mejorando la calidad de la indexación, aumentando el número de registros indexados, y acelerando la velocidad a la que los registros históricos están disponibles para las personas que visitan nuestro sitio web.

El resultado es más información para que las personas busquen y más documentos en los que explorar, en resumen, más oportunidades para hacer ese descubrimiento sobre su familia que le conecta con su pasado.

¿Qué es el reconocimiento óptico de caracteres (OCR)?

En términos simples, el reconocimiento óptico de caracteres es una computadora que lee una imagen y trata de extraer la información (nombres, fechas, lugares, acontecimientos, y otro texto) que allí encuentra. Como es de esperar, la computadora puede hacer esto muy rápido, mucho más rápido que una persona. A la luz de los muchos, muchos registros históricos que necesitan ser indexados, ahora y en el futuro, el reconocimiento óptico de caracteres es más que conveniente. Es milagroso.

Un índice creado por una computadora de un registro en español, como se muestra en FamilySearch.org.
Registro histórico escrito a mano en español, mostrando la información de Manuel M Bacalao y Matilde Avez.

El caso especial de los registros históricos

¡El uso del OCR en los registros suena muy bien! Se podría preguntar, ¿por qué no hemos estado usando el OCR para indexar todos los registros que hay? El problema es que una computadora no es tan precisa como un ser humano o tan buena para descifrar enigmas. Un estilo inusual de manuscrito o un ligero cambio en la estructura de un formulario impreso puede lanzar a la computadora una verdadera bola curva. La interpretación de una imagen por la computadora suele ser lo suficientemente precisa como para poner la información a disposición de nuestros motores de búsqueda. Sin embargo, para que la información sea realmente útil, y que se pueda encontrar, todavía necesitamos que un ser humano la revise rápidamente y corrija cualquier error.

Cómo los indexadores y el OCR pueden trabajar juntos

Hoy en día, FamilySearch necesita más que nunca su ayuda con la indexación. A medida que se desarrolla la tecnología del OCR, la forma en que se ayuda con la indexación puede cambiar ligeramente. En lugar de indexar un registro desde cero, se puede revisar un registro que la computadora indexó, asegurándose de que la información sea correcta y corrigiendo los errores que se encuentren. En FamilySearch, siempre se han revisado los registros indexados para obtener la precisión, por lo que esta tarea es esencialmente en lo que los revisores se empeñan cuando revisan un lote de registros que ha sido indexado por otro voluntario.

Dos mujeres que miran en FamilySearch.org la interfaz de la indexación en línea.

FamilySearch y la indexación asistida por computadora

Hasta ahora, FamilySearch ha empleado el reconocimiento óptico de caracteres para indexar un total grandísimo de 64 millones de registros históricos. El proyecto en cuestión involucra una colección de registros en español, a saber, bautismos infantiles, matrimonios, entierros, y otros documentos eclesiásticos. Cuando el proyecto esté completo, casi 900 millones de registros habrán sido indexados y necesitarán ser revisados por una persona real.

¿Desea ayudar usted con la indexación de registros? Encuentre un proyecto de indexación aquí.

Una vez que tenga experiencia en la indexación, también puede convertirse en un revisor de indexación.

Aproveche todos estos registros indexados por el OCR

Novecientos millones de registros. Casi mil millones. Y este número viene de un solo proyecto. Si se está preguntando qué debe hacer como resultado de toda esta indexación, la respuesta es simple: aprovéchela. Continúe buscando a sus antepasados y construyendo su árbol familiar en FamilySearch.org. Si no encuentra lo que busca, ¡no se rinda! Vuelva en unas semanas o meses, e inténtelo de nuevo. Con la indexación asistida por computadora, se obtendrá más información.

Y recuerde, cuantas más fechas y lugares se agreguen sobre los antepasados, más registros sugeridos le podemos enviar. Con 900 millones de nuevos registros de los que escoger, puede estar seguro de que tendremos muchas más sugerencias que enviar.

Sobre el autor