Каким образом машинное обучение и система OCR меняют семейную историю

Image of smart brunette woman 20s typing on laptop while working
Image of smart brunette woman 20s in casual clothing typing on laptop while working or studying at home
Drobot Dean - stock.adobe.com

Если эта статья привлекла ваше внимание, вы, вероятно, заинтересованы в индексировании или в поиске исторических записей в Интернете. Вполне возможно, индексирование стало частью вашей еженедельной или ежемесячной волонтерской деятельности. Если это так, продолжайте эту удивительную работу! Вы предоставляете возможность людям во всем мире найти своих предков и узнать больше об их семейной истории.

Тем не менее, перед нашими волонтерами в сфере индексирования стоит колоссальная задача. Миллиарды и миллиарды записей во всем мире ожидают индексирования. Несмотря на то, что есть сотни тысяч людей, желающих нам помочь, наша численность недостаточна и очевидно, что нашим волонтерам необходима помощь.

Перед нами горы рукописных документов, которые трудно прочитать компьютеру.

Откройте для себя оптическое распознавание символов, также известное как система OCR или индексирование с помощью компьютера. Любое из названий вполне подходит, но важнее то, что эта технология работает. Благодаря системе OCR мы улучшаем качество индексирования, увеличиваем количество проиндексированных записей и скорость, с которой исторические записи становятся доступными для людей, посещающих наш сайт.

В результате люди получают больше информации для поиска, а также большее количество документов для исследования. Короче говоря, просто больше возможностей узнать что-то о своем роде, что связывает вас с вашим прошлым.

Что представляет собой оптическое распознавание символов (OCR)?

Говоря простым языком, оптическое распознавание символов – это компьютерная система, считывающая изображение и извлекающая информацию – имена, даты, места, события, а также другой текст, определяемый системой. Как и следовало ожидать, компьютер может делать это очень быстро – намного быстрее, чем человек. В свете того, что многие и многие исторические записи нуждаются в индексировании сейчас и в будущем, такое оптическое распознавание символов более чем удобно. Оно просто чудесно.

Созданный компьютером каталог испанских записей, представленный на сайте FamilySearch.org.
Рукописная историческая запись на испанском языке, содержащая информацию о Мануэле М. Бакалао и Матильде Авес.

Особый случай исторических записей

Использование системы OCR для считывания записей – это здорово! Вы можете задаться вопросом, почему мы не использовали систему OCR для индексирования каждой записи? Проблема в том, что компьютерная система не так точна, как человеческий разум, и не так хороша в расшифровке головоломок. Необычный стиль почерка или небольшое изменение структуры печатной формы может сбить работу компьютера. Компьютерная интерпретация изображения обычно достаточно точна, чтобы сделать информацию доступной для наших поисковых систем. Однако для того, чтобы информация была действительно полезной и доступной для поиска, нам все равно нужен человек, который быстро ее проанализирует и исправит ошибки.

Как индексаторы и система OCR могут работать вместе

Сегодня FamilySearch, как никогда ранее, нуждается в вашей помощи в индексировании. Развитие технологии оптического распознавания текста может видоизменить то, как вы помогаете индексировать. Вместо того, чтобы индексировать запись с нуля, вы можете просмотреть запись, проиндексированную компьютером, чтобы убедиться в правильности информации и исправить любые обнаруженные ошибки. В FamilySearch индексированные записи всегда проверяются на предмет точности, потому именно эту задачу берут на себя другие операторы, которые дополнительно проверяют партию записей, ранее проиндексированную другим волонтером.

Две женщины разглядывают интерфейс системы Интернет-индексирования на сайте FamilySearch.org.

FamilySearch и индексирование с помощью компьютера

На данный момент FamilySearch использует оптическое распознавание символов для индексирования 64 миллионов исторических записей. Рассматриваемый проект включает сборник записей на испанском языке, а именно записей крещений, браков, захоронений и других церковных документов. По завершению проекта почти 900 миллионов записей будут проиндексированы и потребуют проверки, осуществляемой человеком.

Желаете помочь с индексированием записей? Найдите проект индексирования здесь.

Как только вы обретете опыт в индексировании, то вы также сможете стать арбитром.

Воспользуйтесь преимуществами всех этих записей, обработанных OCR-индексированием

Девятьсот миллионов записей. Почти миллиард. И это количество только из одного проекта. Если вы задаетесь вопросом, что вам необходимо будет делать по результатам всего этого индексирования, ответ прост: воспользуйтесь всем этим. Продолжайте осуществлять поиск своих предков и составлять свое семейное древо на сайте FamilySearch.org. Если вы не можете найти то, что ищете, не сдавайтесь! Вернитесь через несколько недель или месяцев и попробуйте еще раз. Благодаря индексированию с помощью компьютера будет появляться больше информации.

И помните, чем больше информации о датах и местах вы добавите о ваших предках, тем больше подсказок о записях мы сможем направить вам. Вы можете быть уверены в том, что с учетом 900 миллионов новых записей, у нас будет гораздо больше подсказок.

Об авторе