機械学習とOCRによる家族歴史の変容

Image of smart brunette woman 20s typing on laptop while working
Image of smart brunette woman 20s in casual clothing typing on laptop while working or studying at home
Drobot Dean - stock.adobe.com

この記事に目を止めた方は,恐らく索引作成またはオンラインの歴史記録に興味があるのではないでしょうか。索引作成を毎週または毎月,ボランティアでしている方かもしれません。もしそうであれば,そのすばらしい働きを続けてください。あなたは,世界中の人が自分の先祖を見つけて自分の家族歴史についてさらによく知ることができるようにしているのです。

しかし,索引作成のボランティアを行う人の前には,まだまだ膨大な数の仕事があります。世界には,索引化されるのを待っている記録が何億,何千万とあるのです。この作業を進んで手伝ってくれる人が何百,何千といるにもかかわらず,それでも足りません。このボランティアたちに援助が必要なのは明らかです。

手書きの記録の山はコンピューターによる読み取りが困難です。

そこで登場したのが,光学文字認識です。「OCR」または「コンピューター利用の索引作成」とも呼ばれます。どちらの名称でも結構です。大切なのは,テクノロジーが使えるということです。OCRのおかげで,索引作成の質が向上し,索引作成する記録の量が増え,わたしたちのウェブサイトを見る人たちに歴史記録を提供できるようになるスピードが速くなりました。

その結果,人々が検索できる情報が増え,調べられる文書の数も増加しました。つまり,自分の家族について発見し,過去と自分を結びつけることがさらにうまくできるようになってきたのです。

光学文字認識(OCR)とは何か

簡単な言葉で言えば,光文字認識とは,コンピューターによる画像の読み取りであり,情報抽出です。記録から名前や日付,地名,出来事その他の文字を読み取ります。皆さんの期待通り,コンピューターは,これをものすごいスピードで行います。手作業をはるかに超える速さです。今,そしてこれから索引作成されるべき歴史記録が莫大な量であることを考えると,光学文字認識は便利という言葉の域を越えています。それは奇跡なのです。

ファミリーサーチのウェブサイトに出ているコンピューターによる作成のスペイン語の記録。
手書きのスペイン語の歴史記録。マヌエル・M・バカラオとマチルデ・アベスの情報が分かります。

特殊なケースの歴史記録

OCRによる記録作成はすばらしいと思います。なぜ現存するすべての記録にOCRを使ってこなかったのかといぶかしく思うかもしれません。問題は,コンピューターは人間ほど正確に読み取ることができず,複雑な問題に対処することもできない,ということなのです。手書き文字が例外的な書体だったり,印刷された書式にやや変更があったりすると,コンピューターはそれを弾き飛ばしてしまいます。コンピューターの画像認識は通常,わたしたちの使う検索エンジンで利用できる情報を作るのに十分な精度があります。しかし,本当に利用しやすい情報,見つけやすい情報を提供するためには,人間が見直して間違いがあれば修正する必要があります。

索引作成とOCRの連携

今日,ファミリーサーチは皆さんの助けをかつてないほど必要としています。OCRの技術が発達するにつれて,皆さんの行う索引作成の作業も若干変わってきます。記録を一から索引作成するのではなく,コンピューターが索引化した記録を見直して間違いがないか確認し,間違いが見つかった場合には修正します。ファミリーサーチでは,正確さを期すために,常に見直しをしています。ですから,この作業は本質的に,ほかのボランティアが索引化した一まとまりの記録の見直しをする作業なのです。

ファミリーサーチの索引作成のウェブ画面を見ている二人の女性

ファミリーサーチとコンピューター利用の索引作成

これまでにファミリーサーチは,光学文字認識機能を使って6,400万件という膨大な記録を索引化してきました。問題のプロジェクトには,スペイン語の記録も含まれています。具体的には,洗礼や結婚,埋葬その他の教会文書です。このプロジェクトが終わった暁には900万件近くの記録が索引化されて,実際に人間が見直しをする段階に入ります。

記録の索引化に協力していただけますか。索引作成プロジェクトについてはこちら

一度索引作成を経験したら,索引作成レビューワーになることもできます

これらOCRで索引化した記録をすべて活用

9億件の記録といえば,ほぼ10億件です。しかも,この数は,たった一つのプロジェクトで扱う記録の数なのです。索引化されたこんなにたくさんの記録をどうするのかと疑問に思っているとしたら,答えは簡単です。活用してください。引き続きファミリーサーチで自分の先祖を探究し,家系図を作るのです。探している記録が見つからなくても諦めてはいけません。数週間または数か月たってから,また挑戦してください。コンピューター利用の索引作成ですから,新しい情報が次々に入ってきます。

そして,日付や地名を追加すればするほど,わたしたちがあなたに送ることのできる記録のヒントも多くなる,ということを忘れないでください。9億件もの記録が活用できるのですから,わたしたちも記録のヒントをもっとたくさん送れるようになります。

著者について