抽出可能データはありませんと空白画像ではどこが違っていて,何が問題なのでしょう。
あなたも,画像を「空白」とすべきか,それとも「抽出可能なデータはありません」にすべきか,その使い分けに困っている一人ですか。どういう場合に,画像を「読み取り不可能」と印をつけてよいのか分かりませんか。実際は重複画像であることがどうすれば分かりますか。混乱の原因を明らかにしましょう。
何が違うのでしょうか。
「標準」画像には,読み取り可能で適切な情報が含まれています。例えば,一つのバッチをダウンロードしたとき,その画像がプロジェクトと一致していて読み取り可能であれば,画像の種類を標準にするでしょう。
「空白画像」の場合は,完全に何も写っていないか,ページ番号やシート番号,あるいは配置情報などのヘッダーデータを含んでいる可能性があります。ですが,その文書に何の記録も表示されていなければ,こういった種類の画像は空白画像と印を付けます。ただし,その画像を空白画像と印をする前に,画像全体を注意して見てください。
これは国勢調査プロジェクトからの空白画像の一例です。
「重複画像」とは,同じバッチの中で別の画像と完全に重複しているものです。その画像が二度撮影されている場合に発生します。読み取りやすい方の画像を索引作成し,もう一方を重複画像としてください。
「抽出可能なデータ画像はありません」には,画像に関する記録情報が載っていますが,その情報は索引作成中のプロジェクトとは一致しません。例を見ると,死亡記録プロジェクトの中に出生記録があります。そういう場合には,この画像を抽出可能なデータ画像はありませんとします。
死亡記録プロジェクトの作業中にこの画像が出た場合は,読み取り可能な死亡証明書であることから,標準とするでしょう。死亡記録プロジェクトの作業中にこの画像が出た場合は,死亡記録には該当しない出生証明書であることから,抽出可能なデータ画像はありませんにします。
「読み取り不可能な画像」は,全体の画像が明るすぎ,暗すぎ,または傷みすぎていて,必要な情報を全く索引作成できないときに使用します。ですが,破れたページのように一部でも判読できる場合は,画像の種類を標準にし,読み取れるものを索引作成して,不明の必須フィールドを空白とします。
これは読み取り不可能な画像の一例です。記載された情報はあるものの,文字が薄過ぎて書き写すことができません。
何が問題ですか。
索引作成者は,ヘッダーデータの正しい分類方法を知っている必要があります。索引作成者Aが,ある画像に空白と印を付け,索引作成者Bは同じものを抽出可能なデータはありませんとした場合,その文書は確認作業に回すよう通知が出ます。双方の索引作成者ともヘッダーデータを正しく分類していれば,確認者がこれらのフィールドをレビューする時間を省くことができます。
分類を間違えたらどうしようと心配ですか。
双方の索引作成者とも,その画像を空白,あるいは抽出可能なデータがありませんとしている場合,画像は索引作成運営チームに送り返され,正しく印が付けられているかどうか品質検査が行われます。
自分の確認作業の結果に疑問符が付いているのはどういう意味ですか。
以前は,疑問符の付いたバッチは索引作成のやり直しが必要で,確認者から返却されてきたことを表していました。現在では,画像に空白または抽出可能なデータがありませんという印を正しく付けている場合にも疑問符が付きます。これは再検討する情報がないためです。
皆さんのニーズにお応えします。次回のニュースレターで取り上げてほしいトレーニングのヒントをfsindexing@familysearch.orgまでお寄せください。
これはファミリーサーチ索引作成ニュースレターから,連載記事の第2の投稿です。
- 聞かせてください:確認作業ニュースレターの続報
- 画像の種類:どれを選べばよいのかどうすれば分かりますか?
- 世界の索引作成作業
- 「感謝」の言葉
- エピソードを送ってください!