国立国会図書館のデジタル化資料、「CLOVER OCR」でテキストデータ化

2021年7月21日

『ビジョン2021-2025 国立国会図書館のデジタルシフト』

　ＬＩＮＥ株式会社ＡＩカンパニーは７月15日、国立国会図書館が保有するデジタル化資料のＯＣＲテキストデータ化プロジェクトに「ＣＬＯＶＡ　ＯＣＲ」が採用されたと発表した。

　国立国会図書館では「ビジョン２０２１－２０２５国立国会図書館のデジタルシフト」の一環として、来年３月までに２４７万点のデジタル化資料をテキストデータ化する取り組みが行われている。

　ＯＣＲとは画像データや印刷物のテキスト部分を認識し、文字データに変換する機能。同プロジェクトは、視覚障がい者や高齢者を含む全ユーザーの利便性向上、アクセスの飛躍的な拡大を目指している。

　今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料であり、レイアウトも複雑なため、学習機能のない既存のＯＣＲでは同プロジェクトに必要な精度に達しないことや、２億２３００万枚超の資料解析に時間を要する点が課題となっていた。

　同社が開発した「ＣＬＯＶＡ　ＯＣＲ」は同プロジェクトで要求される「ルビ」「割注」「割書き」といった特殊な文書に関し、人手を介さずに読み取りするなど、最適なＯＣＲモデルを開発・実現することができる。