Google、ドキュメントをスキャンして理解するための VRDU AI データセットベンチマークを開発

2023/08/10

カリフォルニア州ロングビーチで開催された Knowledge Discovery in Databases (KDD) 2023 カンファレンスで、Google の Athena チームは Visually Rich Document Understanding (VRDU) データセットの開発について発表しました。このデータセットは、領収書、保険見積書、財務諸表などのドキュメントから豊富なデータを自動的に抽出できるシステムを構築できます。

PaLM 2のような大規模モデルは驚くべきレベルの精度を備えていますが、実際の使いやすさはデータセットのトレーニング能力に依存します。VRDU は、これらのモデルと複雑な現実世界のアプリケーションの間のギャップを埋めることを目的としています。これを行うために、Athena チームは 5 つのベンチマーク要件を考案しました。

リッチスキーマ:実際には、構造化抽出用にさまざまなリッチスキーマが使用されています。エンティティにはさまざまなデータ型 (数値、文字列、日付など) があり、必須、オプション、または 1 つのドキュメント内で繰り返されたり、ネストされたりする場合もあります。(ヘッダー、質問、回答) のような単純なフラットスキーマに対する抽出タスクは、実際に遭遇する典型的な問題を反映していません。

レイアウトが豊富なドキュメント:ドキュメントには複雑なレイアウト要素が含まれている必要があります。実際の設定における課題は、ドキュメントに表、キーと値のペアが含まれ、1 列レイアウトと 2 列レイアウトの切り替え、セクションごとにフォントサイズが異なる、キャプションや脚注付きの図が含まれる場合があるという事実から生じます。これを、ほとんどのドキュメントがセクションヘッダーを持つ文、段落、および章で構成されているデータセットと比較してください。これらの種類のドキュメントは、通常、長い入力に関する古典的な自然言語処理文献で焦点を当てています。

多様なテンプレート:ベンチマークには、さまざまな構造レイアウトまたはテンプレートが含まれている必要があります。高容量モデルでは、構造を記憶することで特定のテンプレートから抽出することは簡単です。ただし、実際には、新しいテンプレート/レイアウトに一般化できる必要があり、これはベンチマークのトレーニングとテストの分割で測定する必要があります。

高品質の OCR:ドキュメントには高品質の光学式文字認識 (OCR) 結果が必要です。このベンチマークの目的は、VRDU タスク自体に焦点を当て、OCR エンジンの選択によってもたらされる変動性を排除することです。

トークンレベルの注釈:ドキュメントには、各トークンに対応するエンティティの一部として注釈を付けることができるように、対応する入力テキストにマップバックできるグラウンドトゥルースの注釈が含まれている必要があります。これは、エンティティに対して抽出される値のテキストを単に提供することとは対照的です。これは、指定された値との偶発的な一致を心配する必要がない、クリーンなトレーニングデータを生成するための鍵となります。たとえば、一部の領収書では、税額がゼロの場合、「税引前合計」フィールドが「合計」フィールドと同じ値になることがあります。トークンレベルのアノテーションがあると、一致する値の両方のインスタンスが「合計」フィールドのグラウンドトゥルースとしてマークされるトレーニングデータを生成できなくなり、ノイズの多いサンプルが生成されます。

VRDU は、登録フォームと広告購入フォーム (公開されているデータセット) を組み合わせたものです。このデータセットは、単一テンプレート、混合テンプレート、および未表示のテンプレート学習ドキュメントを処理するために使用できます。構造化文書および非構造化文書内の情報の種類を識別して分類し、研究者が文書理解タスクの進捗状況を追跡できるようにします。これらの種類のドキュメントに対するデータセットのパフォーマンスは、ここで公開されている論文で読むことができます。

出典: Google リサーチ

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル