記事詳細

【Data Dreamersが金融データ活用推進協会(FDUA)賞 学生部門3位】
金融業界最大のデータ分析コンペティション「(金融庁共催)第3回金融データ活用チャレンジ」で

(金融庁共催)第3回金融データ活用チャレンジ」学生部門3位になったData Dreamersの山本 佳輝さん(写真左)と 皆川 青輝さん(写真右)。いずれも山本 知仁研究室

金沢工業大学Data Dreamersの山本 佳輝さん(情報工学科4年)と 皆川 青輝さん(情報工学科4年)が、金融業界最大のデータ分析コンペティション「(金融庁共催)第3回金融データ活用チャレンジ」で金融データ活用推進協会(FDUA)賞 学生部門3位となりました。(※学年はいずれも2025年4月21日現在)

金融データ活用チャレンジは、金融機関での実務経験に近いデータを提供し、実務的?社会的に意義のある課題設定などが特徴の競技会。第3回(2025年1月~2月)を迎える今大会は、「生成AIを活用した資産運用アドバイス」をテーマに、初となる金融庁との共催で行われ、1,544名(うち金融機関勤務者601名)が参加しました。


【金融データ活用チャレンジ※】

近年、企業の持続可能性や社会的責任への関心が高まる中、ESG(環境?社会?ガバナンス)レポート※や統合報告書は、企業の透明性や信頼性を示す重要な情報源として位置付けられています。しかし、これらの報告書には膨大なデータや詳細な情報が含まれており、関係者が必要な情報を迅速かつ的確に把握することは容易ではありません。そこで、本コンペティションでは、企業のESGレポートや統合報告書に関連する質問に対して自動的かつ正確に回答できるRAGシステム※の構築を目指します。本コンペティションでは、J-LAKE(日本取引所グループの統合データサービスプラットフォーム)の情報を用いてRAGシステムを構築。提供されたデータを元に、質問(query.csv)に対する回答を生成し、その回答の精度を競います。

※(金融庁共催)第3回金融データ活用チャレンジ
生成AIを活用して企業のESGレポートや統合報告書に関連する質問に回答しよう!
https://signate.jp/competitions/1515

※ESG
Environment(環境)、Social(社会)、Governance(ガバナンス)の3つの要素を考慮した投資活動や経営?事業活動を指す言葉

※RAG(Retrieval-Augmented Generation)
大規模言語モデル(LLM)と外部の情報を組み合わせることで、回答の精度を向上させる技術です。自然言語処理(NLP)技術の一種で、検索AIと生成AIを統合したもの。


【山本 佳輝さん、皆川 青輝さんが構築したRAGシステムについて】

【開発概要】

本コンペティションで私たちは、企業のESGレポートや統合報告書に関する膨大で複雑な情報から、必要な内容を迅速かつ正確に抽出?回答できるRAG(Retrieval-Augmented Generation)システムの構築を目指しました。これらの報告書は、企業の透明性や社会的責任を評価する上で重要な資料ですが、関係者が知りたい情報を的確に見つけるのは困難です。従来の検索では情報の断片的な情報にとどまり、全体像の把握や文脈理解には限界があります。そこで私たちは、図などを含めた関連情報を自動で検索?抽出し、それらを統合した後、RAGを活用することで自然な日本語で回答できるようなシステムの構築を目指しました。下記が構築したシステムのアーキテクチャになります。

図1 構築したRAGシステムのアーキテクチャ(PDF)

【図のStoreの部分】
Document intelligence (Azure)を用いた情報の抽出

[Azure AI | Document Intelligence Studio]( https://documentintelligence.ai.azure.com/studio )では1枚ずつのpdfの画像データから文字認識(OCR)、レイアウト分析を行うことができます。これをPythonでAPIとして呼び出すことで、RAGのパイプラインに組み込んでいます。テキストや表(テーブル)はMarkdown形式で取得できます。ただし、表はHTML形式で返されるため、これを「|(パイプ)」区切りのMarkdown形式に変換する処理も行っています。また、ページ番号や単語の断片など、意味のない不要な情報は自動的に除去されるよう自動整形用のコードを実装しました。

Document Intelligenceでは、画像をそのまま取得することはできません。そのため、返される位置情報をもとに、図やグラフの領域をクロッピングする処理を実装しました。さらに、図が極端に小さすぎる場合や大きすぎる場合には、面積を計算して自動的に除外するフィルターを組み込んでいます。また、図のタイトルが画像に含まれるよう、図の上部の余白を広げる調整も加えました。

図2 Document intelligenceを用いた情報抽出のイメージ※(PDF)

※金沢工業大学「入試案内2025」デジタルパンフレットpp.54-55
/nyusi/shiryo.html


独自モデルでのグラフ画像フィルタリング

抽出された図の中には、タスクと無関係な画像も多く含まれていました。こうした不要な画像を自動で除外するため、2値分類の画像フィルタリングモデルを新たに構築しました。モデルには、事前学習済みのResNet50を使用し、すべての層を微調整する転移学習を行いました。データは、運営側が用意したPDF10件から取得した画像を用い、各クラス500?1000枚ほどを準備しました。


グラフ?図表をテキスト表現へ

図やグラフの内容を検索可能にするためには、それらをテキスト情報へと変換する必要があります。そこで、GPT-4o miniを使い、画像から説明文(キャプション)を自動生成し、それをベクトル空間に埋め込む手法を採用しました。

 図3 埋め込まれる図表のイメージ図※(PDF)

図3 をテキスト表現に変換した出力結果は以下のようになります。

AI?IoT?データサイエンスなどの情報技術と各専門分野(工学、建築、化学、情報、デザイン、威廉希尔中文网站など)の融合によって、次世代の価値創造を実現する教育?研究体制を示しています。

中央には「情報技術」と「専門分野」の掛け合わせが示されており、これにより威廉希尔中文网站を中心としたDX(デジタルトランスフォーメーション)を推進。その先にはGX(グリーントランスフォーメーション)、さらに**SX(サステナビリティトランスフォーメーション)**へと進化していく構造になっています。

DX(Digital Transformation):情報処理?情報通信技術を駆使し、産業構造の変革と新たな価値創造を目指す。

GX(Green Transformation):持続可能な社会の実現に向け、環境配慮型技術?制度改革を促進。

SX(Sustainability Transformation):グローバル社会全体の持続可能性を追求し、社会的?経済的価値の最大化を図る。

さらに、図の上部には次のような重点目標が掲げられています:

AI時代に求められる「専門分野×情報技術」の専門人材の育成

文理の枠を超えた社会実装型教育?研究プロジェクトの推進

※金沢工業大学「入試案内2025」デジタルパンフレットp009
/nyusi/shiryo.html


埋め込み、Chunking

こうして得られたテキスト?表?図表の説明文はすべて、LangChainのFAISSライブラリを用いたベクトルストアに保存しています。ドキュメントはPDF1ページごとに、テキスト?Markdown形式のテーブル?図の説明文をひとつに結合して構成されています。

さらに、検索精度を高めるために、企業名やページ番号、元画像の保存パス、元PDFファイル名などのメタデータも一緒に保存しています。文章は、2000チャンクでページごとに分割を行っていますが、類似度計算は比較的精度が高く、LLMに入力する際のコンテキストとしても問題なく機能しました。


【図のRetrieveの部分】

質問文には企業名が含まれていることが多いため、すべての文書を対象にするのは非効率です。そこで、事前に付与しておいたメタデータと、質問文から企業名を自動抽出する機構を組み合わせることで、企業名でフィルタリングを行い、無駄のない検索を実現しています。検索にはFAISSを用い、質問文をベクトルに変換して類似度検索を行います。ここでは、保存時と同じ埋め込みモデルを使って一貫性を保ち、精度の高い検索結果を得られるようにしています。


【図のAugmentの部分】

検索された文脈情報と質問文を組み合わせ、LLMに渡すためのプロンプトを生成します。このプロセスでは、複数のプロンプトエンジニアリング手法をテキストファイルベースで切り替えられるようにし、効率よく実験?検証できる仕組みを整えました。


【図のGenerateの部分】

当初、運営側から提供されているAzure OpenAIの「4o-mini」を使用していましたが、計算精度や表データを参照して比較する際の正答率が非常に低かったため、OpenAIの「gpt-4o」のAPIを使用しました。最終的には、「o1-preview」を使用することで、かなり正答率が高くなりました。


【山本 佳輝さんのコメント】

今回のコンペティションでは参加が遅れたこともあり、限られた時間での対応となりましたが、計画通りに多くの機能を実装できた点は良い成果でした。特に情報抽出の精度を高め、すべての質問に対応できる状態に仕上げられたことは大きな成果と考えています。一方で、検索部分は改善の余地があり、チャンク分割と類似度検索に依存した結果、推論コストが高くなってしまいました。今後は、精度とコストのバランスを意識し、検索手法やコンテキスト選定の工夫にも取り組んでいきたいと考えています。


【皆川 青輝さんのコメント】

今回のコンペティションを通じて、RAGの構成や精度向上の手法について深く学ぶことができました。特に、プロンプトの設計が回答の質に大きく影響することを実感し、試行錯誤を重ねたことが良い経験となりました。また、解法共有会では上位入賞者のユニークなアプローチに大きな刺激を受け、自分の視野を広げる良い機会となりました。今後もKaggleやSIGNATEのコンペに積極的に参加し、スキルを磨いていきたいと考えています。


【関連ページ】

Data Dreamers WEBサイト

Data Dreamers X

一般社団法人金融データ活用推進協会プレスリリース

金沢工業大学研究室ガイド 情報理威廉希尔中文网站 知能情報システム学科 山本 知仁研究室

KIT金沢工業大学

  • Hi-Service Japan 300
  • JIHEE
  • JUAA
  • SDGs

KIT(ケイアイティ)は金沢工業大学のブランドネームです。

Copyright © Kanazawa Institute of Technology. All Rights Reserved.