おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

株式会社リコーへドキュメント読み取りに対応したLLM開発に必要な独自データを作成し提供

update:
   
FastLabel
国内企業のIR情報や帳票フォームの収集及びアノテーション業務を通じGENIAC第2期を支援



Data-centric AI[※1]開発に必要なデータ収集・生成からアノテーション、モデル開発、DataOps構築までの全工程を支援するFastLabel株式会社(本社:東京都新宿区、代表取締役CEO:鈴木健史、以下「当社」)は、株式会社リコー (本社:東京都大田区、社長執行役員:大山 晃、以下「リコー」)へ、日本企業の図表を含むドキュメントの読み取りに対応した LMM の基本モデルの開発に必要な、独自のデータを作成し提供したことをお知らせします。
[※1] Data-centric AI:AIのデータセットを改善することでモデルの精度改善を実現するアプローチ
[画像: https://prcdn.freetls.fastly.net/release_image/65427/178/65427-178-fe3bae7a535aed7e764e701d492b7f29-866x252.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


今回の当社が支援したデータ作成と提供は、経済産業省・NEDOが実施する国内における生成AI開発力強化を目的にしたプロジェクト(以下、GENIAC)[※2]」の第2期(2024年10月発表[※3])の中で行われ、リコーによるきめ細かな画像認識を必要とするビジネス文書の読解精度を高めた独自のLLM開発に活用されました。

[※2] GENIAC(Generative AI Accelerator Challenge):GENIACは、主に生成 AI のコア技術である基盤モデルの開発に対する計算資源の提供や、データエコシステムの構築や、生成 AI の利活用に向けた先進事例創出に関する支援等が行われます。


[※3]リコーの発表:https://jp.ricoh.com/release/2024/1017_1

【LLM開発に際しての課題】
今回のリコーによるLLM開発は、以下の課題を踏まえてプロジェクトを進行しました。

企業内文書活用の限界:企業には請求書、経営資料、技術文書など多様な形式の文書が蓄積されていますが、従来のテキスト検索では意図した結果が得られず、効果的な活用ができていません。
労働環境の変化への対応:労働力減少、ベテラン社員の退職による技能継承問題、外国人労働者増加に伴う多言語化ニーズなど、企業が直面する経営課題への対応が求められています。
既存AI技術の技術的制約:既存のLLMでは、図表や画像を含む複雑なビジネス文書の読解精度が不十分で、企業知の高度活用に限界があります。

【当社の支援内容】
当社では、上記の課題を解決につなげるアプローチとしてリコーへ以下の支援を行いました。

国内企業のIR情報の収集:モデルのベンチマークとして活用するために国内企業のIR情報を対象にグラフや表を中心に1万件以上のデータ収集を行いました。
帳票フォームの収集:モデルに取り込むデータとして省庁や市区町村が発行している帳票フォームを、商用化も対象にした著作権規約を確認した上で数千件の単位でデータ取集を行いました。
収集したデータへのアノテーション:収集した多様かつ複雑な帳票に対して要件定義を行いながらアノテーションの具体的な方法を定めて作業を実施しました。

【プロジェクトの成果】
最終的に今回のリコーのプロジェクトでは、以下のような成果が上がっています。

学習用データの人工生成:モデルの開発に際し、文字/円グラフ/棒グラフ/フローチャートなどの視覚データ合計600万枚以上を人工生成することで、大量の学習用データの整備が可能となり、モデルの性能向上に寄与しています。
省コスト・省リソースでの運用:今回のモデルではアーキテクチャを改良する独自技術と大量の人工データによる学習を組み合わせており、同規模のオープンソースモデルを凌ぐ性能を確保しながら、省コスト・省リソースでの運用を実現しています。
プライベートモデルの性能向上:保険業務に対応するように学習を行なったモデルでは基本モデルに比べて顕著に性能が向上しました。今後、保険業務に関する規定、マニュアル、Q&Aデータなどを学習させて実用化に向けた開発を行なっていく予定です。
当社では今回の事例をはじめとしたLLMの開発を行う企業に、AI開発のデータ作成という観点で質の高い支援を引き続き行なってまいります。

【リコー リコーデジタルサービスBU AIサービス事業本部 本部長 梅津様より本支援に関する所感】
FastLabel様には学習・評価に使えるデータの大量収集とアノテーションを実施いただきました。これら質の高いデータにより、モデル開発が加速し、ベンチマークの公開も可能になりました。誠にありがとうございます。今後も連携により、AI研究開発をさらに加速させていきたいと考えておりますので、引き続きよろしくお願いいたします。

【当社事業について】
当社は「データセット提供」、「アノテーション代行」、「モデル開発支援」、「FastLabel Data Factory」など、AI開発を行うお客様に向けたトータルソリューションを提供しています。

データセット提供:権利クリアかつ高品質な各種データの収集、販売を行います。ストックの提供や新規撮り下ろしにも対応しています。
アノテーション代行:あらゆる非構造化データに対応し、弊社独自の品質管理によりデリバリー品質 を担保しています。ドメイン知識が必要な仕様にも対応可能です。
モデル開発支援:画像や動画の撮影条件や正確性/統一性を読み解きながらモデルの学習・評価を実施し、評価結果を精度向上につなげていきます。
FastLabel Data Factory:データ収集・管理、アノテーション、モデル開発までワンストップで提供するSaaSです。DataOps構築を実現し教師データ準備を大幅に効率化できます。

当社は各業界リーディング企業への豊富な支援実績を有し、権利クリアかつ高品質なデータ作成に強みを置いております。豊富な経験を通して培ったアノテーション仕様作成をはじめとしたAI開発のノウハウで、今後も多くのお客様を支援してまいります。

【当社の概要について】
社名:FastLabel株式会社
代表者:代表取締役CEO 鈴木健史
事業内容:Data-centric AI開発を支援するプロフェッショナルサービスとプロダクトの提供
設立:2020年1月23日
本社所在地:〒163-0224 東京都新宿区西新宿2-6-1 新宿住友ビル24階
URL:https://fastlabel.ai/

トピックス

  1. 国民的グループTOKIOが解散 信頼回復は困難と判断

    国民的グループTOKIOが解散 信頼回復は困難と判断

    人気グループ「TOKIO」が、本日2025年6月25日をもって解散することを公式サイトを通じて発表し…
  2. 拡散中の「65歳以上バス無料」は悪質なデマ 東京都などが注意喚起

    拡散中の「65歳以上バス無料」は悪質なデマ 東京都などが注意喚起

    東京都は6月23日、YouTube上で拡散している「65歳以上の高齢者に対し、バス運賃が7月1日から…
  3. うどんがスナック菓子!?丸亀新作「丸亀シェイクぴっぴ」が新感覚で美味しい

    うどんがスナック菓子!?丸亀新作「丸亀シェイクぴっぴ」が新感覚で美味しい

    丸亀製麺が6月24日に販売を開始したのは、その名も「丸亀シェイクぴっぴ」。讃岐うどんをサクサクのスナ…

編集部おすすめ

  1. 時代の節目「goo辞書」が終了 SNSでは惜しむ声
    NTTドコモが提供していたオンライン辞書サービス「goo辞書」が、2025年6月25日13時をもって…
  2. 電子楽器「Mood Pan(ムードパン)」
    ローランド株式会社は6月24日、アコースティックのハンドパンをモチーフに開発した新しい電子楽器「Mo…
  3. (C) 2025「恐怖心展」実行委員会
    テレビ東京と株式会社闇、株式会社ローソンエンタテインメントによるイベント「恐怖心展」が、7月18日か…
  4. “走る伝説”が文具に 東海道新幹線再生アルミボールペン発売、転売目的の購入は不可
    東海道新幹線の再生アルミを用いたスタイリッシュなボールペン、「東海道新幹線 再生アルミボールペン」が…
  5. 亀梨和也アーティスト写真/(C)KHONU
    亀梨和也のオフィシャルファンクラブが、6月23日18時に正式オープンすることが発表された。これに合わ…

【特集】STOP!ネット詐欺!

  1. さまざまなネット詐欺に潜入調査!

    さまざまなネット詐欺に潜入調査!

     インターネット上にまん延する、さまざまな詐欺サイトに「わざと」引っかかる潜入調査記事をまとめました。
ネット詐欺へ潜入調査!記事特集

提携メディア

ページ上部へ戻る