おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

Insight Edge が LLM を用いたドキュメント解析ライブラリを開発

update:
   
株式会社Insight Edge
AI エージェント/RAG 向けに最適化したマルチモーダル解析基盤「Exparso」を OSS として公開



株式会社Insight Edge(本社:東京都千代田区、代表取締役社長:小坂 順一、以下当社)は、LLM(大規模言語モデル)を活用した Python のドキュメント解析ライブラリ 「Exparso(エクスパーソ)」 を OSS(オープンソースソフトウェア)として公開したことをお知らせします。Exparso は PDF・Office ファイル・画像などの非構造データをマルチモーダル LLM で解析し、RAG(Retrieval Augmented Generation)の検索精度と回答品質の向上を実現します。
[画像: https://prcdn.freetls.fastly.net/release_image/145631/2/145631-2-36e4f348035f974e0effa090d8194ad7-875x284.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


背景
LLM を活用したテキストデータ解析が急速に普及するなか、RAG はその代表的な手法として広く活用されています。しかし、図表やフローチャート、手書き文字などを含むドキュメントから高精度な情報抽出と検索性の確保は、RAG システムの精度を左右する大きな課題となっていました。

当社では、住友商事グループをはじめとする様々な業界の DX プロジェクトに対する技術支援を通じて、現場の業務ドキュメントが多様であることや、その前処理がプロジェクトの成果に直結することを実感してきました。一方で、ドキュメント処理が属人的になりやすく、プロジェクトごとの品質や立ち上がり速度にばらつきが生じるという課題も明確になってきました。このように、当社では属人性を排除しつつ提供品質を平準化し、複数プロジェクトに共通して持続的な価値を提供できる基盤技術の必要性から、「Exparso」の開発に至りました。

「Exparso」の概要と特徴
Exparso は、以下のような幅広いドキュメント形式に対応した、マルチモーダル LLM ベースのドキュメント解析ライブラリです。

対応ドキュメント形式:
- 文書ファイル:PDF、Word、PowerPoint、テキスト、Markdown
- 画像ファイル:JPEG, PNG, BMP
- 表データ:Excel, CSV

主な特徴:
- マルチモーダル LLM による高度な内容理解:ページ単位でドキュメントの種別(テキスト、グラフ、テーブル、画像など)を判別し、特性に応じたプロンプトを生成。これにより、テキスト情報だけでなく、図表の内容やフローチャートが示す意味まで解析が可能です。
- 多様な形式への対応と拡張性:ビジネスの現場で一般的に利用されるドキュメント形式を網羅。今後は HTML や動画ファイルへの対応も予定しており、解析対象を拡大します。
- 大容量ファイルへの対応:LLM のトークン制限を超えるファイルも、文書を適切に分割・処理。コンテキストを維持したまま情報を抽出し、長文文書でも高精度な理解を実現します。
- 柔軟な LLM 連携機能:LangChain に対応し、AzureChatOpenAI, ChatOpenAI, ChatVertexAI, ChatAnthropic など、利用環境に応じた LLM との連携が可能です。
- RAG システムの検索精度向上に貢献:精度の高いテキスト抽出により、RAG システムでの検索対象データの品質が向上し、最終的な回答生成の精度向上に繋がります。

想定されるユースケース:
- 社内文書(報告書、契約書、マニュアル、議事録など)からのナレッジ抽出と検索システムへの活用
- 技術文書や研究論文など、図表やフローチャートを多用した文書の解析
- 手書き文字や複雑なレイアウトを含むの帳票(請求書、申請書など)からの自動データ入力支援
- 大規模なデータソースを活用した RAG システムによる基盤構築

入手方法
GitHub リポジトリ : https://github.com/InsightEdgeJP/exparso
※ Office ファイル解析には、別途 LibreOffice のインストールが必要です。
評価と今後の展望
社内での検証において、Exparso がフローチャートの読み取りや各種グラフ(折れ線・円グラフ)のテキスト化において高い性能を示しました。一方で、情報量が多い1ページでの出力安定性や、マルチモーダル LLM の利用トークン効率の最適化など、継続的な改善にも取り組んでまいります。

今後はさらなる機能追加や対応ドキュメント形式の拡充を進め、OSS コミュニティとの連携を通じて得られた知見やベストプラクティスの還元も推進します。Exparso は、より多くの現場におけるナレッジの共有と発展に貢献してまいります。
会社概要
株式会社Insight Edgeは、2019年、住友商事グループのデジタルトランスフォーメーション(DX)を加速する為の技術専門会社として設立されました。DXの推進に必要となるデータ分析、MVPなどの素早いシステム開発及び先端技術の取り込みから適用までをワンストップで行うべく、データサイエンティスト、ITアーキテクト等の先端技術エンジニアにより構成されております。

社名:株式会社Insight Edge
設立:2019年7月
代表:代表取締役CEO 小坂 順一
株主:住友商事株式会社(100%)
URL:https://insightedge.jp/

本件に関するお問い合わせ
Email :contact@insightedge.jp

最近の企業リリース

トピックス

  1. プロのデブ、4200kcalラーメンに挑戦 “もちづきさん”が憑依する一杯に苦戦

    プロのデブ、4200kcalラーメンに挑戦 “もちづきさん”が憑依する一杯に苦戦

    6月7日から20日までの期間限定で実施されている、漫画「ドカ食いダイスキ! もちづきさん」と「野郎ラ…
  2. 40代の携帯ゲーム機

    スーファミ、CDプレイヤー、PHS……「40代の通ってきたデバイス」に共感

    昭和に幼少期を過ごし、平成に学生から社会人へ、そして令和に40代になった大人たちであれば、おそらくほ…
  3. 独学で仕上げた“異世界姿造り” 8匹のサメが大集合

    独学で仕上げた“異世界姿造り” 8匹のサメが大集合

    珍しい食材を調理してはXに投稿している「奇食崇拝者Rikuto」さん(以下、Rikutoさん)が、今…

編集部おすすめ

  1. National Videogame Museumが投稿した「Earthquake」のグラフィック
    アメリカ・テキサス州にある「全米ビデオゲーム博物館(National Videogame Museu…
  2. ファミレスのジョイフル、キッズメニューを半額に アプリ会員向け期間限定企画
    ファミリーレストランチェーン「ジョイフル」を展開する株式会社ジョイフルは、物価高騰の影響を受ける子育…
  3. “タイムマシン”で昭和の味へ 明星×ドラえもんの懐かしカップめんが発売
    明星食品株式会社より、「明星 ドラえもん なつかしのナポリタン味焼そば」と「明星 ドラえもん なつか…
  4. メルカリ、米穀全般の出品を6月23日より禁止 政府の政令改正を受け対応強化
    フリマアプリ「メルカリ」を運営する株式会社メルカリは6月13日に、「米穀全般」の出品を6月23日より…
  5. 宝塚ホテル、4室で「舞台衣装」展示 新レビュールーム誕生
    宝塚歌劇団の本拠地、宝塚大劇場のオフィシャルホテルとして知られる「宝塚ホテル」では、新たに4室の「レ…

【特集】STOP!ネット詐欺!

  1. さまざまなネット詐欺に潜入調査!

    さまざまなネット詐欺に潜入調査!

     インターネット上にまん延する、さまざまな詐欺サイトに「わざと」引っかかる潜入調査記事をまとめました。
ネット詐欺へ潜入調査!記事特集

提携メディア

ページ上部へ戻る