おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

LegalOn Technologies、日本の企業法務における大規模言語モデル(LLM)の性能を評価するベンチマークデータセット「LegalRikai: Open Benchmark」を公開

update:
株式会社LegalOn Technologies
~主要LLMであるGPT-5、Gemini-2.5-pro、Claude Opus 4.1の分析結果も発表。抽象的な指示への対応力でモデル間に大きな差を検出~



株式会社LegalOn Technologies(本社:東京都渋谷区 代表取締役 執行役員・CEO:角田望、以下LegalOn Technologies)は、日本の企業法務実務における大規模言語モデル(LLM)の性能を評価するベンチマークデータセット「Legal Rikai: Open Benchmark」を公開しました。「Legal Rikai: Open Benchmark」は、LLMによる法改正の説明、法令に準拠した契約書修正、取引先からの要望を契約書へ反映、契約書に潜むリスク検出および修正文生成といった4つのタスクに対する性能を検証することができます。これにより、法務実務に適したモデルの選定を支援し、法務AIにおける透明性の向上と研究の加速を促進します。

また、今回「Legal Rikai: Open Benchmark」を用いて、GPT-5、Gemini-2.5-pro、Claude Opus 4.1といった主要なLLMを分析しました。


▽arXivにて「LegalRikai: Open Benchmark」の概要、各モデルの分析結果を公開。
LegalRikai: Open Benchmark -- A Benchmark for Complex Japanese Corporate Legal Tasks


▽Hugging Face Hubにて「LegalRikai: Open Benchmark」のデータソースを公開
https://huggingface.co/datasets/legalontech/Legal-Rikai-Open-Benchmark?
[画像1: https://prcdn.freetls.fastly.net/release_image/36601/726/36601-726-73afb173a9c486e134bb6ff37ff50b4f-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


■「LegalRikai: Open Benchmark」について
「LegalRikai」*とは、日本の法規制に基づいて大規模言語モデル(LLM)が法的タスクを適切に解決・処理できるかを評価できるベンチマークデータセットです。近年、AIは各業務領域に特化した、専門性の高い業務で活用されつつあります。しかし、企業法務においては、AIがどれだけ「弁護士のように正確」で、「実務で通用する」品質の回答が出せるのか、その評価基準は曖昧でした。この課題を解決するため、当社は2025年3月11日に弁護士による評価基準を取り入れたベンチマークデータセット「LegalRikai」*を開発・発表いたしました。

そしてこのたび、法務AIの分野における透明性の向上と研究の加速を目的に、「LegalRikai」の一部のタスクについてデータセットの設計、評価基準、および実験の設定を「LegalRikai: Open Benchmark」として公開しました。「LegalRikai: Open Benchmark」では、LLMによる法的タスクにおいて以下4つを誰でも検証することが可能です。


1.法改正の説明能力
法改正の趣旨と実務への影響を正確に理解し、社内に向けて伝達するための要約能力を検証します。


2.法令に準拠した契約書修正
古い法令に対応した契約書を現行法令に対応した契約書に修正できるか検証します。


3.契約書へ要望を反映
関係者からの意見や要望を忠実に契約書に反映する能力を検証します。


4.契約書に潜むリスク検出および修正文生成
契約書の潜在的リスクを検出し、そのリスクを低減するための修正文案を提案する能力を検証します。


これらのタスクが検証できることで、LLMの知識量だけでなく「実務適合性」を多角的に評価することができます。これにより、AI開発企業や研究機関が、この公開されたデータと基準を用いて、自社のLLMの性能を公正に比較・検証が可能です。加えて、法務AIのベンダーが「LegalRikai: Open Benchmark」を利用することで、より実践的で高品質なモデルを効率的に開発できる環境を構築することができます。
*LegalOn Technologies、 日本の法規制に基づいて大規模言語モデル(LLM)が 法的タスクを適切に解決・処理できるかを 評価できるベンチマークデータセット「LegalRikai」を開発
■GPT-5、Gemini-2.5-pro、Claude Opus 4.1を検証
今回、「LegalRikai: Open Benchmark」を用いて主要なLLMとされるGPT-5、Gemini-2.5-pro、Claude Opus 4.1を検証し、各モデルの得意分野と特徴を分析することができました。論文の内容から、最も複雑性の高いタスクの検証結果をピックアップしてご紹介します。
[画像2: https://prcdn.freetls.fastly.net/release_image/36601/726/36601-726-34d086d07e7c0fad34e4d0f68d32806c-1400x800.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


・現行法令に準拠した契約書を出力するタスクにおいて、正確性・体裁・ノイズでモデル特性が明らかに
改正前の法令に準拠した契約書を、改正後の法令に準拠した契約書へと出力するタスクは、以下のフローが必要となり、全タスクの中で複雑性が最も高いタスクに位置しています。
1.改正前の法令の把握
2.改正前後の差分の把握
3.契約書へ影響する改正箇所の特定
4.既存契約書の構造と内容の理解
5.編集が必要な条項の特定と修正

このタスクを各LLMで推論し、当社の法務部門による人手評価を行ったところ、以下の結果となりました。

Gemini-2.5-proは、『指示通りの修正が行われているか』では0.73、『不要な修正がされていないか』では0.44と他モデルよりも高いスコアを記録し、網羅性と正確性に優れていることがわかりました。

Claude Opus 4.1は『契約書構造が整合しているか』で0.40、『契約書特有の言い回しが適切に使用されているか』において1.0と最高スコアを記録し、契約書としての体裁を維持することに長けていることがわかりました。一方で、『不要な修正がされていないか』は0.20と最も低く、指示にない余分な変更を行う傾向が強いことを示しています。

GPT-5は、Gemini-2.5-proとClaude Opus 4.1の両者の中間といった性能結果となりました。
また、全モデルが『専門用語が正しく使用されているか』において最高スコアの1.0を記録しており、専門用語の使用に問題が見られませんでした。

これらの結果は、法務実務においてLLMを選定する際には、単一の総合スコアだけでなく、指示の具体性などのタスクの性質とモデルの得意な側面を考慮する必要があることを強く示しています。上記の他3つのタスクの検証結果については、論文よりご覧いただけます。

▽arXivにて「LegalRikai: Open Benchmark」の概要、各モデルの分析結果を公開。
LegalRikai: Open Benchmark -- A Benchmark for Complex Japanese Corporate Legal Tasks


▽Hugging Face Hubにて「LegalRikai: Open Benchmark」のデータソースを公開
https://huggingface.co/datasets/legalontech/Legal-Rikai-Open-Benchmark?


LegalOn Technologiesは、これからも「LegalRikai: Open Benchmark」の継続的な改善と検証を通じて、法務AIの進化をリードし、企業がより安全で、より効果的なAIを実装できるよう貢献してまいります。

■「LegalOn: World Leading Legal AI」について( URL:https://www.legalon-cloud.com/
「LegalOn: World Leading Legal AI」は、国境を越えて非効率な法務業務を一掃し、お客様の法務チームが思考と決断にフォーカスし、全社の成長を牽引することを可能にします。LegalOn Technologiesの法務コンテンツとAI(エージェント)は、お客様の競争力強化と成長に貢献し、より優れた法務プロセスを通じて、お客様のビジネスを迅速に前進させることを目指します。「LegalOn」には、法務相談やリーガルリサーチ、論点整理、契約書レビュー、契約書作成など、高度かつ複雑な法務業務に対応するAIエージェント「LegalOn Agents」を搭載し、各法務業務を弁護士監修コンテンツや外部情報とも連携しながら自律的に処理し、法務チームを強力にバックアップします。同時に、「LegalOn」を活用するだけで「LegalOn」上にナレッジが自然に蓄積され、AIエージェントによる業務遂行に自然と反映される状態を実現します。
「LegalOn」は法務チームのために開発された「世界水準の法務AI」としてお客様の法務チームを強力にバックアップし続けます。

■ 株式会社LegalOn Technologiesについて( URL:https://legalontech.jp/
株式会社LegalOn Technologiesは、AI分野における高度な技術力と法律・契約の専門知識を兼ね備えたグローバルリーガルAIカンパニーです。2017年の設立当初から、AIを活用したリーガルAIサービスの開発に注力し、現在は、「LegalOn: World Leading Legal AI」を展開しています。グローバルでの有償導入社数は、2025年9月末時点で7,500社を突破しています。2025年1月から事業領域をコーポレート全体に拡大し、AIカウンセル「CorporateOn」の提供を開始しました。大規模言語モデル(LLM)やAIエージェントなどの最先端のAI技術を製品開発に取り入れ、多様な企業課題に応えるソリューションを通じてお客様のビジネスを支援します。

【株式会社LegalOn Technologies】
社名  :株式会社LegalOn Technologies(リーガルオンテクノロジーズ)
設立  :2017年4月
代表  :代表取締役 執行役員・CEO 角田 望
事業内容:法務、コーポレート業務に関するAIサービスの企画・開発
所在地 :〒150-6219 東京都渋谷区桜丘町1-1 渋谷サクラステージSHIBUYAタワー19F
資本金等:198.5億円(資本準備金等含)

最近の企業リリース

トピックス

  1. Google、ダークウェブレポートを終了 実用的な対処支援へ重点移行

    Google、ダークウェブレポートを終了 実用的な対処支援へ重点移行

    Googleは12月16日、個人情報がダークウェブ上に流出していないかを確認できる「ダークウェブ レ…
  2. Gmailを受診している画面

    Gmailの仕様変更でPOP受信が終了 自分は対象?POP利用チェック

    Gmailの仕様変更により、外部メールを取り込むPOP受信機能が2026年1月より利用できなくなりま…
  3. イベント「清水 ビー・バップ・ハイスクール 高校与太郎祭」(清水駅前銀座商店街)

    仲村トオルが清水に凱旋 映画「ビー・バップ・ハイスクール」40周年イベント開催

    映画「ビー・バップ・ハイスクール」(1985年)の劇場公開40周年を記念したイベント「清水 ビー・バ…

編集部おすすめ

  1. 「漆黒の指輪」は実在したものの……サン宝石、カプセルトイ「中二病が疼くリング」の“誇大表現”を謝罪

    「漆黒の指輪」は実在したものの……サン宝石、カプセルトイ「中二病が疼くリング」の“誇大表現”を謝罪

    アクセサリーや雑貨の販売で知られる「サン宝石」は12月16日、同社が展開するカプセルトイ「中二病が疼くリング」について、公式サイトおよびSN…
  2. 雨や洪水の警報が変わる 新・防災気象情報、警戒レベル表示で行動判断しやすく

    雨や洪水の警報が変わる 新・防災気象情報、警戒レベル表示で行動判断しやすく

    国土交通省と気象庁は12月16日、雨や洪水などの危険を伝える「防災気象情報」について、2026年(令和8年)の大雨シーズンから新たな運用を始…
  3. コミケの名物現象がまさかのグッズ化 「食べられるコミケ雲(わたあめ)」爆誕

    コミケの名物現象がまさかのグッズ化 「食べられるコミケ雲(わたあめ)」爆誕

    夏コミ名物、会場の熱気と参加者の汗が昇華して天井付近に発生するという伝説の現象「コミケ雲」。まさかそれを口にできる日が来るとは、誰が想像した…
  4. Reactに「CVSS 10.0(最高)」の脆弱性 IPAが注意喚起

    Reactに「CVSS 10.0(最高)」の脆弱性 IPAが注意喚起

    情報処理推進機構(IPA)は12月10日、多くのウェブサービスで使われている開発技術に重大な問題が見つかり、国内でも悪用したとみられる攻撃が…
  5. ライバー事務所4社に公取委が注意 「移籍しづらい」契約に懸念

    ライバー事務所4社に公取委が注意 「移籍しづらい」契約に懸念

    ライブ配信アプリ「Pococha(ポコチャ)」で活動するライバーをサポートしている事務所4社が、所属ライバーの“退所後の活動”を不当にしばっ…
Xバナー facebookバナー ネット詐欺特集バナー

提携メディア

Yahoo!JAPAN ミクシィ エキサイトニュース ニフティニュース infoseekニュース ライブドア LINEニュース ニコニコニュース Googleニュース スマートニュース グノシー ニュースパス dメニューニュース Apple ポッドキャスト Amazon アレクサ Amazon Music spotify・ポッドキャスト