おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

契約業務の主なタスクにおける「GPT-5」と「GPT-4.1」の性能を検証・比較

update:
株式会社LegalOn Technologies
~当社が開発したベンチマークデータセットを用いて、契約書業務における問題点の抽出や修正文案作成、質問応答などの対話型タスクなどを評価~



株式会社LegalOn Technologies(本社:東京都渋谷区、代表者:代表取締役 執行役員・CEO:角田望、以下LegalOn Technologies)は、独自に開発したベンチマークデータセットを用いて、2025年8月7日にOpenAI社によってリリースされた最新モデル「GPT-5」と「GPT-4.1」の契約業務における性能の検証および比較を実施しました。
[画像: https://prcdn.freetls.fastly.net/release_image/36601/673/36601-673-33f39478a3c57a1f7374eeca99e115ff-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


LegalOn Technologiesは、独自に開発したベンチマークデータセットを用いて、OpenAI社が提供する最新モデル「GPT-5」と「GPT-4.1」を活用し、契約業務の主なタスクにおける性能の検証結果を比較しました。なお、モデルの性能は言語によって異なるため、英語と日本語の両方で評価を行います。
■英語の性能評価・比較
英語でのモデル評価については、当社が独自に開発した「Contract Review Benchmark」を活用して、問題点の発見や修正案の作成、質問への回答など、契約業務の主なタスクについて検証を行いました。
- 質問への回答、要約などの対話型タスク

「GPT-4.1」では78%の性能でしたが、「GPT-5」では90%と顕著な改善が見られました。

- 契約内容の修正案作成

GPT-4.1と比較し、GPT-5では約6%の改善が見受けられました。

- 契約における問題点の発見

ほぼ横ばいか、わずかに性能の低下が見られました。

なお、日本語での性能評価・比較については、現在検証を続けております。結果が出次第、情報を提供いたします。

■ベンチマークデータセット「LegalRikai」※での性能評価・比較
LegalOn Technologiesが独自に開発した、日本の法規制に基づいて大規模言語モデルの評価ができるベンチマークデータセット「LegalRikai」を活用し、契約業務における主な3つのタスクについて「GPT-5」と「GPT-4.1」の性能評価・比較を行いました。検証したタスクは、「条文分類」、「条文修正」、「レビュー対象条文特定」の3つです。

※プレスリリース:日本の法規制に基づいて大規模言語モデル(LLM)が 法的タスクを適切に解決・処理できるかを 評価できるベンチマークデータセット「LegalRikai」を開発

- 条文分類:契約の条文に含まれるキーワードの検出やタグ付けを行う

「GPT-5」が数値を約10ポイント上回り、質問とは関係のない不適切な回答も「GPT-4.1」では2000件超である一方で、「GPT-5」では190件と大幅な減少が見られました。

- 条文修正:契約書に潜むリスクを検出して修正文の提案を行う

意味合いや文法、論理の正確性は「GPT-5」が約10ポイント上回る数値を出しています。一方で、自然さについては、「GPT-4.1」が約4ポイント高い結果となりました。

- レビュー対象条文特定:レビューの対象である条文を見つけ出す

「GPT-4.1」と「GPT-5」とでほぼ同等の結果となりました。これは、「GPT-5」が既に堅牢な判断基準と保守的な推論傾向を備えており、少数のヒントや例題を新しい判断パターンとして活かされにくかった可能性を示しています。


「LegalOn」では、お客様に最高のパフォーマンスで機能をご提供できるよう、今後は常に様々なベンダーが提供している最新モデルの検証および比較を行いながら、各タスクに最適なモデルを選定し、お客様の法務業務の効率化に貢献できるよう開発に取り組んでまいります。

今後、GPT-5のプロンプトチューニングを含め、パフォーマンスについてより詳細な分析を行う予定です。GPTの各モデルの他、Claudeモデル、Geminiモデルも含めた、より包括的な検証と比較を行い、契約業務における大規模言語モデルの性能について多くの情報を提供します。


■ 株式会社LegalOn Technologiesについて( URL:https://legalontech.jp/
株式会社LegalOn Technologiesは、AI分野における高度な技術力と法律・契約の専門知識を兼ね備えたグローバルリーガルAIカンパニーです。2017年の設立当初から、AIを活用したリーガルAIサービスの開発に注力し、現在は、「LegalOn: World Leading Legal AI」を展開しています。グローバルでの有償導入社数は、2025年3月末時点で7,000社を突破しています。2025年1月から事業領域をコーポレート全体に拡大し、AIカウンセル「CorporateOn」の提供を開始しました。大規模言語モデル(LLM)やAIエージェントなどの最先端のAI技術を製品開発に取り入れ、多様な企業課題に応えるソリューションを通じてお客様のビジネスを支援します。


【株式会社LegalOn Technologies】
社名  :株式会社LegalOn Technologies(リーガルオンテクノロジーズ)
設立  :2017年4月
代表  :代表取締役 執行役員・CEO 角田 望
事業内容:法務、コーポレート業務に関するAIサービスの企画・開発
所在地 :〒150-6219 東京都渋谷区桜丘町1-1 渋谷サクラステージSHIBUYAタワー19F

最近の企業リリース

トピックス

  1. 令和のインターネットを侵略完了!イカ娘コスの11年越しビフォー・アフターが話題

    令和のインターネットを侵略完了!イカ娘コスの11年越しビフォー・アフターが話題

    「人類侵略のため、11年の時を経て再びイカ娘になったでゲソ!」11年ぶりに同じキャラクターのコスプレ…
  2. 松屋「担々麺ハンバーグ」を実食 記憶が混乱するレベルに美味しい……!

    松屋「担々麺ハンバーグ」を実食 記憶が混乱するレベルに美味しい……!

    松屋は8月19日から一部店舗限定で「担々麺ハンバーグ」を販売中です。鉄板にのったハンバーグに担々麺が…
  3. 7億円の当せん番号決定の瞬間を目撃!「サマージャンボ」抽せん会参加レポ

    7億円の当せん番号が決まる瞬間を現地取材!サマージャンボ抽せん会レポート

    1等・前後賞合わせて7億円が当たる「サマージャンボ宝くじ」と、1等・前後賞合わせて5000万円が当た…

編集部おすすめ

  1. たいちくんX投稿より

    ゆりにゃさん元パートナー、Xで未練吐露→ネットの反応は冷ややか

    インフルエンサー・ゆりにゃさんの、公私にわたる元パートナーである「たいちくん」こと齊藤太一氏が、8月17日に自身のX(旧Twitter)を更…
  2. 匿名質問文化を支えた「Peing-質問箱-」終了 2017年の誕生から8年

    匿名質問文化を支えた「Peing-質問箱-」終了 2017年の誕生から8年

    匿名で質問やメッセージを送れるサービス「Peing-質問箱-」が、2025年8月29日をもって終了することが発表された。運営は8月15日付で…
  3. マクドナルドのポケカ騒動 期間中の店舗を訪れた記者が感じた“異様な雰囲気”

    マクドナルドのポケカ騒動 期間中の店舗で感じた“異様な雰囲気”

    マクドナルドは8月11日、ハッピーセット「ポケモン」のポケモンカードキャンペーンを巡る混乱について公式サイトで謝罪しました。期間限定カードを…
  4. 「珍しい苗字」より盛り上がる? 地域特有の苗字をまとめた地図が話題

    「珍しい苗字」より盛り上がる? 地域特有の苗字をまとめた地図が話題

    大学進学や就職で交友関係が広がると、今までの人生で見たことがない苗字を持つ人と知り合いになることがよくあります。見慣れない苗字に遭遇したとき…
  5. 「オラと博士の夏休み」初のスマホ版がでたゾ!でも日本は対象外……

    「オラと博士の夏休み」初のスマホ版がでたゾ!でも日本は対象外……

    累計販売90万本を超える人気作「クレヨンしんちゃん『オラと博士の夏休み』~おわらない七日間の旅~」が、初めてスマートフォンで遊べるようになり…
Xバナー facebookバナー ネット詐欺特集バナー

提携メディア

Yahoo!JAPAN ミクシィ エキサイトニュース ニフティニュース infoseekニュース ライブドア LINEニュース ニコニコニュース Googleニュース スマートニュース グノシー ニュースパス dメニューニュース Apple ポッドキャスト Amazon アレクサ Amazon Music spotify・ポッドキャスト