おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

Nejumi LLMリーダーボード4公開:最先端モデルにも対応した評価ベンチマークの大幅拡充

update:
Weights & Biases Japan
高難易度な推論・知識、アプリケーション開発能力および安全性評価を強化し、実用的なLLM選定を支援



[画像1: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-8159f0d0d851ca86379ef55a90c69240-1600x1067.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


Weights & Biases Japan株式会社(以下、W&B Japan)は、日本最大級のLLM日本語能力比較サイト「Nejumi LLMリーダーボード」(https://nejumi.ai)の3回目のメジャーアップデートを行い、「Nejumi LLMリーダーボード4」を公開しました。今回のアップデートでは、最先端モデルの急速な性能向上に対応した高難度推論・知識ベンチマークの追加、実用的なアプリケーション開発に必要な能力評価の拡充、そして安全性評価の更なる強化を実施しました。これにより、企業がLLMを選定・活用する際により実践的な指標を提供します。

関連リンク:
- Nejumi LLM リーダーボード 4:https://nejumi.ai
- ベンチマーク評価実行用コード:https://github.com/wandb/llm-leaderboard
- 開発者ブログ:https://note.com/wandb_jp/n/ncfd9d23221b3
- W&Bウェビナー: https://connpass.com/event/367188

今回のアップデートの背景

LLMの性能は2025年も急速に向上を続け、従来のベンチマークでは多くのモデルが高得点を記録し、実質的な性能差を見極めることが困難になってきました。また、複合AIシステムやAIエージェントなど、LLMを活用したアプリケーション開発が本格化する中、実装に必要な能力を適切に評価することがより重要となっています。
さらに、AIガバナンスへの関心の高まりとともに、モデルの安全性や信頼性を多角的に評価することが求められています。
本リーダーボードは、様々な研究機関や企業が、LLM開発のためのベンチマークとして利用しており、また、昨年からは日経新聞社のAI Model Scoreにもデータ提供を行ない、さらに多くの方々にご利用いただいております。よって上記の課題に対応し、今後も引き続き価値のあるインサイトを提供するため、Nejumi LLMリーダーボード4では評価フレームワークの大幅な拡充を行いました。

今回のアップデートの詳細

1. 高難易度な推論ベンチマークの導入
ここ数ヶ月にリリースされた先端モデルは、推論能力における機能差に重点を置いているものが増えてきました。Nejumi4では、生成AIにとって難易度が高いとされる数学的推論や抽象的に与えられた課題に対する回答を推論する能力を評価するために、ARC-AGIやARC-AGI-2などのベンチマークを加えました。
2. より深い知識が問われる問題を含むベンチマークの導入
質問回答系ベンチマークはこれまで定番化していたベンチマークにおいて、多くのモデルが90%近くの成績を出しており、より深い知識を問う評価が必要とされていました。これまでのJMMLUのより難しいバージョンである、JMMLU-Proや、専門的知識と推論を要する高度な質問応答タスクである、Humanity's Last Examを追加し、博士課程レベルのより深い知識を広範囲に検証します。
3. アプリケーション開発能力の包括的評価
LLMを単体ではなく、より複雑なアプリケーションの開発で利用するようとの広がりを反映し、生成AIのアプリケーション開発カテゴリーを新設しました。具体的には、プログラミング能力を評価するために近年広く使われ始めたSWE-Bench Verified、日本語のコード生成能力を測定するJHumanEval, 対話的なコーディングタスクを評価するMT-Bench Codingが追加されています。
さらに、モデルが外部ツールや関数を呼び出す能力を評価するためのBFCL(Berkeley Function Calling Leaderboard)が生成AIモデルを使った開発における拡張性を示唆します。
4. 安全性評価の更なる拡充
生成AIの安全性への意識の高まりを受け、前バージョンのNejumi3には包括的な安全性評価が追加されました。この度のアップデートでは、この評価をより実用的で利用しやすいライセンスのベンチマークで実施することにより、安全性評価の再現性を強化しました。具体的には、下記のデータセットが追加されています。
- M-IFEVAL: 多言語での指示追従能力を評価し、制御性を測定
- HalluLens: 事実と異なる情報(幻覚)の生成を検出し、真実性を評価

企業での活用をより簡単に

Nejumi LLMリーダーボード4は、引き続きオープンソースで提供され、企業が自社のプライベート環境で評価を実行することが可能です。評価の高速化と統一されたインターフェースにより、独自のモデルやプロンプトの評価もこれまで以上に簡単に実施できます。また、Wights & Biasesエンタープライズライセンスをご利用の企業様向けには、有償にてプライベートリーダーボードの構築支援も行っております。

インタラクティブな分析機能

W&Bプラットフォームの強みを活かし、評価結果をインタラクティブに分析できます。特定のタスクでのモデル間の詳細な比較や、用途別の性能バランスの可視化など、実用的な意思決定を支援する機能を提供します。

本リーダーボード4から得られたインサイト

1. モデル性能の差が再び鮮明に
モデル性能の向上に伴って、従来の陳腐化したベンチマークではスコアが飽和してしまっており、モデル間の性能差が見えづらくなっている問題がありました。特にreasoningモデル台頭前に構築した評価体系であったためにその効果を明確に捉えられていなかった点も課題でした。本リーダーボードでは高難度ベンチマークや多くのモデルがまだ十分対応できていないアプリケーション開発の性能評価を加えたことにより、reasoningモデルがポテンシャルを十分に発揮できるようになり、上位モデル同士の性能差も鮮明に捉えることができる様になりました。
[画像2: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-7471f770ba3e0af78664413ef6d4b5f3-2506x2048.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Nejumiリーダーボード4の上位は推論系モデルに占められている

2. GPT-5とClaude Opus 4.1は実力伯仲
OpenAI GPT-5とAnthropic Claude Opus 4.1の比較において、本リーダーボードの評価基準ではOpus 4.1に軍配が上がりましたが、スコアは僅差であり両者は近い性能を有していると言えるでしょう。性能プロファイルを詳しく見てみると、Opus4.1がアプリケーション開発に強みを持つ一方で、専門知識や質問応答性能では依然としてOpenAI GPT‑5が優れているようです。
[画像3: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-91a71a93ccdcc07752bc3dec9580265d-3614x1496.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
トップの2つのモデル、OpenAI GPT-5とAnthropic Claude Opus 4.1の比較


一方で両者は以下の様にコストに大きな差があり、Claude Opus-4の利用コストは非常に高額になりえます。実用においてはユースケースに応じてこれらを含む複数のLLMを使い分けることが重要と言えるでしょう。
[画像4: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-d93dfa0617e94b51370d8ee624598fa1-3300x2054.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Claude Opus-4.1はGPT-5よりも大幅にトークンあたりのコストが大幅に高い

3. 評価カテゴリごとのスコア比較
評価カテゴリごとのスコアの平均と分散を見てみると、翻訳のように平均スコアが非常に高く、かつ分散が小さいタスクがあることがわかります。これはSLMを含むほとんどのモデルが高スコアを記録していることを意味しており、ほぼ攻略済のカテゴリであると言えるでしょう。一方で数学的推論、論理的推論は中程度の平均スコアと大きい分散となっており、上位モデルは攻略しつつあるものの、下位モデルの到達度は低く、現時点でモデル間の差別化領域となっていることが見て取れます。さらに、抽象的推論や専門的知識、コーディング、関数呼び出しは平均スコア自体がまだ低く、フロンティア領域であると言えます。これらはまさに今回のNejumi LLMリーダーボード4で評価体制を追加ないし強化した領域であり、評価の解像度と将来のモデル性能向上に対応可能な伸びしろを改善できていることがわかります。
[画像5: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-29906469f9c95467804d133ef43478db-2240x1496.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
抽象的推論や専門的知識、コーディングや関数呼び出しなどの新規追加項目にはまだ性能向上の伸び代が大きい(エラーバーは標準偏差)


Weights & Biases Japan株式会社について

Weights & Biases Japan株式会社は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを販売する日本法人です。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。

W&B社日本語ウェブサイト:https://wandb.jp

[画像6: https://prcdn.freetls.fastly.net/release_image/119963/24/119963-24-090504142c4debdb65636f5c2056029c-3068x858.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

最近の企業リリース

トピックス

  1. Xの日本トレンドに「中国地名」が大量出現 ユーザーに困惑広がる

    Xの日本トレンドに「中国地名」が大量出現 ユーザーに困惑広がる

    8月29日午前、X日本トレンドに「上海宝山」「成都武侯」など中国の地名が大量に登場し、ユーザーの困惑…
  2. 「お蚕様かと思った」 ポテトニョッキで作る“ヤバい絵面のサラダ”

    「お蚕様かと思った」 ポテトニョッキで作る“ヤバい絵面のサラダ”

    料理はひと手間・ひと工夫加えるだけで、できあがりが大きく変わってきます。良い方にも、はたまた“悪い方…
  3. 好みが分かれると評判の松屋「コムタム風ポークライス」を実食 大使館お墨付きのソースの味は?

    好みが分かれると評判の松屋「コムタム風ポークライス」を実食 大使館お墨付きのソースの味は?

    松屋は8月26日から、外交メニューのベトナム編として「コムタム風ポークライス」を販売しています。魚醤…

編集部おすすめ

  1. 法事でオリジナルTシャツ!?音楽フェスのような斬新な引き出物が話題

    法事で配られた家紋&没年入りTシャツが話題 “フェス感”漂うセンスに爆笑

    法事の引き出物(お返し)といえばお菓子やカタログギフトが王道ではないでしょうか。しかしときには予想だにしない品をもらうこともあるようで……。…
  2. 災害関連死ゼロを目指す「EDAN」発足 フィリップ モリスら民間団体が連携

    災害関連死ゼロを目指す「EDAN」発足 フィリップ モリスら民間団体が連携

    フィリップ モリス ジャパン(PMJ)が、全国災害ボランティア支援団体ネットワーク(JVOAD)と共同で、避難生活に特化した支援ネットワーク…
  3. 「週刊文春」2025年9月4日号(8月28日発売)

    週刊文春、最新号表紙は「白紙」 48年続いた和田誠さんの表紙絵に幕

    総合週刊誌「週刊文春」は、2025年8月28日発売の9月4日号で48年間にわたり表紙を飾り続けたイラストレーター・和田誠さんの絵を終了し、大…
  4. 作文嫌いの救世主 親子で楽しむ「魔法のワークシート」が超便利

    作文嫌いの救世主 親子で楽しむ「魔法のワークシート」が超便利

    夏休みの宿題において、多くの小学生が悩まされる「作文」。特に低学年の子どもにとっては「何から書けばいいのか分からない」壁にぶつかることもしば…
  5. それ水着やないんよ……孫と水遊びをするお婆さんの斬新すぎるチョイス

    それ水着やないんよ……孫と水遊びをするお婆さんの斬新すぎるチョイス

    暑い日に庭のプールで孫と水遊びをするお婆さん。日焼け防止にもなる、つなぎタイプの水着を着ているかと思いきや、よく目を凝らすとお婆さんが着てい…
Xバナー facebookバナー ネット詐欺特集バナー

提携メディア

Yahoo!JAPAN ミクシィ エキサイトニュース ニフティニュース infoseekニュース ライブドア LINEニュース ニコニコニュース Googleニュース スマートニュース グノシー ニュースパス dメニューニュース Apple ポッドキャスト Amazon アレクサ Amazon Music spotify・ポッドキャスト