おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

リリースプラス

株式会社EpicAI、日本語特化のプロンプトインジェクション対策モデル「Epic-Guard-JP-4B」を開発:OpenAI/gpt-oss-safeguardらを上回るスコアを達成

update:
株式会社EpicAI
日本語1.3万件規模の攻撃データセットを新規構築し、日本語のプロンプトインジェクションに高精度なLLM防御を実現




[画像1: https://prcdn.freetls.fastly.net/release_image/136350/11/136350-11-0e06b2b8ba5000d157447b38ce09e034-3900x753.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Epic-Guard-JP-4B

近年、生成AIの活用が広がる一方、ユーザー入力を悪用してモデルの挙動を逸脱させる「プロンプトインジェクション攻撃」が国内外で問題視されています。既存の研究やデータセットは英語圏を中心としており、日本語特有の表記揺れ・敬語表現・全角半角の混在などに起因する攻撃手法に対応した防御モデルは十分に存在していません。
その課題に応えるべく、当社は日本語環境を前提としたプロンプトインジェクション防御モデルの構築に取り組みました。


取り組み概要

本モデル開発では、日本語環境で発生するプロンプトインジェクション攻撃を高精度に検知するため、データセット整備からモデル学習まで一貫して独自に構築を行いました。特に、日本語特有の表記揺れや敬語表現、全角・半角混在といった要素が攻撃検知を困難にしている点に着目し、それらに対処可能な高品質データとモデルの確立を目指しました。

日本語13,000件規模の攻撃データセットを新規構築

まず、GitHub上からライセンスを確認した20件のリポジトリを抽出し、そこに含まれる英語の攻撃プロンプトを日本語に翻訳して統合し、すべてのデータを安全に日本語化しました。
さらに、日本語特有の攻撃手法(ゼロ幅スペースの挿入、敬語表現を利用した誘導、全角・半角や文字種の混在など)に対応するため、7カテゴリ560例の追加サンプルを新たに生成。これにより、日本語攻撃データは 最終的に7,063件 の規模となりました。また、攻撃/非攻撃をバランスさせる目的で、通常のQAタスクを件生成し、総計13,623件のデータセットを構築しています。

[画像2: https://prcdn.freetls.fastly.net/release_image/136350/11/136350-11-3d7fc5aff35b2c22718121f857fcd4be-2180x1224.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
日本語特有の攻撃方法例

日本語判別モデルの構築

構築したデータセットを用い、Qwen3-4Bをベースとした日本語プロンプトインジェクション検知モデルを開発しました。タスクは攻撃(injection)/非攻撃(clean)の二値分類とし、LoRAによる軽量ファインチューニングを適用しています。
学習では、総データ約3,438件を対象に、LoRAを用いた学習を実施。テストでは、Accuracy・Precision・Recall・F1スコアなどを指標に評価しました。

F1スコア0.99という従来モデルを大幅に上回る性能

本モデルは、既存のプロンプトインジェクション対策モデルと比較して、顕著に高い検知性能を示しました。特に、以下のようにF1スコア0.99という高い精度を達成しています。
[画像3: https://prcdn.freetls.fastly.net/release_image/136350/11/136350-11-bbb886d7dfd1ad7c762e740987034a0f-2188x1228.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
上記データセットにおける比較検証


既存の英語中心のGuardモデルは、日本語特有の表記揺れや敬語表現、全角・半角の混在といった攻撃表現を十分に扱えず、過検知あるいは過少検知が目立ちました。一方、当社モデルは日本語表現の多様性に合わせてデータセット設計を行った結果、高い性能を発揮しています。

今後の活用とEpic-Guard-JP-4Bの利用について

Epic-Guard-JP-4Bは順次モデルとして提供して参ります。詳しくはお問い合わせください。

また本研究を踏まえ、以下の取り組みを進めていく予定です。
- 攻撃タイプの多ラベル分類「社会的エンジニアリング」「表記揺れ攻撃」など、攻撃種類別の早期検知
- 軽量モデル(Edge向け)の提供インフラや医療機器など、閉域環境での運用を想定
- 実運用LLM/AI Agentとのリアルタイム連携生成前後のプロンプト監査レイヤーとして統合
- 業界別テンプレートの提供金融向け禁止表現辞書、医療向けガイドライン反映強度設定など


弊社は官公庁・重工業・金融・医療といった「高信頼性産業」におけるセキュアなAI Agentの活用に向け、「Epic Prompt Guard-JP 4B」の更なる改善/チューニングの提供や、セキュリティモデルの開発、それらを組み込んだAI Agent/LLMソリューションを提供しております。

ご関心のある方はHPよりお問い合わせください。

最近の企業リリース

トピックス

  1. Google、ダークウェブレポートを終了 実用的な対処支援へ重点移行

    Google、ダークウェブレポートを終了 実用的な対処支援へ重点移行

    Googleは12月16日、個人情報がダークウェブ上に流出していないかを確認できる「ダークウェブ レ…
  2. Gmailを受診している画面

    Gmailの仕様変更でPOP受信が終了 自分は対象?POP利用チェック

    Gmailの仕様変更により、外部メールを取り込むPOP受信機能が2026年1月より利用できなくなりま…
  3. イベント「清水 ビー・バップ・ハイスクール 高校与太郎祭」(清水駅前銀座商店街)

    仲村トオルが清水に凱旋 映画「ビー・バップ・ハイスクール」40周年イベント開催

    映画「ビー・バップ・ハイスクール」(1985年)の劇場公開40周年を記念したイベント「清水 ビー・バ…

編集部おすすめ

  1. 「漆黒の指輪」は実在したものの……サン宝石、カプセルトイ「中二病が疼くリング」の“誇大表現”を謝罪

    「漆黒の指輪」は実在したものの……サン宝石、カプセルトイ「中二病が疼くリング」の“誇大表現”を謝罪

    アクセサリーや雑貨の販売で知られる「サン宝石」は12月16日、同社が展開するカプセルトイ「中二病が疼くリング」について、公式サイトおよびSN…
  2. 雨や洪水の警報が変わる 新・防災気象情報、警戒レベル表示で行動判断しやすく

    雨や洪水の警報が変わる 新・防災気象情報、警戒レベル表示で行動判断しやすく

    国土交通省と気象庁は12月16日、雨や洪水などの危険を伝える「防災気象情報」について、2026年(令和8年)の大雨シーズンから新たな運用を始…
  3. コミケの名物現象がまさかのグッズ化 「食べられるコミケ雲(わたあめ)」爆誕

    コミケの名物現象がまさかのグッズ化 「食べられるコミケ雲(わたあめ)」爆誕

    夏コミ名物、会場の熱気と参加者の汗が昇華して天井付近に発生するという伝説の現象「コミケ雲」。まさかそれを口にできる日が来るとは、誰が想像した…
  4. Reactに「CVSS 10.0(最高)」の脆弱性 IPAが注意喚起

    Reactに「CVSS 10.0(最高)」の脆弱性 IPAが注意喚起

    情報処理推進機構(IPA)は12月10日、多くのウェブサービスで使われている開発技術に重大な問題が見つかり、国内でも悪用したとみられる攻撃が…
  5. ライバー事務所4社に公取委が注意 「移籍しづらい」契約に懸念

    ライバー事務所4社に公取委が注意 「移籍しづらい」契約に懸念

    ライブ配信アプリ「Pococha(ポコチャ)」で活動するライバーをサポートしている事務所4社が、所属ライバーの“退所後の活動”を不当にしばっ…
Xバナー facebookバナー ネット詐欺特集バナー

提携メディア

Yahoo!JAPAN ミクシィ エキサイトニュース ニフティニュース infoseekニュース ライブドア LINEニュース ニコニコニュース Googleニュース スマートニュース グノシー ニュースパス dメニューニュース Apple ポッドキャスト Amazon アレクサ Amazon Music spotify・ポッドキャスト