おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択

update:
   
ストックマーク


 ストックマーク株式会社(本社:東京都港区、社長:林 達、以下:ストックマーク)は、大規模言語モデル(Large Language Models、以下:LLM)の研究開発組織であるLLM組織において、Researcherの高橋による日本語LLMの分析論文が、LLM領域の査読付き国際会議「PACLIC 38(Pacific Asia Conference on Language, Information and Computation)」に採択されました。

[画像: https://prcdn.freetls.fastly.net/release_image/24407/209/24407-209-63749e07ea390f3fcd4e5ebb69f662b9-1024x536.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]



 PACLIC は、言語学・情報科学・計算言語学分野でアジア太平洋地域の研究者が集まる国際会議です。言語とコンピュータ技術の交差点に焦点を当てた長年続く会議で、過去の会議では、最新の自然言語処理技術、機械学習の応用、アジアの多様な言語データセットの分析などが発表されています。

 この度、採択された論文は、2024年12月7日から9日にかけて東京外語大学で開催される「PACLIC 38」にて発表を行います。

・PACLIC 38:https://sites.google.com/view/paclic38/home


論文背景
 近年、自然言語処理技術分野の急速な成長に伴い、日本国内においてもLLMをはじめとした生成AI基盤の開発や、あらゆる分野での活用が注目されております。そのような中、当社LLM組織では、ビジネス用途での生成AI活用に対して、大学や研究機関との産学連携を強化しながら生成AI基盤の研究開発に注力しております。

 中でも、日本のビジネス領域における生成AI活用で重要視される、ハルシネーション※1の抑止や、複雑な構文を持つ日本語かつ、厳密なビジネス領域の知識を豊富に学習した学習データ、最新のビジネスや時事話題に関する独自の性能評価データセットの構築、開発済みモデルに対して追加知識の獲得を可能にする継続事前学習への取組みとともに、日本語・ビジネス領域に特化した高精度かつ高速な処理を可能にしたLLM「Stockmark-LLM-13b」の開発を行ってまいりました。

 日本語LLMの分析論文が国際会議に採択されるのは稀有であり、今回の論文採択は、言語特化型LLMに関する学術的成果のさきがけとなります。

※1:人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象

論文概要
 今回、当社の高橋が執筆した論文では、「Stockmark-LLM-13b」の研究開発について記載しており、下記の点を評価頂き、採択に至ったと考えております。

 ・基盤モデルの無償かつ商用利用可能な形式で公開しているため学術上で活用可能
 ・基盤モデル開発に伴う学習過程やモデルのパラメータを記載
 ・独自に作成した最新の時事話題やビジネスに関する質問データセット
  「Stockmark Business Questions(以下:SBQ)」を公開
 ・23年9月までの情報しか含まれていない当該基盤モデルに対し、
  継続事前学習による1か月分の追加知識獲得に成功

 なお「Stockmark-LLM-13b」の研究開発は、国立研究開発法人産業技術総合研究所(以下:産総研)との共同研究の一環として行われ、本論文の執筆にあたってもご指導及びご監修を頂きました。

「Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain」
著者:高橋 洸丞(ストックマーク Researcher)、近江 崇宏(ストックマーク VP of Research)、
   有馬 幸介(ストックマーク 取締役CTO)、石垣 達也(産総研)
 LLMの開発はさまざまな言語で進展していますが、非英語圏の言語と特定の分野に特化したコンテキストを組み合わせた研究は依然として未開拓のままです。本論文では、日本語のビジネス分野に特化したLLMを訓練・評価した結果を紹介しています。

 このLLMは、時事ニュースや技術レポート、特許など、ビジネス関連の文書をよりよく理解することを目的としています。さらに、この分野のLLMは最新の知識を反映するために定期的な更新が必要です。したがって、本論文では最新の記事データを使用してこのLLMを更新する実験と評価に関する結果も報告します。

 私たちの新たに作成したビジネス分野における質問応答用ベンチマークデータセットを用いた実験では、以下の結果が得られました。

(1) 事前学習済みモデルは一般知識を損なうことなくQA精度を向上させること
(2) 更新のためのトレーニングデータには最新のテキストと古いテキストを適切に混合すること

が必要であることが判明しました。事前学習済みモデルとビジネス分野ベンチマークは、今後の研究を支援するために公開されています。


「Stockmark-LLM-13b」について
 「Stockmark-LLM-13b」は、当社がフルスクラッチ※2で開発した、日本語単独で学習を行った130億パラメータのLLMです。当モデルの特徴は、日本語単独で学習を行ったことで世界の言語の中でも特に複雑な日本語に特化したモデルであることに加え、当社が独自に収集したビジネスに関するオープン情報や特許などのデータを豊富に学習したためビジネス領域に特化したモデルである点です。

 更に、一般的な汎用モデルと比較しても高速で出力することが可能なため、ビジネス用途で重要視される「精度」「出力速度」双方で高い性能を発揮することができます。
 なお、当モデルは「AWS LLM 開発支援プログラム※3」を活用して開発しました。

※2:システムを作る際に、既存のモデルを用いずにゼロから組み上げる開発手法
※3:「AWS LLM 開発支援プログラム」は、LLM開発を行うための計算機リソース確保に関するガイダンス、AWS上でのLLM事前学習に関わる技術的なメンタリング、LLM 事前学習用クレジット及びビジネス支援等のサポートを提供するAWSジャパンが2023年7月に開始したプログラムです。現時点で募集は終了しています。

当社のLLMに関する取り組み
 現在、当社におけるLLM事業では「Stockmark-LLM」開発だけでなく、企業毎のオーダーメイドLLM構築支援や、各社に眠る様々な形式の社内データをAIで活用可能な形式に変換する構造化支援サービス「SAT(Stockmark-A-Technology)」など、企業独自LLMの開発やRAGの活用を支援しております。

・Stockmark-LLM:https://llm.stockmark.co.jp/
・Stockmark-A-Technology:https://stockmark-sat.studio.site/

ストックマーク株式会社について
 ストックマーク株式会社は「価値創造の仕組みを再発明し、人類を前進させる」をミッションに掲げ、最先端の生成AI技術を活用し、多くの企業の企業変革を支援しています。
 社内外の情報をワンストップで検索できる「Anews」及び、あらゆるデータを構造化し企業の資産に変える「SAT」を運営しています。さらに、企業特化生成AIの開発や、独自システムの構築も支援しています。

会社名 :ストックマーク株式会社
所在地 :東京都港区南青山一丁目12番3号 LIFORK MINAMI AOYAMA S209
設立  :2016年11月15日
代表者 :代表取締役CEO 林 達
事業内容:自然言語処理を活用した、
     事業機会の探索と意思決定の支援を行うサービスの開発・運営
URL  :https://stockmark.co.jp/

最近の企業リリース

トピックス

  1. ココイチ“肉塊”第3弾「ホロ肉ドカンと BBQ カレー」は“ガッツリ上品”な味わい

    ココイチ肉塊カレーがすごい!「もちづきさん」コラボの肉塊󠄀量レベル4に挑戦、マンガのような食べっぷりを目指して…!

    カレーハウスCoCo壱番屋の「肉塊プロジェクト」第3弾メニューとして、マンガ「ドカ食いダイスキ!もち…
  2. 幸楽苑「メガチャーシューめん」と戦ってきた プレミアムチャーシュー6枚!

    幸楽苑「メガチャーシューめん」と戦ってきた プレミアムチャーシュー6枚!

    「メガつけめん」や「メガたんめん」に続き、幸楽苑に新たなメガメニュー「メガチャーシューめん」が登場。…
  3. 「罰ゲーム展」目黒で11月23・24日に開催 古今東西の“罰ゲーム”を体験し放題

    「罰ゲーム展」目黒で11月23・24日に開催 古今東西の“罰ゲーム”を体験し放題

    さまざまな「罰ゲーム」が体験できる展示会、その名も「罰ゲーム展」が11月23日と24日に東京・目黒で…

編集部おすすめ

  1. トヨタ、投稿動画めぐり謝罪と改善発表 “ずんだもんへの愛が足りなかった”
    トヨタ自動車は11月13日、自社メディア「トヨタイムズ」が公開した「BEV、HEV、FCEVの比較動…
  2. 10年ぶりの衝撃、プリングルズのスイート系フレーバー復活! バターキャラメル味をレビュー
    「プリングルズ」といえば、ヒゲオヤジのキャラクターがトレードマーク。世界140か国以上で販売されてい…
  3. 画像提供:ミミマルさん(@mimikyuxmimikyu)
    「ポケットモンスター」に登場するキャラクターのミミッキュが大好きで、いつもミミッキュの魅力を発信する…
  4. 「オーバーロード」公式、通常のファン活動に制限なしと明言 ネタバレサイト問題に関する誤解を訂正
    アニメ「オーバーロード」シリーズの公式Xは11月12日、「オーバーロード製作委員会からのお知らせ」と…
  5. 2024年度の受賞者
    公益社団法人 日本歯科医師会主催の「ベストスマイル・オブ・ザ・イヤー2024」授賞式が、11月7日に…

【特集】STOP!ネット詐欺!

  1. さまざまなネット詐欺に潜入調査!

    さまざまなネット詐欺に潜入調査!

     インターネット上にまん延する、さまざまな詐欺サイトに「わざと」引っかかる潜入調査記事をまとめました。
ネット詐欺へ潜入調査!記事特集

提携メディア

ページ上部へ戻る