ヒンディー語などローカル言語でGPT‐4を上回る大規模言語モデル開発へ、活発化するインドでの生成AI開発の取り組み

INDEX

活発化する各国における生成AI開発

ChatGPTのベースとなっているGPT‐3.5やGPT-4などの大規模言語モデルのほとんどは、英語中心のデータによってトレーニングされており、英語以外の言語を苦手とする場合が多い。

GPT‐3.5やGPT-4は比較的英語以外の言語に強い方だが、他のモデルに至っては、日本語などの非英語によるプロンプト（指示）を理解しないケースも多く、英語とそれ以外の言語におけるギャップを取り除くのが今後の大きな課題となっている。

たとえば、オープンソースの中で最も強力なモデルといわれるメタのLlama2のトレーニングデータの言語別内訳を見ると、英語が89.7％で最多、これに「その他」が8.38％と続き、他の言語データはすべて1％に満たない状況だ。他言語のうち最も比率が高いドイツ語でも0.17％にとどまり、日本語は0.1％のみ。日本語に対応させるには、Llama2に追加の日本語データを与えファインチューニングするプロセスが必要となる。

このようにほとんどの大規模言語モデルが英語中心となっている中で、ローカル言語に対応した大規模言語モデルを開発しようという動きが各国で活発化しており、英語以外の言語でも高いパフォーマンスを示すモデルが登場しつつある。

たとえば、フィンランドの現地スタートアップSilo AIは、2023年11月にフィンランド語に強い大規模言語モデルPoroを公開。340億のパラメータを持つモデルで、フィンランド語に加え、将来的には欧州連合の公式言語である24言語に対応させる計画であるという。

大規模言語モデルは開発（トレーニング）・運用（推論）に膨大なコストがかかるが、Silo AIは欧州各国が支援するスーパーコンピューターLUMIを使用。

LUMIは、フィンランド、ベルギー、チェコ、デンマーク、エストニア、アイスランド、ノルウェー、ポーランド、スウェーデン、スイスによって構成されるLUMIコンソーシアムが運用するスパコンで、フィンランドのKajaaniに設置されている。512のAMD Instinct MI250X GPUが搭載されており、処理速度は最大74ペタフロップス。「プレエクサスケール」のスパコンと呼ばれている。

このほか直近では2024年2月2日に経済産業省が発表した「GENIAC」プロジェクトが挙げられる。同プロジェクトは、クラウドリソースなどの提供を通じて国内プレイヤーのAI開発を支援し、日本語に強い大規模言語モデルの開発を目指すもの。実際のモデル開発は、ABEJA、Preferred Elements、東京大学、Sakana AIなど選定された国内7つの企業・組織が担うことになる。

20以上の言語が話されているインド、現地語特化の大規模言語モデルが続々登場

国別の大規模言語モデル開発動向で特に注目したいのはインドだ。

現在14億3,000万人で世界最多の人口を抱え、GDPも今後数年8％という高成長を維持する可能性があるとされる同国だが、現在国内でインド言語に特化した大規模言語モデルの開発が加速しており、すでにその成果が出始めている。

先行しているのが2023年4月に設立されたばかりのAI企業Krutrimだ。配車サービスOlaの創業者バビシュ・アガルワル氏が創業したスタートアップで、2024年1月26日にはインドで初のAIユニコーンになったと報じられた。

同社は2023年12月にインド言語に特化した大規模言語モデルKrutrimベースを発表。2兆トークンに上るインド言語データでトレーニングされており、現在インド国内で利用されている22言語のうち20言語を理解できるモデルだ。一方アウトプットは、英語を含め10言語に対応しているという。

Krutrimは、同社の大規模言語モデルのインド言語におけるパフォーマンスが現在最高峰といわれるOpenAIのGPT-4を超えた主張。英語でのパフォーマンスは、GPT-4に劣るものの、今後数カ月で改善する見込みと述べている。

どのベンチマークにおいてKrutrimモデルがGPT-4を超えたとされるのか、具体的な情報が明らかになっておらず、第三者視点の評価はできないところだが、これまで明らかになっているデータから、おおよその推測は可能だ。

OpenAIの独自評価によると、GPT-4のパフォーマンスは英語で最も高くなることが明らかになっている。この評価は多肢選択式問題を各言語で出題し、それをGPT-4に解かせる形で、言語別のパフォーマンスを分析したもの。英語の際の正答率は85.5％に達した。他の言語では、イタリア語で84.1％、スペイン語で84％、ドイツ語で83.7％、フランス語で83.6％など、欧州言語においては比較的高いパフォーマンスを示しており、英語との差はそれほど大きなものではない。

一方、インドの各言語におけるGPT-4のパフォーマンスは若干下がる傾向が示されている。インド言語のうちGPT-4のパフォーマンスが最大となったのはベンガル語で73.2％だった。このほかウルドゥー語が72.6％、パンジャブ語が71.4％、マラティ語が66.7％、テルグ語が62％という結果となった。GPT-3.5の英語によるパフォーマンス（70.1％）とほぼ同じの水準ということになる。

Krutrimの大規模言語モデルがインド言語において、75％ほどのパフォーマンスを達成したのであれば、GPT-4を超えた主張することが可能となる。もしこの先Krutrimが英語において、85.5％を超えた場合は大きな快挙となり、さらに注目度が増すことになるはずだ。

3大財閥も注目する生成AI開発

インドではこのほかにもいくつかのプロジェクトが進行している。

ヒンディー語に特化した大規模言語モデルを開発するIndusプロジェクトはその1つ。インドIT大手Tech Mahindraが2023年8月に開始したプロジェクトで、同年12月にはベータテストの段階に入ったことが報告された。ヒンディー語と37の方言で構成された100億トークンのデータによってトレーニングされており、パラメータ数は5億3,900万と比較的小さなモデルだ。2024年2月に公式発表される予定となっている。

2023年12月に4,100万ドルを調達したインドAIスタートアップSarvamAIは、メタのオープンソースモデルであるLlama2をベースとしたインド言語モデルを構築、現在同モデルの法人提供向けのプラットフォームの開発を進めている。

インド3大財閥の1つリライアンスグループも傘下の通信企業Jioを通じて大規模言語モデル開発を推進中だ。インド地元紙によると、Jioはインド工科大学ムンバイ校と提携し、大規模言語モデルをベースとするチャットAI「Bharat GPT」を開発しており、今後グループ各社に導入する計画だ。2024年2〜3月頃に公式発表される予定という。

英語を第一言語とする人口は約4億人。14億人以上の人口を抱えるインドからどのような大規模言語モデルが登場するのか気になるところだ。

文：細谷元（Livit）

活発化する各国における生成AI開発

20以上の言語が話されているインド、現地語特化の大規模言語モデルが続々登場

3大財閥も注目する生成AI開発

voteVote

Vote