OpenAIが最新の大規模言語モデル(LLM)である「GPT-4」を昨年3月に発表したときは、テック業界に衝撃が走った。チャットやコーディング、そして学校の宿題を含むあらゆる種類の厄介な問題を解決する能力において、GPT-4は人工知能(AI)による以前のあらゆるツールより明らかに優れていたのである。
これに対してOpenAIのライバルであるAnthropicが6月20日(米国時間)、チャットボットなどのAIを用いたツールの性能を向上させるうえで役立つ生成AIモデル「Claude」を刷新した。この新しいAIモデルは複数のベンチマークで世界最高レベルではあるものの、大きな飛躍というよりは“一歩前進”といったところだろう。
このほど発表されたAnthropicの最新モデル「Claude 3.5 Sonnet」は、既存の生成AIモデル「Claude 3」シリーズのアップグレード版だ。一般的なベンチマークによる測定では、数学、コーディング、論理的な問題を解く能力に優れている。Anthropicによると、この最新モデルははるかに高速で、言語のニュアンスをよりよく理解し、ユーモアのセンスもあるという。
進歩の程度は「数パーセント」ほど
今回の刷新は、AnthropicのAIモデルを基盤にアプリやサービスを構築しようとしている人々にとって、有益であることは間違いない。しかし、このニュースはGPT-4がAI分野にもたらしたようなAIの飛躍を世界がまだ待っていることを思い出させるものでもある。
OpenAIから次世代AIモデル「GPT-5」がリリースされることへの期待は、1年以上も前から高まっている。OpenAIの最高経営責任者(CEO)のサム・アルトマンは、GPT-5がAIの能力に新たな革命をもたらすだろうという憶測に拍車をかけてきた。GPT-4は訓練に1億ドル(約160億円)以上を要し、GPT-5はさらに大規模で高価になるとの見方が強い。
OpenAIやグーグルなどのAI企業はGPT-4を上回る新モデルをリリースしているが、世界はまだ次の大きな飛躍を待っている。最近のAIの進歩は、GPT-4が実現したようなモデルの規模や計算量を圧倒的にスケールアップするものではなく、モデルの設計や訓練における革新に依存する漸進的な改善となっているからだ。
Anthropicの製品責任者であるマイケル・ガーステンヘイバーによると、最新モデルの「Claude 3.5 Sonnet」は前モデルより規模が大きくなったが、その新しい能力の多くは訓練におけるイノベーションから引き出されたものだという。例えば、最新モデルには論理的推論能力の向上に役立つフィードバックが与えられている。
Anthropicによると、Claude 3.5 Sonnetは一般的なAIベンチマークテストにおいて、OpenAIやグーグル、メタ・プラットフォームズの最上位モデルを上回っているという。例えば、生物学や物理学、化学の専門知識を問う大学院レベルのテスト「GPQA」のほか、コンピューターサイエンスや歴史、その他のトピックを網羅する「MMLU(大規模マルチタスク言語理解)」、コーディング能力を評価する「HumanEval」などだ。とはいえ、それぞれのベンチマークにおけるポイントが数パーセントほど上回っているにすぎない。
さらなる飛躍の難易度は高まっている?
AI分野における今回の最新の進歩は革新的とはいえないかもしれないが、そのペースは速い。Anthropicが前世代モデルを発表したのは、わずか3カ月前のことだ。「AIの改良の程度を見れば、わたしたちがいかに速く進歩しているかがわかるでしょう」と、ガーステンヘイバーは言う。
AI分野への新たな投資熱に拍車をかけたGPT-4の登場から1年以上が経過したが、機械知能(マシンインテリジェンス:MI)にさらなる大きな飛躍をもたらすことは、ますます難しくなっているのかもしれない。
GPT-4や同様のAIモデルは、オンライン上に存在する膨大な量のテキスト、画像、動画で訓練されていることから、機械学習アルゴリズムに供給する新たなデータソースを見つけることはますます難しくなっている。学習能力を高める目的でモデルの規模を大幅に拡大するには、数十億ドル(数千億円)の費用がかかると予想されているほどだ。OpenAIが今年5月、音声と視覚の機能を備えた新モデル「GPT-4o」を発表したとき、その焦点は、問題解決能力の大幅な向上よりも、より自然で人間に近いインターフェイスに置かれていた。
Anthropicは従来のベンチマークに基づく測定値を使ってClaudeの性能の高さを示しているが、このような数値は誤解を招く可能性がある。AI開発者は、こうしたベンチマークで高得点をとるような技術を設計することに強く動機づけられており、標準的なテストに用いられるデータが訓練データに取り込まれる可能性があるからだ。
「研究コミュニティにおけるベンチマークは、汚染されたデータや一貫性のないルーブリック(学習目標の達成度を判断するための評価基準)やレポート、未検証のアノテーション(データに情報を注釈して意味づけすること)にむしばまれています」と、多くのAI企業に対してAIモデルの訓練を支援しているScale AIのリサーチディレクターのサマー・ユエは語る。
Scale AIは、AIの安全性と評価の問題に取り組む「Safety, Evaluations and Alignment Lab(SEAL)」を通じて、AIの知能レベルを測定する新しい手法を開発している。この開発には非公開のデータに基づいたテストの開発や、AIモデルの性能についてフィードバックを提供する人々の専門知識の精査などが含まれる。
これによりユエは、開発したAIモデルの知能レベルをより有意義な方法で実証しようとする企業が増えることを期待している。ユエによると、実証方法には「ビジネスへの影響を可視化した実際の応用例の紹介、透明性のあるパフォーマンス指標の提供、ケーススタディ、顧客の声の提供」などがあるという。
AnthropicはClaude 3.5 Sonnetの宣伝において、そうしたビジネスへの影響を謳っている。ガーステンヘイバーによると、最新版を採用している企業は、その新しい応答性と問題解決能力が有益であると感じているという。顧客には投資会社のBridgewater Associatesも含まれており、Claudeを使ってコーディング作業を支援している。
ガーステンヘイバーは社名の公表を避けたが、ほかにも複数の金融会社が投資アドバイスの提供にClaudeを活用しているという。「早期アクセス期間中のフィードバックは非常に好意的でした」と、ガーステンヘイバーは明らかにしている。
世界がAIの次の大きな飛躍を、どれだけ待たなければならないかはわからない。OpenAIは次世代の大規模モデルの訓練を開始したことを発表している。こうした状況でわたしたちは、この技術が実際にどれほど有用であるかを測定する新たな手法を考案する必要もあるだろう。
(Originally published on wired.com, edited by Daisuke Takimoto)
※『WIRED』による人工知能(AI)の関連記事はこちら。
雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」6月25日発売!
実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る! 詳細はこちら。