2022年も、人工知能の分野は急速に発展しました。本記事では、最新の深層学習の論文を何百本と読み解いて分かった「2022年の最重要トレンド」を詳細な参考文献と共に紹介します。人工知能の分野は、進歩が早くてキャッチアップが大変ですが、本記事を読めば、大まかなトレンドと重要研究をおさえられるように書きました。なお、厳密には 2022年に発表されたものではなくても、トレンドを理解する上で重要な論文は全て含めるようにしています。

1. Stable Diffusion

2022年の人工知能業界におけるトップニュースは、間違いなくこの「Stable Diffusion」でしょう。任意のテキストから画像を生成できる自由度や、生成される画像のクオリティの高さに加え、ソースコードおよびモデルが全てオープンソースとして公開されており、AI 業界およびアート業界に強いインパクトを与えました。またその後、生成の質を改善し、数々の機能を追加した Stable Diffusion バージョン 2 およびバージョン 2.1 も公開されています。

技術的には、Stable Diffusion は、テキストと画像の類似度をとらえる CLIP (Radford et al., 2021) と、潜在空間上で高解像度・高速な生成を実現する拡散モデル LDM (Latent Diffusion Model; Rombach et al., 2021) を組み合わせたものです。どちらも 2021 年に既に発表されたものですが、Stable Diffusion は、LAION-Aesthetics と呼ばれる「美しい」画像のみを集めたデータセットを用いて訓練されているという特徴があります。

なお、Stable Diffusion の技術的背景や、理解するための論文解説等については、以下の記事で詳しく解説しましたのでそちらをご覧ください (ちなみに、本記事の冒頭のカバー画像も、Stable Diffusion 2.1 を使って生成したものです)。

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
登場してから何かと世間を賑わせている Stable Diffusion。技術的には、過去2年間ほどで研究開発が急速に進んだ「拡散モデル」の応用ですが、どの論文をどのような順番で読んだら良いか困ってしまう方も多いのではないでしょうか。本記事では、この Stable Diffusion の背景となる技術を基礎から理解したい方向けの、必読論文のリストとその概要を紹介します。

2. 拡散モデル (画像・ビデオ生成)

上述の Stable Diffusion のコア技術が、拡散モデル (diffusion model) です。拡散モデルの研究開発は、2020年〜2021年から大きく盛り上がっており、ここ最近では最も「ホットな」手法だと言えましょう。2022年は、特にこの拡散モデルによる画像およびビデオ生成の質が大きく向上した年でした。

画像生成については、OpenAI による DALL·E 2 (Ramesh et al., 2022)、Google による Imagen (Saharia et al., 2022) が、拡散モデルにより非常に高画質の画像生成を実現して話題になりました。また、これ自体は拡散モデルではないのですが、Google から画像生成モデル Parti (Yu et al., 2022) も発表されています。

さらに、拡散モデルを用いて動画 (ビデオ) を生成する手法もいくつか立て続けに発表されました。代表的なものに、Google から発表された Imagen Video (Ho et al., 2022) および Meta から発表された Make-A-Video (Singer et al., 2022) があります。また、こちらは拡散モデルではありませんが、同時期に Google から発表された Phenaki (Villegas et al., 2022) や、清華大学の CogVideo (Hong et al., 2022) 等も、高品質のビデオ生成を達成しています。

拡散モデルの発展とともに、拡散モデルを応用した画像生成・編集手法も数多く提案されています。代表的なものに、「画像」を単語に変換して概念を指定する「反転」拡散モデル (Gal et al., 2022) や、テキストによる自由な画像編集を実現した Imagic (Kawar et al., 2022) などがあります。また、LAION-5B など、超大規模な画像・テキストデータセットの公開も、オープンな研究開発を後押ししています。

拡散モデルについては、その理論についても発展が続いています。代表的なものに、拡散確率モデル (DPM) の後ろ向き過程の分散を解析的に解いて高速・高品質の生成を可能にした Analytic-DPM (Bao et al., 2022)、拡散モデルを統一的に比較・改善した EDM (Karras et al., 2022) などがあります。

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。
画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説
最近何かと話題の「テキスト→画像生成 (text2image)」を発展させ、テキストからの動画生成を実現した「テキスト→動画生成 (text2video)」に関する論文が、Google や Meta から 9 月末から 10 月初頭にかけて立て続けに発表されました。本記事では、それら最新手法の違いに注目しながら、技術をまとめて解説します。
NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説
日々話題に事欠かさない拡散モデルは、新しい改善手法・論文等が毎日のように発表され、それらを追っていくだけでも大変だとお思いの方も多いでしょう。NeurIPS 2022 の論文賞に輝いた「拡散ベースの生成モデルの設計空間を明らかにする」と題された本論文は、乱立する拡散モデルの「設計空間」を統一的な観点から比較・改善した非常に重要なものですので、本記事で詳細に解説しました。

3. 拡散モデル (その他のドメイン)

拡散モデルが画像・ビデオ生成分野において目覚ましい発展を遂げるのと同時に、他ドメイン・分野への応用が進んでいます。以下は、2022年に発表された代表的な拡散モデルベースの生成手法です。

  • 言語
    • 単語ベクトルを拡散モデルで生成する言語モデル Diffusion-LM (Li et al., 2022)
    • 「アナログのビット」拡散モデルで離散データを生成するビット拡散 (bit diffusion; Chen et al., 2022)
    • 拡散モデルを系列変換に適用できるようにした DiffuSeq (Gong et al., 2022)
  • 音声・音楽
    • 拡散モデルを使ってテキストからオーディオを生成する Diffsound (Yang et al., 2022)
    • 複数パートの音符表現から音楽を生成する Spectrogram Diffusion (Hawthorne et al., 2022)
    • 音楽のスペクトグラムを画像と見なしてテキストから音楽を生成する Riffusion
  • 3D モデル

ドメインによっては、生成の品質が従来手法 (例えば、自己回帰的なトランスフォーマー) に匹敵する場合も見られ、今後も生成モデルの選択肢の一つとして存在感を増していくものと考えられます。

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説
最近、テキストから高品質な画像を生成するモデルが世間を賑わせていますが、その多くは「拡散モデル」に基づいています。画像のピクセルなど、連続値データを生成するのは得意な拡散モデルですが、テキストなどの離散データの生成についてはあまり上手く行っていませんでした。最近になって、離散データをビット列として拡散モデルで生成する「ビット拡散」が発表されました。非常にシンプルながら強力な手法であり、今後の発展が望めます。本記事では、このビット拡散を関連研究と共に紹介します。
拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線
画像生成における成功を受け、テキスト生成にも拡散モデルの応用が急速に進んでいます。従来の GPT のような単方向的な生成の問題点を解決するデコーディング手法も様々なものが開発・実装されています。本記事では、ごく最近発表された多くのテキスト生成・デコーディング手法とトレンドを解説しました。

4. ChatGPT

OpenAI から 11月末に発表された ChatGPT は、Stable Diffusion、Whisper (後述) と並ぶ 2022年の「AI 三大事件」の一つであると言って間違いないでしょう。GPT-3 のような強力な言語モデルは既に存在していましたが、人間との対話および有用さに最適化した ChatGPT は、その生成の質および汎用性から瞬く間に大きな話題となり、なんとリリースから5日間で 100万ユーザーを達成するに至りました。

ChatGPT を強力にしているコア技術が「人間によるフィードバックを用いた強化学習 (以下 RLHF; reinforcement learning from human feedback)」で、これは、人間のフィードバックに基づき強化学習によって言語モデルを微調整する手法です。ChatGPT については、詳細な技術論文等は出版されていませんが、公式ブログ記事で ChatGPT の「きょうだいモデル (sibling model)」と言われている InstructGPT (Ouyang et al., 2022) に最も近いと考えられています。

なお、言語モデルの振る舞いと、人間の嗜好・利害を一致させることを「アラインメント (alignment)」問題と呼びますが、人間からのフィードバックに基づいて言語モデルをアラインメントさせる研究に取り組んでいるのは、OpenAI だけではありません。DeepMind は、情報を探す対話エージェントに RHLF を適用し、より安全・助けになるモデル Sparrow (Glaese et al., 2022) を発表していますし、Anthropic は、最近の論文 (Bai et al., 2022) で、言語モデルのアラインメント、特に、「助けになる (helpful)」「無害な (harmless)」要素に注目し、RHLF と同様の手法を用いて言語モデルを訓練・評価しています。

ChatGPT については、有害・差別的な言語を出力しないよう注意深く訓練されているように見えますが、事実関係を間違えたりと、従来の言語モデルによく見られるような問題が依然として存在しています。また、誰でも高品質な文書を簡単に作られるようになり、Stack Overflow で ChatGPT の利用が禁止されたり、大学レベルのエッセイにおける不正が社会問題化したりしています。

最後に、「草の根的 AI コミュニティ」Eleuther AI の一部門である CarperAI では、HuggingFace Transformers のモデルを RLHF によって訓練する trlx など、強化学習・RLHF に関するオープンソースの実装・モデルを多数リリースしています。また、最新の深層学習モデルのオープンソース実装で有名な lucidrains 氏も、言語モデルを RLHF によって訓練する実装を公開しています。ただ、OpenAI は、ChatGPT の訓練に必要な「人間のアノテーションに従来手法の10倍以上もの予算をかけている」という噂もあり、潤沢な資金力を持った大企業以外がこれらの技術を再現することを難しくしています。

ChatGPTのコア技術RLHF(人間フィードバックによる強化学習)を解説
OpenAI から対話に最適化した最新の言語モデルである ChatGPT が発表され、大きな話題となっています。その中でも、人間による評価と強化学習の技術を使い、言語モデルを人間の指示・嗜好にアラインメントさせる「人間によるフィードバックを用いた強化学習 Reinforcement Learning from Human Feedback (RLHF)」が重要な役割を果たしていると考えられ、注目が集まっています。本記事では、この RLHF の技術を関連論文と共に解説します。

5. 強化学習

2022年は、強化学習の存在感が一層と増した年でもありました。10月には、高速な行列乗算のアルゴリズムを発見する AlphaTensor が DeepMind から発表されましたが、これは囲碁などで成果を上げた AlphaZero を発展させた強化学習によって訓練されています。また、上で書いたように、OpenAI による ChatGPT は、人間にとって有用かつ無害な応答をするように強化学習によって訓練されています。

強化学習の分野では、状態と行動の系列を言語モデルのトークン列のように自己回帰的に予測する Decision Transformers (Chen et al., 2021) や Trajectory Transformer (Janner et al., 2021) が、シンプルながらも高い性能を上げて、オフライン強化学習において強いインパクトを残しました。

この Decision Transformer と近いアーキテクチャを持ちながら、なんと 604個ものタスクを単一のモデルで解けるようにした超マルチモーダル・超マルチタスクの「万能エージェント」Gato (Reed et al., 2022) が発表され、話題を呼びました。他にも、Minecraft の環境とウェブからの大規模データセット、およびそれらを利用したエージェントを学習した MineDojo (Fan et al., 2022) が、機械学習分野のトップ会議 NeurIPS 2022 で論文賞を受賞しています。

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説
先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。
機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説
先週の 11/26〜12/4 にかけて、機械学習系のトップ会議である NeurIPS 2022 がオンラインと現地のハイブリッドで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、主に優秀論文賞 (outstanding papers) を受賞した論文の中から、興味深く実用的にも重要なものをピックアップして紹介します。

6. 言語モデル

2020年に GPT-3 が発表されてから話題に事欠かない巨大言語モデル界隈ですが、上で書いた ChatGPT 以外にも様々な動きがありました。2022年に発表された代表的な言語モデルを以下に挙げます。

  • 対話用の超大規模言語モデル LaMDA (137B パラメータ, Thoppilan et al., 2022)
  • 「密な」言語モデルとしては最大規模の PaLM (540B パラメータ, Chowdhery et al., 2022)
  • DeepSpeed と Megatron を使って訓練した巨大言語モデル Megatron-Turing NLG (530B パラメータ, Smith et al., 2022)
  • 計算量に対して最適な性能を達成した言語モデル Chinchilla (70B パラメータ, Hoffmann et al., 2022)
  • 言語モデルの目的関数・アーキテクチャを統一するフレームワーク UL2 (Tay et al., 2022)

また、言語モデルに関しては、単にスケールを追求するだけでなく、その「賢い訓練・利用法」についても研究開発が進んでいます。

代表的なものに、2021年にも取り上げた「指示チューニング (instruction tuning)」がありますが、これは、言語モデルを多数のタスクの記述および例示によって訓練することによって、未知タスクへの汎化能力を高める手法です。指示チューニングを用いて訓練した「最強の言語モデル」Flan-PaLM (Chung et al., 2022) は、非常に高い性能を達成しています。この指示チューニングの訓練・評価のためには、大規模かつ多様なタスクを含めた高品質なデータセットが必要になります。61個のタスクを含めた Natural Instructions (Mishra et al., 2022)、1,600 個以上のタスクを含めた Super-NaturalInstructions (Wang et al., 2022)、コミュニティによって作成された 204 タスクを含んだ BIG-bench (Srivastava et al., 2022) など、大規模なデータセット・ベンチマークが公開され、研究開発を後押ししています。

また、思考の道筋 (chain of thoughts; CoT, Wei et al., 2022) や、メモ用紙 (scratchpad; Nye et al., 2021) など、推論の中間結果を言語モデルに出力させてタスク性能を上げる技術や、言語モデルに検算させる「検証モデル (verifier, Cobbe et al., 2021)」 などの手法が開発されています。

他にも、分野に特化した言語モデルが数多く発表されています。ボードゲーム「ディプロマシー」を人間レベルで戦える AI である CICERO や、科学技術文書に特化した言語モデル Galactica (Taylor et al., 2022) などが話題になりました。なお、Glactica については、出力に事実的な誤りやバイアスが散見されるにも関わらず、それらしい「科学的」文章を出力できる危険性が多数の研究者等から指摘され、デモが公開後3日で閉鎖になるという事態になりました。

進化を続ける大規模言語モデルの最前線 (LaMDA, GPT-NeoX-20B, XGLM)
前回、本ブログにおいて超巨大言語モデルについて取り上げてから数ヶ月しか経っていませんが、大規模言語モデル分野では興味深い研究・モデルが次々と発表されています。特に、GPT-NeoX-20B など、訓練データ・コード・モデルなど、すべてオープンソースで利用できる言語モデルがいくつか発表されています。本記事では、最近のこれらの大規模言語モデルの傾向を紹介します。
ついに出た!Googleによる最強・最大の言語モデル PaLM を解説【論文速報】
Google から、超大規模言語モデル PaLM (「パーム」、Pathways Language Model) が発表されました。パラメータ数 540B (5400億) の本モデル、現段階で「最強・最大の言語モデル」と言っても過言ではなく、言語理解、コーディングタスク、多言語タスクなど、様々な分野で最高性能 (SOTA) を軒並み達成しています。本論文、付録 (appendix) を除いた論文の本体だけで 62 ページもある大作なので読むのも大変なのですが、本記事では、その中でも重要な要点をかいつまんで紹介します。
新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選
GPT-3 などの大規模・汎用言語モデルの出現によって、自然言語処理においてタスクを解くやり方にも変化が生じています。タスクやドメインごとにモデル・手法を工夫するかわりに、プロンプトとしてどのように指示を与えるか、言語モデルとどのようにやりとりするか、という点に焦点が移っています。本記事では、言語モデルを使って、数値計算・論理推論などの複雑な問題を、より精度高く解かせるための手法に関する研究およびトレンドを、ごく最近発表された論文も含め10個ほど紹介します。
その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向
急速に研究開発の進む大規模言語モデル分野ですが、「これまでの言語モデルの訓練方法は最適ではなかった」という研究結果が発表され、より少ない計算量で高い性能を上げる言語モデルが開発されています。本記事では、言語モデルのスケール則および指示チューニングなど、言語モデルの性能を最大限に発揮する訓練・チューニング法に関して、重要な論文をピックアップして最新の研究結果を解説します。

7. オープンソース AI

近年の AI 業界では「オープンソース」「草の根的」コミュニティの存在感が増しています。HuggingFace, Eleuther AI, LAION, Stability.AI など、数々の企業・コミュニティが、多数のオープンソース実装・モデル等を公開しています。代表的なものに、以下のものがあります:

  • (発表時) 最大のオープンソース言語モデル GPT-NeoX-20B (Black et al., 2022)
  • コード、モデル、「学習ログ」まで全てオープンソースの巨大言語モデル OPT (Zhang et al., 2022)
  • オープンソースのマルチリンガル巨大言語モデル BLOOM (BigScience Workshop, 2022)
  • OPT を指示チューニングによって訓練したオープンソースモデル OPT-IML (Iyer et al., 2022モデル+実装)
  • オープンソースの英語・中国語バイリンガル大規模言語モデル GLM-130B (Zeng et al., 2022)

なお、これらのコミュニティのメンバー間では、メッセージアプリの Discord のサーバーを用いて主にコミュニケーションがされています。誰でも参加できる公開サーバーで意思決定や Q&A なども含めてやりとりに全てアクセス・参加できる一方で、非英語圏の AI 関係者には少し参加の敷居が高く、また、検索エンジンなどオープンなインターネットに情報が残らないという欠点もあります。

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向
最近になって、オープンなライセンスで利用できる「GPT-3 レベル」の大規模言語モデルが次々と公開されています。これまでは、モデルが公開されなかったり、有料 API でしか利用できなかったりという場合が多かったのですが、今後、言語モデルの研究・利用の敷居がずっと下がりそうです。本記事では、最近の大規模言語モデル開発の動向をまとめました。

8. 音声認識・生成

2022年の「AI 三大事件」の最後の一つは、OpenAI から発表された Whisper を挙げたいと思います。なんと 68 万時間もの訓練データで訓練された大規模な音声認識 (ASR; automatic speech recognition) モデルで、英語の音声認識において人間の (有料) 書き起こしサービスにも匹敵、日本語を含むその他の言語の認識でも非常に高い性能を達成しています。その後、日本語のカタカナ認識モデル を含め Whisper を様々な言語・データセットで微調整する方法なども公開されており、コミュニティでの利用が広がっています。

2022年は、音声の生成においても、大きな進展がありました。テキストから任意の音声を生成する AudioGen (Kreuk et al., 2022)、音声のみから高品質な言語生成を実現する「音声言語モデル」AudioLM (Borsos et al., 2022)、一般の環境音・効果音・音楽などとテキストの関係をとらえる大規模モデル CLAP (Wu et al., 2022) などが代表的な例です。特に、CLIP を皮切りに「テキスト→画像」生成技術が大きく発展したのを考えると、CLAP などの基礎技術には今後の発展が大きく期待でき、音声の分野においても、画像生成 AI 分野で起こったような急激なイノベーションが起こる可能性もあります。

音声表現の分野では、汎用の音声表現ベンチマークである HEAR (Turian et al., 2022)、音声・画像・言語、何でもベクトル化する表現学習手法 data2vec (Baevski et al., 2022) とその後続手法 data2vec 2.0 (Baevski et al., 2022) などが発表されました。

音楽生成の分野では、音符と演奏表現によって制御可能にした音の生成手法である MIDI-DDSP (Wu et al., 2021)、VAE の仕組みを使った高速・高品質なオーディオ生成 RAVE (Caillon and Esling, 2021)、音楽のスペクトグラムを画像と見なしてテキストから音楽を生成する Riffusion などが話題となりました。

最強の音声認識現る OpenAI の音声認識モデル Whisper を解説
先週、OpenAI から、オープンソースの音声認識モデル「Whisper」が発表されました。この Whisper、なんと 68 万時間もの訓練データで訓練された大規模な音声認識モデルで、英語で人間に匹敵する高い性能を上げたうえ、日本語を含む多言語の音声認識、音声翻訳、言語認識、音声区間検出なども可能です。これまでの AI コミュニティの反応を総合すると、総じて「これはすごい」というもので、今後の音声認識の研究・実用に大きな影響を与えるものと思われます。本記事では、この OpenAI の Whisper の論文を読み解き、そのデータ・モデルの詳細、今後予測されるインパクトなどを解説しました。
拡散モデルがここにも オーディオ・音楽生成の最新手法を解説
拡散モデルを使った近年の画像生成 AI の成功を受け、その他の分野にも「拡散モデルの波」が押し寄せています。オーディオ・音楽の生成も例外ではなく、CLIP 的にオーディオとテキストの関連をとらえる「CLAP」や、拡散モデルによって高品質なオーディオ・音楽を生成するモデルなどが次々と発表されています。本記事では、最近発表されたオーディオ・音楽生成モデルの最新動向をまとめました。
音声・画像・言語、何でもベクトル化する最新モデル data2vec を解説
Meta AI から、また非常に興味深いモデルが発表されました。音声・画像・言語を同じ仕組みで何でもベクトル化する自己教師あり学習手法 data2vec、そのシンプルさにも関わらず様々なタスクで SOTA を達成しています。本記事では、基礎となる自己教師あり学習、具体的には、マスク予測と自己蒸留手法から始め、data2vec を丁寧に解説しました。

9. マルチモーダル・制御

rt1

単一の手法・モデルで、ビジョン・言語・音声・制御など、様々な種類の入力と出力を統一的に扱える「マルチモーダル」手法も発展しています。

上述の超マルチモーダル・超マルチタスク「万能エージェント」Gato (Reed et al., 2022) や、少数の例示で多様なタスクを解く「GPT-3 の視覚×言語版」Flamingo (Alayrac et al., 2022) などがその代表的な例です。

また、言語モデルが単語を予測するのと同じしくみを用いて、トランスフォーマーなどのモデルに「行動の系列」を予測させることにより、制御が可能になります。「万能エージェント」Gato はこの仕組みを用いた万能エージェントですし、DeepMind の研究 (Humphreys et al., 2022) ではコンピューター (マウスとキーボード) を自然言語によって制御し、自動検索や航空券の予約など簡単なタスクを実行するエージェントを実現しています。トランスフォーマーを最初に提案した論文の著者 (Vaswani 氏) らの立ち上げたスタートアップ Adept は、自然言語でタスクを指定して、情報検索やスプレッドシートの操作などの制御を実現する「行動用トランスフォーマー ACT-1」を発表しています。

最後に、単一のモデルでロボットを制御し、多数のタスクに対応・汎化できる Robotics Transformer (RT-1; Brohan et al., 2022) も 12 月に発表されています。

2021年の記事で述べたように、統一的なモデルや手法を用いて様々なモダリティー、タスクを扱う「AI 分野の大統一」は、2022年も着実に進みつつあります。

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説
先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。

10. 計算量削減

近年の巨大モデルは、訓練に大量の計算機リソースと大規模なデータセットを必要とするため、GAFAM 等の資金力を持つ大企業以外では再現できにくいという「AI 格差」が指摘されています。モデルやデータのスケールを追求した研究の一方で、学習や推論にかかるコストをいかに下げるか、という研究も活発に行われています。

コンピューター・ビジョンの分野では、ビジョン・トランスフォーマーが画像分類などのタスクで高い性能を上げています。一方で、入力サイズの2乗に計算量が比例してしまうというトランスフォーマーの欠点を補うための手法、例えば DiNA (Hassani and Shi, 2022) や Token Merging (Bolya et al., 2022) 等が提案されています。また、ConvNet (畳み込みニューラルネットワーク) を現代的な手法で訓練することによりビジョン・トランスフォーマーに匹敵させた ConvNeXt (Liu et al., 2022) も発表され、「ConvNet vs ViT」の決着にはもう少しかかりそうです。さらに、NeRF (Neural Radiance Field) を始めとする様々なグラフィックスタスクにおいて、高速な学習を可能にした Instant NGP (Müller et al., 2022) が SIGGRAPH 2022 でベストペーパー賞を受賞しています。

言語処理の分野では、計算量に対して最適な性能を達成した言語モデル Chinchilla (70B パラメータ, Hoffmann et al., 2022) が、比較的少ないパラメータ数で他のさらに大規模なモデルに匹敵する性能を上げていますし、UL2R (Tay et al., 2022) は、0.1% の追加訓練だけで言語モデルの性能を大幅に向上させています。また、12月に「一夜漬け (cramming) BERT」と呼ばれる、BERT 的な言語モデルを単一の GPU 上で1日だけ訓練し、同等の性能を達成した研究も発表されています (Geiping and Goldstein, 2022)。

機械学習一般については、訓練データの枝刈りを使い、少ないデータで高精度モデルを訓練する手法 (Sorscher et al., 2022) が発表され、注目を集めました。同論文は NeurIPS 2022 の論文賞にも選ばれています。

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい
機械学習モデルの性能は、データ量やモデルサイズなどのスケールに対して、べき乗則 (power law) に従って改善するという「スケール則」が、様々なモデル・データにおいて示されています。最近発表された論文では、このスケール則を突破し、訓練データ内の重要なサンプルを同定することにより、指数関数に従ってより効率的にモデルの性能を改善する手法が発表されています。本記事では、このべき乗則を突破し、少ないデータで高精度モデルを訓練する論文を関連研究と共に紹介します。
その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向
急速に研究開発の進む大規模言語モデル分野ですが、「これまでの言語モデルの訓練方法は最適ではなかった」という研究結果が発表され、より少ない計算量で高い性能を上げる言語モデルが開発されています。本記事では、言語モデルのスケール則および指示チューニングなど、言語モデルの性能を最大限に発揮する訓練・チューニング法に関して、重要な論文をピックアップして最新の研究結果を解説します。
ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説
コンピュータービジョンで高い性能を上げているビジョン・トランスフォーマー (ViT) ですが、計算量が多いという問題があります。そこで最近、ViT の「視野」の取り方を工夫することにより計算量を削減する手法がいくつか提案されました。また、トランスフォーマーの自己注意機構は本当に必要なのか、トランスフォーマー系モデルを「MetaFormer」として一般化して比較検討した最近の傾向についても少し触れます。

おわりに — 今後の AI はどう発展するか

進歩の激しい AI の分野において、将来の方向を予測することは非常に難しいと考えています。一方で、近年の AI の発展を見ると、少なくとも向こう2〜3年間については「トランスフォーマー+自己回帰的な予測」に基づく大規模言語モデルが、ある種の「AI 分野の OS・インターフェース」的な役割を果たして発展していくと考えるのが自然です。

一つの方向性は、この言語モデルをマルチモーダルにするというもので、これは言語モデルに「目と耳」を持たせる技術であると考えると分かりやすいでしょう。これについては Flamingo (Alayrac et al., 2022) など既に多数の研究がありますが、これが実用化すると、例えば ChatGPT に画像を見せて「この写真に写っている製品の型番は何か」といった質問に答えさせたり、動画を見せて「この映画のあらすじを日本語でまとめて」といった対話ができるようになる可能性が出てきます。

もう一つの方向性は、この言語モデルに制御機構を持たせるというもので、これは言語モデルに「手と足」を持たせる技術であると考えると分かりやすいでしょう。本記事でも述べた Gato (Reed et al., 2022) や RT-1 (Brohan et al., 2022) など、既に研究が進んでいますが、まず始めにはブラウザやターミナルの操作など、マウスとキーボードで可能な範囲から実用化が進むと思います。これが可能になると、ChatGPT に「Amazon でこの漫画の最新刊を買っておいて」などの指示が出せるようになります。

これらの技術が実用化した時、言語モデルはまさに「バーチャルアシスタント」と呼ぶにふさわしく、社会に大きなインパクトを与えるのは必至です。もちろん、コンピューターの制御を言語モデルに渡した時点で、その安全性を確保する重要性はさらに高まるのは間違いなく、AI の技術を人間の利害と一致させる「アラインメント」の技術も一層と重要になると予想されます。

最後になりましたが、本記事の執筆にあたって、本ブログの共同執筆者である藤井さん、塚越さんにアドバイスをいただきました。この場を借りてお礼申し上げます。また、本記事の執筆には以下のリンクを参照にしました。