AI(人工知能)モデルの「長期記憶」がにわかに注目を集めている。これまで大規模言語モデル(LLM)が一度に処理できるトークン量を表す「コンテキストウインドー」には限界があり、プロンプトで入力された情報を長らくとどめておけなかった。この弱点を克服できればLLMの用途は一気に拡大する。
「鍵を握るのは長期記憶だ」――。2025年2月、米Open AI(オープンAI)と企業向けAIエージェント「クリスタル・インテリジェンス(Cristal intelligence)」を共同開発することを発表したソフトバンクグループの孫正義会長兼社長は、こう見通しを語った。長期記憶に関する特許も複数取得済みだという。
クリスタル・インテリジェンスは、企業が抱える情報システムのソースコードやデータを学習し、自律的に業務を代行する。この構想の実現を左右するのが長期記憶というわけだ。オープンAIのサム・アルトマンCEO(最高経営責任者)も「今後、AIモデルにおいて長期記憶が重要になっていく」と期待を込めた。
長期記憶の技術開発を巡っては2024年末、注目すべき動きがあった。米Google(グーグル)の研究チームが発表した論文「Titans: Learning to Memorize at Test Time」だ。Titansはいかにして長期記憶を実現しようとしているのか。詳しく読み解こう。
情報を長く覚えさせるため「メモリー」モジュールを追加
ChatGPTなどLLMの基礎として広く使われているのが「Transformer」だ。脳の仕組みをまねた「ニューラルネットワーク」アーキテクチャーの1つである。Transformerは「Attention機構」を通じて、入力トークン全ての依存関係を同時並行で解析する。Attention機構とは、単語の重要度に注目する仕組みのことだ。表現できるトークンの位置情報「Position Embeddings」には上限(「Max Position Embeddings」)が設定されており、それが入力トークンの上限となっていた。
これまでも、処理可能なトークン数を増やそうとする試みは考案されてきた。例えば、文章を分割しながら解釈するという手法だ。窓枠を少しずつずらしていくイメージから「スライドウインドー方式」と呼ばれる。ただしこの手法では、枠をスライドさせるたびに情報が欠落するという課題があった。
Titansの構想では、スライドウインドーの代わりに「メモリー」というモジュールをニューラルネットワークアーキテクチャーとは別に用意する。同モジュールに推論時に保持する情報を長く覚えさせるとともに、推論時も学習を続けることで、より回答精度を高めようとする。