Heronは、各モジュールを追加学習するための学習コードと日本語を含むデータセット、学習済みのモデル群で構成。画像認識モデルと大規模言語モデル(LLM)をつなぎ、画像を入力に使えるようになる。例えば、Heronで学習したAIモデルは、画像に何が写っているかを正確に把握しつつ、前の質問を含む文脈を理解しながら画像について回答することができる。 Heronの学習ライブラリでは、学習するLLMを自由に変換可能。「既存の言語モデルの性能を生かしつつ、今後開発・公開される新たなLLMに対しても容易に対応できる柔軟性がある」(同社)という。 公開中の学習済みのモデル群は「Llama 2-chat」(700億パラメータ)「ELYZA-Llama 2」(70億パラメータ)「Japanese StableLM」(70億パラメータ)などをベースにHeronで追加学習し、マルチモーダル化させたもの。これらのモデ