LLMアプリケーションを運用されているみなさんは新しいLLMモデルが出た時どのように検証して、どのようにモデルをアップデートされているでしょうか? 性能が高いモデルが出たから変更してみたいということもあれば、性能は低いけれども価格が圧倒的に安いから変更したいというケースもあるでしょう。 今回は、LLMの新しいモデルが出た際の検証と実際にリリースする運用をシェアします。 モデル間の比較検証の手順 同じプロンプトでデータセットに対して出力して評価する データセットの準備 当然ですが、検証するためのデータセットが必要です。 データセットを作るのには、LangSmithのAnnotation Queuesでの運用を激推ししています。 LangSmithの運用の詳細は下記の記事を見ていただくとして、本番データをアノテーションしてデータセット化して溜めて置くことができれば、このような検証をする際に使え