“解釈可能な特徴を抽出するためのスパース オートエンコーダ (SAE) を使用した機械的なLLM解釈可能性に関する研究を再現しようとしている。このプロジェクトは...完全なパイプラインを提供することを目指している。”

misshikimisshiki のブックマーク 2024/11/22 14:07



GitHub - PaulPauls/llama3_interpretability_sae: A complete end-to-end pipeline for LLM interpretability with sparse autoencoders (SAEs) using Llama 3.2, written in pure PyTorch and fully reproducible.

    Modern LLMs encode concepts by superimposing multiple features into the same neurons and then interpeting them by taking into account the linear superposition of all neurons in a layer. This concep...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう