テキスト生成における decoding テクニック: Greedy search, Beam search, Top-K, Top-p Transformer ベースの言語モデルが普及しているのは承知の通りだと思います。 中でも有名なのは BERT で、これは Transformer の Encoder のみを使う Autoencoding models と呼ばれるカテゴリのモデルです。入力の一部を隠してそれを復元するというタスクを大量に解かせることで事前学習を行うことになります。それゆえ、このタイプのモデルが最も向いているタスクは Token の分類(固有表現抽出等)や文章の分類など、入力の文章自体に興味がある場合です。 一方、Transformer の Decoder のみを使う Autoregressive models (GPT-2 など) や、 Encoder と Decoder