Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

nlpとkaggleに関するclavierのブックマーク (3)

  • 2023-24年(上期)のKaggleコンペから学ぶ、NLPコンペの精度の上げ方

    LLM関係のコンペがかなり多かったですね。 ベースラインノートブック 最近はほとんどのコンペがHuggingfaceのTrainerを使って学習が行われます(テーブルデータにおけるscikit-learnのような立ち位置です)。ChrisのNotebookは非常にシンプルにまとまっているのでぜひ参考にしてください。 分類(+RAG) 回帰、分類 固有表現抽出 NLP・精度上昇で検討すること データを増やす LLMによるデータ生成 + ラベリング(CommonLit2 1st, DAIGT 1st, LLM Sci Exam 5th, PIIDD 1st) LLMによるデータ生成は必ずしも効果があるとは限らない データ生成方法も現状はベストプラクティスはない Mistral, Mixtral系列でデータ生成がよさそうな感じはする なお、LLMがラベル付けできないタスクでは厳しい印象です TT

    2023-24年(上期)のKaggleコンペから学ぶ、NLPコンペの精度の上げ方
  • Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編〜 | 株式会社AI Shift

    こんにちは AIチームの戸田です 近年、自然言語処理タスクにおいて、BERTを始めとするTransformerをベースとした事前学習モデルを感情分類や質問応答などの下流のタスクでfine-tuningする手法が一般的になっています huggingfaceのTransformersなど、事前学習モデルを簡単に使うことのできるライブラリもありますが、Kaggleなどのコンペティションで上位に入るには素のモデルのままでは難しく、ヘッダや損失関数などの工夫などが必要です 記事では私がKaggleのコンペティションに参加して得た、事前学習モデルのfine-tuningのTipsを共有させていただきます 書きたい内容が多くなってしまったので、今回は学習の効率化について、次回精度改善について、と2回に分けて書かせていただきます 事前準備 学習データとして、先日終了したKaggleのコンペティション、C

    Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編〜 | 株式会社AI Shift
  • Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part5 (End)

    We organized Japanese financial reports to encourage applying NLP techniques to financial analytics. You can download… Part4からずいぶん間が空きましたが、その間にはデータ公開にまつわるもろもろの調整などがあったという。 Airflowを採用しなかった理由最終的にAirflowを採用しなかった理由は2つあります。 運用コスト開発コスト運用コスト Part3でも触れましたが、Airflowのホスティングは結構高くつきます。ホスティングサービスを提供しているのはGCPのCloud ComposerとAstronomerの2つが主です。Astronomerの場合は月額$100まで抑えることが可能ですが、固定で毎月かかるとなるとそこそこの金額です。 スケジューラーは、スケジュー

    Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part5 (End)
  • 1