タグ

nlpに関するnakackのブックマーク (9)

  • Prompt Engineering Guide – Nextra

    Prompt Engineering Guide プロンプトエンジニアリングは、言語モデル(LMs)を効率的に使用するためのプロンプトを開発および最適化する比較的新しい学問分野です。プロンプトエンジニアリングのスキルを身につけることで、大規模言語モデル(LLMs)の能力と限界をより理解することができます。 研究者は、プロンプトエンジニアリングを使用して、質問応答や算術推論などの一般的なおよび複雑なタスクのLLMsの能力を向上させます。開発者は、LLMsやその他のツールとのインタフェースとなる強固で効果的なプロンプテクニックを設計するためにプロンプトエンジニアリングを使用します。 プロンプトエンジニアリングは、プロンプトの設計と開発に限らず、LLMsとのインタラクションおよび開発に役立つ幅広いスキルと技術を含みます。これは、LLMsとインタフェースすること、ビルドすること、能力を理解すること

  • オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に

    AI企業のCerebrasが、オープンソースでパラメータ数1億1100万~130億の大規模言語モデル「Cerebras-GPT」7種類を公開しました。Cerebras-GPTは、OpenAIGPT-3をベースに、DeepMindが2022年3月にリリースしたChinchilla方式で学習したモデルで、これまでに公開されているどのモデルよりも学習時間が短く、学習コストが低く、消費電力が少ないのが特徴とのことです。 Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/ cerebr

    オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に
    nakack
    nakack 2023/03/29
  • 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた

    このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各

    新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
    nakack
    nakack 2018/06/29
  • ML-Askでテキストの感情分析 - Qiita

    ちゃお……† 今回は感情分析ライブラリML-Askについて紹介します。 ML-Askができること 感情の推定 2,100語の辞書によるパターンマッチングで{喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚}の10種類の感情を推定します。この2,100語は、感情表現辞典に基づいているそうです。 感情の強さ 間投詞、擬態語、がさつな言葉、顔文字、「!」や「?」の数で感情の強さを推定します。 ネガポジ分類 推定された感情から文を{ネガティブ、ポジティブ、ニュートラル}の3種類に分類します。 文脈の考慮 Contextual Valence Shifters (CVS) という概念に基づいて, 文脈を考慮した感情推定を行います. たとえば, 「好きとは言えない」という文の場合、「好き」が否定されているので、「好き」の逆の感情である「厭」だと推定します。 活性的かどうか 推定された感情を元に

    ML-Askでテキストの感情分析 - Qiita
  • Google、自然言語理解(NLU)の基礎となる「SyntaxNet」をオープンソース化

    Googleは5月12日(現地時間)、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。 自然言語理解(NLU)システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Parsey McParsefaceは、言語構造解析方法を学習する強力な機械学習アルゴリズム上に構築されており、文章内の各ワードの機能的役割(動詞、形容詞など)を解析できるという。Parsey McParsefaceは世界で最も正確な構文解析ツールだとGoogleは説明する。 コンピュータにとって、人間の話す自然言語はあまり

    Google、自然言語理解(NLU)の基礎となる「SyntaxNet」をオープンソース化
    nakack
    nakack 2016/05/14
  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
    nakack
    nakack 2016/05/12
  • word2vecをDockerでプレーンテキストから簡単に使えるようにしました - CreateField Blog

    はじめに Dockerで簡単に使えるようにしてみた第2弾です。前回は、専門用語を自動抽出してくれるTermExtractをプレーンテキストで簡単に使えるようにしたDockerファイルについて紹介しました。 最近はword2vecが非常に話題になっていますが、word2vecは環境構築周りやテキストの前処理等がなかなかめんどくさいです。 そこで、word2vecと、プレーンテキストをRE2による正規表現フィルタ、ICUによるNFKC正規化(全角文字→半角文字変換等)、MeCabによる分かち書き等を実行してくれる自作のC++プログラムstring-splitterが自動で環境構築されるDockerファイルを作りました。 https://github.com/naoa/docker-word2vec このDockerファイルには、単語間のベクトル距離が近い類義語っぽいものを出力するdistanc

    word2vecをDockerでプレーンテキストから簡単に使えるようにしました - CreateField Blog
  • word2vecよりも高性能らしいGloVeを触ってみた - 鴨川にあこがれる日々

    はじめに word2vecよりも性能が高いとかなんとか / “GloVe: Global Vectors for Word Representation” http://t.co/cZPAafJ6Zl #自然言語処理— ηozawa kento (@nozawa0301) June 4, 2015 word2vecというツールが,かなり流行りました. そのあといくつも単語の分散表現に関する論文もでてきています. 最近,目にした中で,word2vecよりも性能がよいらしいGloVeが気になったので,簡単に触ってみました.nlp.stanford.edu 論文はこちら http://nlp.stanford.edu/projects/glove/glove.pdf 英語が拙いため,論文自体は理解できていませんが, word2vecと比べて,コーパス全体の情報もうまく使って学習してやろうというの

    word2vecよりも高性能らしいGloVeを触ってみた - 鴨川にあこがれる日々
    nakack
    nakack 2016/04/12
  • 自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷

    最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下

  • 1