Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

npaka

プログラマー。iPhone / Android / Unity / ROS / AI …

npaka

プログラマー。iPhone / Android / Unity / ROS / AI / AR / VR / RasPi / ロボット / ガジェット。年2冊ペースで技術書を執筆。アニソン / カラオケ / ギター / 猫 twitter : @npaka123

マガジン

  • ROS入門

    ROS関連のノートをまとめました。

  • 自然言語処理入門

    自然言語処理関係のノートをまとめました。

  • JavaScript入門

    JavaScript関連のノートをまとめました。

  • iOS・Androidアプリ開発入門

    iOSとAndroidのアプリ開発関連のノートをまとめました。

  • AIリリース年表

    AIリリース年表をまとめました。

最近の記事

  • 固定された記事

『Google Gemini 1.5/LlamaIndex/LangChain 人工知能プログラミング実践入門』 が発売になりました。

『Google Gemini 1.5/LlamaIndex/LangChain 人工知能プログラミング実践入門』 が発売になりました。 この本は、この本は、Googleの「Gemini」を活用して人間の仕事をサポートする「LLMアプリケーション」を開発するための入門書です。2024年5月末の「Gemini 1.5 Pro」「Gemini 1.5 Flash」の正式版リリースに対応しています。 対象読者は、次のとおりです。 「Gemini」は、Googleが開発した最新の

    • Ubuntu 20.04 への ROS2 Foxy のインストール

      「Ubuntu 20.04」への「ROS2 Foxy」のインストール手順をまとめました。 1. ROS2 Foxy のインストール「ROS2 Foxy」のインストール手順は、次のとおりです。 (1) 「Ubuntu 20.04」の環境を準備。 今回は、「WSL2」で「Ubuntu 20.04」の環境を準備しました。 (2) 「ROS 2」のリポジトリの準備。 「ROS 2」のリポジトリからインストールできるように準備します。 ~$ sudo apt update &&

      • Google Colab で Pyramid Flow を試す

        「Google Colab」で「Pyramid Flow」を試したのでまとめました。 1. Pyramid Flow「Pyramid Flow」は、フローマッチングに基づく学習効率の高い自己回帰動画生成手法です。オープンソースのデータセットのみで学習することで、768pの解像度と24 FPSで高品質の10秒の動画を生成します。画像からの動画生成もサポートします。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 #

        • Google Colab で Llama-3.1-Swallow を試す

          「Google Colab」で「Llama-3.1-Swallow」を試したのでまとめました。 1. Llama-3.1-Swallow「Llama-3.1-Swallow」は「Llama 3.1」の英語の能力を維持しながら、日本語の能力を強化した大規模言語モデル (8B, 70B) です。「Llama 3.1」をベースに、東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発されました。 2. Colabでの実行Colab

        • 固定された記事

        『Google Gemini 1.5/LlamaIndex/LangChain 人工知能プログラミング実践入門』 が発売になりました。

        マガジン

        • ROS入門
          85本
        • 自然言語処理入門
          852本
        • iOS・Androidアプリ開発入門
          103本
        • JavaScript入門
          87本
        • AIリリース年表
          15本
        • AR・VR・MR入門
          92本

        記事

          Gemini 1.5 Flash-8B の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Gemini 1.5 Flash-8B「Gemini 1.5 Flash-8B」の安定版がリリースされました。「Google AI Studio」と「Gemini API」を介して「gemini-1.5-flash-8b」に無料でアクセスできます。 多くのベンチマークで5月にリリースされた「Gemini 1.5 Flash」の性能に匹敵します。チャット、文字起こし、長いコンテキストの言語翻訳などのタスクで特に優れた性

          Gemini 1.5 Flash-8B の概要

          ChatGPT の Canvas の概要

          以下の記事が面白かったので簡単にまとめました。 1. Canvas「Canvas」は、プロジェクト作成やコーディングで 「ChatGPT」と連携するための新しいインターフェースです。別ウィンドウで開き、「ChatGPT」と共同でプロジェクトに取り組むことができます。このベータ版では、会話だけでなく、隣り合ってアイデアを作成し、改良するという新しい共同作業の方法が導入されています。 「Canvas」は「GPT-4o」で構築されており、ベータ版ではモデルピッカーで手動で選択で

          ChatGPT の Canvas の概要

          OpenAI の Vision Fine-Tuning を試す

          「OpenAI」の「Vision Fine-Tuning」を試したのでまとめました。 1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。 2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。 ファインチューニング前の「GPT-4o」では、「後藤ひとり」「伊地知虹夏」は知ってい

          OpenAI の Vision Fine-Tuning を試す

          Google Colab で Gemma 2 JPN を試す

          「Google Colab」で「Gemma 2 JPN」を試したのでまとめました。 1. Gemma 2 JPN「Gemma 2 JPN」は、「Gemma 2 2B」を日本語テキストに合わせてファインチューニングしたモデルです。「Gemma 2」での英語のみのクエリと同じレベルのパフォーマンスで日本語をサポートします。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール!pip inst

          Google Colab で Gemma 2 JPN を試す

          Google Colab で Gemma 2 Baku 2B を試す

          「Google Colab」で「Gemma 2 Baku 2B」を試したのでまとめました。 1. Gemma 2 Baku 2B「Gemma 2 Baku 2B」は、「Gemma 2 2B」を「Chat Vector」と「ORPO」(Odds Ratio Preference Optimization) を使用してファインチューニングしたモデルです。「gemma-2 chat形式」に準拠しています。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (

          Google Colab で Gemma 2 Baku 2B を試す

          OpenAI の Realtime API の使い方

          以下の記事が面白かったので、簡単にまとめました。 1. Realtime API「Realtime API」は、低遅延なマルチモーダル会話エクスペリエンスを構築するためのAPIです。現在、入出力の両方でテキスト・音声がサポートされており、Function Calling を利用することもできます。 特徴は次のとおりです。 2. クイックスタート「Realtime API」は、「WebSocket」を介して通信するステートフルなイベントベースAPIです。 機能を紹介する

          OpenAI の Realtime API の使い方

          OpenAI API の Evals の概要

          以下の記事が面白かったので、簡単にまとめました。 1. EvalsAIモデルで開発する場合、出力が正確で有用であることを確認するために、継続的にテストすることが不可欠です。テストデータを使用してモデル出力に対して評価 (Evalsと呼ばれる) を定期的に実行することで、高品質で信頼性の高いAIアプリケーションを構築および維持するのに役立ちます。 OpenAIは、テストデータセットで評価を作成および実行するための組み込みツールを「OpenAIダッシュボード」に提供します。し

          OpenAI API の Evals の概要

          Android AICore による Gemini Nano の実行手順

          以下の記事が面白かったので、簡単にまとめました。 1. はじめに本日 (2024年10月1日)、すべての Android 開発者に「AICore」経由で「AI Edge SDK」を使用した「Gemini Nano」への実験的アクセスを解放しました。開発者は、「Pixel 9」でText-to-Textプロンプトを試すことができます。 今後、より多くのデバイスとモダリティのサポートが追加されます。開始するには、ドキュメントと動画を確認してください。実験的アクセスは開発目的で

          Android AICore による Gemini Nano の実行手順

          OpenAI API の Vision Fine-Tuning の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。 2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによるファインチューニングと同様のプロセスに従います。開発者は、適切な形式に従って画

          OpenAI API の Vision Fine-Tuning の概要

          OpenAI API の Model Distillation の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Model Distillation「Model Distillation」は、OpenAIプラットフォーム内で蒸留を行うための機能です。「o1-preview」「GPT-4o」などのフロンティアモデルの出力を使用して、「GPT-4o mini」などの費用対効果の高いモデルの性能をファインチューニングおよび改善できます。 2. Model Distillation の構成要素「Model Distillation」に

          OpenAI API の Model Distillation の概要

          OpenAI API の Prompt Caching の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Prompt Caching「Prompt Caching」は、最近使用した入力トークンを再利用することができる機能です。開発者は50%の使用料金の割引とプロンプト処理時間の短縮を実現できます。チャットボットと長時間の複数ターン会話を行う時や、コードベースを編集する時など、同じコンテキストを繰り返し使用する場合に役立ちます。 2. 利用料金本日より、「GPT-4o」「GPT-4o mini」「o1-preview」「

          OpenAI API の Prompt Caching の概要

          OpenAI の Realtime API の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Realtime API本日 (2024年10月1日)、OpenAIから「Realtime API」が発表されました。これにより、開発者はアプリで低遅延なマルチモーダル会話エクスペリエンスを構築できるようになりました。ChatGPTの「Advanced Voice Mode」と同様に、6つのプリセット音声を使用して、自然な speech-to-speech をサポートします。 さらに、「Chat Completion

          OpenAI の Realtime API の概要