Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

aiに関するko-ya-maのブックマーク (331)

  • Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita

    例えば、こちらのブログですが、グラフィカルな解説部分が、画像になっています。 Claudeはマルチモーダルに対応しているので、画像を添付した状態で「文字を抽出して」というと文字を抽出してくれますが、日語で要約して回答したり、元の文章を正確に抽出する のは、意外と難しいと感じていました。 以下は、Claude.aiを使って「添付画像から文字を抽出して」と依頼した際の結果です。 原文そのままを正確に抽出したいときってありますよね?それを解決する方法を編み出しました。 方法は、「 HTMLで再現させる 」です! 投稿の先頭の画像を添付して「添付画像をHTMLで再現して」と依頼した際の結果がこちらです。 感動!!! (注:右側が画像をもとに生成したHTMLを、プレビューした状態です。Claude.aiのArtifactsという機能です) アイコンがちょっと違うとか省略されてるとかはありますが、

    Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita
  • DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる 前編

    前提 この記事では、「Symbolic Knowledge Distillation: from General Language Models to Commonsense Models」という論文で提案されている 記号知識蒸留 を、ローカルLLMで日語で実験する。 詳細 知識蒸留 (Knowledge Distillation) とは、大きなモデル (教師) から小さなモデル (生徒) に知識を転送する手法である 具体的には、LLMの蒸留と言えば、大きなモデルが出力する確率分布(ソフトターゲット)を利用して、小さいモデルを学習させる手法が用いられていた しかし、論文では、「象徴的」な知識蒸留として、単に数値的な蒸留ではなく、 テキスト (symbolic knowledge) の形で知識を抽出し転送すること を提案している 必要な知識と開発環境 ollamaとPythonとLang

    DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる 前編
  • 日本語プロンプトで高音質生成できるAI作曲サービス「Riffusion」はSunoを超えたか? 4パートのSTEMあり、現在無料無制限(CloseBox) | テクノエッジ TechnoEdge

    サンフランシスコベースのスタートアップ Riffusionが同名のAI作曲サービスのパブリックベータを公開しました。 Riffusionは元々Stable Diffusionの画像から音楽を生成するというちょっと変わったプロジェクトから2年前にスタートしたのですが、それがText to Musicのメインストリームサービスとなって登場。今回は「FUZZ」という新しい生成モデルを使っています。 これがいきなりなかなかの出来。プロンプトに日語も使えて日語歌詞の楽曲も生成できて、品質も高いのです。品質で言えばSunoやUdioを一部凌駕しているかもしれません。 完成度が高いのに現在のところ無料で無制限という大盤振る舞いなのです(パブリックベータなので)。 まず、Sunoでよく使っているプロンプトを使ってみました。 J-POP, Japanese lyrics, female vocalist

    日本語プロンプトで高音質生成できるAI作曲サービス「Riffusion」はSunoを超えたか? 4パートのSTEMあり、現在無料無制限(CloseBox) | テクノエッジ TechnoEdge
  • RAGで「AIエージェント」を使う手法まとめ

    記事では、RAGの性能を高めるための「Agentic RAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、「AIエージェント」をRAGに取り入れた手法である「Agentic RAG」のサーベイ論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。 題 ざっくりサマリー Agentic RAG は、RAGの新しい手法です。この論文では、「RAGにAIエージェントを使っている」とはどういう状態なのか、どんなパターンがあるのかまとめられています。クリーブランド・ステート大学の研究者らによって、2025年1月に発表された論文です。 最近、「AIエージェント」が注目されてい

    RAGで「AIエージェント」を使う手法まとめ
  • Sakana AI

    新手法「TAID」によって学習された小規模日語言語モデル「TinySwallow-1.5B」は、同規模のモデルの中で最高性能を達成しています。さらに、小規模のため、APIなどを介さずお手元のスマートフォンやPCで完結してチャットが可能です。ウェブアプリまたは、GitHubにてお試しいただけます。 稿は、経済産業省とNEDOが推進するGENIACによって支援されたSakana AIの研究成果を紹介するブログシリーズの第3回目です。 概要 日常的な対話はもとより、数学やコーティングといった複雑なタスクまでも人間と遜色ないレベルでこなせるようになった大規模言語モデル(LLM)は、今後ますます多くの場面での利活用が期待されています。こうした大きな期待の一方で、LLMの開発・活用の現場では、莫大な計算資源の必要性が大きな壁として立ちはだかってます。まずLLMの開発現場では、「大規模データと巨大計

    Sakana AI
    ko-ya-ma
    ko-ya-ma 2025/01/31
    > 新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開
  • DeepSeek R1 Dynamic 1.58-bit の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。 「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化

    DeepSeek R1 Dynamic 1.58-bit の概要|npaka
  • 高品質なアニメ風イラストが簡単に!最新画像生成AIモデル「Animagine XL 4.0」登場|AICU Japan

    Cagliostro Research Labが、アニメ画像に特化した最新の画像生成AIモデル「Animagine XL 4.0」を公開しました。このモデルは、高品質なアニメイラストを簡単に生成できる強力なツールです。 [Introducing Animagine-XL v4.0 a.k.a. Anim4gine] Hello, Alchemists! 🧪 Now, let's greet our today's star, Anim4gine~ The wait is finally over as our newest model, the ultimate rendition of Animagine, is officially released to public! Let's pour our imaginations into reality… pic.twitter.co

    高品質なアニメ風イラストが簡単に!最新画像生成AIモデル「Animagine XL 4.0」登場|AICU Japan
  • DeepSeek推しのローカルLLM勢から見るDeepSeek|Holy_fox

    はじめに初めまして、ほーりふぉっくすと申します。 この記事ではDeepSeekがなぜここまで流行り、選べられているのかを大規模言語モデル(LLM)の開発を生業としてる人がローカルLLM勢の視点から説明します。 ※ローカルLLMとは自分のデバイス上で動く大規模言語モデルのことです。 自己紹介ローカルLLM開発をしているほーりふぉっくす(https://x.com/Holy_fox_LLM)と申します。 DeepSeekを去年の8月よりデータ生成・コード生成に使っており、日人の中では多分結構早く触っていた方だと思います。 そんな私から見るDeepSeek社、DeepSeek v3 DeepSeek R1について書いていこうと思います。 DeepSeekの概要2023年に中国の浙江省杭州市で設立されたAI開発を専門とする企業です。 そしてそのDeepSeekが出したモデルがDeepSeek-v

    DeepSeek推しのローカルLLM勢から見るDeepSeek|Holy_fox
  • DeepSeek狂奏曲

    DeepSeek狂奏曲 2025.01.30 Updated by Ryo Shimizu on January 30, 2025, 08:35 am JST DeepSeekという中国製のモデルが世界を席巻している。 OpenAIが有償で提供するo1より高性能だとか、OpenAIの規約に違反した方法で学習されているとか、色々あるのだが、それを噂する人々が不正確な情報に基づいてピーチクパーチクやっているだけなので基的にメディアにはほぼ出鱈目な情報しか出ていない。 まず、整理しておきたいのは、DeepSeek(特にV3とR1)とは何か、ということだ。 DeepSeek-V3は、GPT-4o相当のAIであり、オープンウェイト(AIの学習結果=重みが公開されている)で公開されている。オープンソースではない。 DeepSeek-R1は、o1相当のAIであり、こちらもオープンウェイトで公開されてい

    DeepSeek狂奏曲
  • iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用

    iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用 AIベンチャーのSakana AI(東京都港区)は1月30日、小規模言語モデル(SLM)「TinySwallow-1.5B」を開発したと発表した。大規模言語モデル(LLM)の知識を効率的にSLMに転移できる新技術「TAID」(Temporally Adaptive Interpolated Distillation)を利用し作成したSLMで、デモ動画ではiPhone 14上で高速動作する様子を確認できる。 SLMとは「Small Language Mode」の略称で、小さいパラメータ数を持つAIモデルを指す。消費する計算リソースが少ないため、スマートフォンなどの端末上でも動かせる他、特定のタスクに特化したファインチューニングを施しやすいのも特徴だ。 TinySwallow-1.5Bは

    iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用
  • 話題の中華LLM「DeepSeek R1」の日本語追加学習モデル サイバーエージェントが無料公開

    サイバーエージェントは1月27日、大規模言語モデル(LLM)「DeepSeek-R1」を使った新たなAIモデルを無料公開した。「DeepSeek-R1-Distill-Qwen-14B/32B」をベースに、日語を追加学習させたLLM「DeepSeek-R1-Distill-Qwen-14B/32B-Japanese」をHugging Face上で公開。ライセンスは、MITライセンスで商用利用なども可能だ。

    話題の中華LLM「DeepSeek R1」の日本語追加学習モデル サイバーエージェントが無料公開
  • OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース

    中国AI企業であるDeepSeekが、第1世代の推論モデルである「DeepSeek-R1-Zero」と「DeepSeek-R1」をMITライセンスの下でオープンソースとして公開しました。DeepSeekは特定のAIベンチマークで、OpenAI o1と同等の性能を発揮すると主張しています。 DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf deepseek-ai/DeepSeek-R1 · Hugging Face https://huggingface.co/deepseek-ai/DeepSeek-R1 ???? DeepSeek-R1 is here! ⚡

    OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース
  • Devinがすごすぎてガチ恋Devin沼ハマりしました|コクヨ内製開発エンジニア

    はじめまして! Devinを導入して昨日から社内で試験的に利用し始めたのですが、すごすぎて1日中Devinと会話し続けてガチ恋沼ハマりしてしまった、コクヨ開発エンジニアの伊藤と申します。 このすごさを少しでもみなさんに共有したく、記事を書くことにしました! 自立型ソフトウェアエンジニアリングAIのDevinの紹介の記事になります! Devinって?Devin(デビン)とは、AIスタートアップCognition社が開発した完全自律型のソフトウェアエンジニアリングAIです。 従来のテキスト対話型の生成AIとは異なり、指示をもとに自律的に一連のソフトウェア開発作業をこなしてくれるAIエージェントです。 Devinの推しポイント語らせてください!1日中触れ合って感じたDevinのすごさを事例を交えていくつか紹介します! 判断が必要なときに指示を仰いでくれる!「detektのバージョンアップを行う」

    Devinがすごすぎてガチ恋Devin沼ハマりしました|コクヨ内製開発エンジニア
  • 思いつきで作ったAIツールが5000スターを獲得した話

    とにかくケチりたい、そんな気持ちで作ったツールの話です。 元々開発にCline(Claude Dev)やAiderなどの開発ツールを駆使していました。 ただ、APIの料金が常に心配で、できる限り安く済ませたい気持ちもあり、Claude Proを契約してWeb版にファイルを1つ1つアップロードする日々を過ごしていました。 ある日それが面倒になってきて「全部1ファイルにしたらいい感じに読み込んでくれるのでは?」と思い、作ってみたら思いのほかうまくいったので公開しました。 百聞は一見にしかずということで、 こちらのデモにお気に入りのGitHubリポジトリ(例: honojs/hono)を入力してみてください。 Claudeが得意とするXMLっぽいフォーマットで出力し、そのままClaudeにアップロードすることができます。 完全にAIバブルの波に乗ったとも言えるのですが、多くの競合がいる中でスター

    思いつきで作ったAIツールが5000スターを獲得した話
  • ClineとAIコーディングツールの現状 - laiso

    はじめに 近年、AIを活用したコーディングツールが急速に発展し、プログラマーの生産性向上や開発プロセスの効率化に大きな影響を与えつつあります。これらのツールは、コード補完、チャットアシスタント、コーディングエージェントなど、様々な形態で提供されており、プログラマーの作業をサポートしています。 その中でも、オープンソースのコーディングエージェントである「Cline」は、独特のポジションと活発なコミュニティによって注目を集めています。 記事では、Clineを中心に、現在のAIコーディングツールの動向を探ります。Clineの特徴や利点、そして他のツールとの比較を通じて、AIコーディングツールの現状について考察します。また、Clineのアーキテクチャや実用面、コミュニティの動向についても解説します。 AIコーディングツールは、特に個人のプログラミングの世界に大きな変革をもたらしつつあります。

    ClineとAIコーディングツールの現状 - laiso
  • AI Audio player - k本的に無料ソフト・フリーソフト

    音源を、ボーカル / ドラム / ベース / それ以外 の 4 パートに分離して再生する機能を備えた音楽プレイヤー。 再生中の楽曲を、ボーカル / ドラム / ベース / その他の楽器 の 4 パートに分解し、各パートごとの音量を調整したりしながら再生できるようにしてくれます。 指定したパートをソロ再生 / ミュート する機能や、ピッチ / テンポ を調整する機能、6 バンドイコライザー... といった機能も付いています。 AI Audio playerは、AI を利用した音声分離機能を備えた音楽プレイヤーです。 再生中の楽曲を、AI の力により ボーカル ドラム ベース その他の楽器(シンセサイザー、ギターなど) の 4 つに分割して再生することができる音楽プレイヤーで、各パートごとのミックス状態を自在に調整しながら曲を再生できるところが最大の特徴。 主な機能としては、 各パートごとの音

    AI Audio player - k本的に無料ソフト・フリーソフト
  • browser-useによるブラウザ操作自動化のサンプル集

    はじめに browser-use を使う上で詳しいドキュメントがなかったので、自分で使ってみたことをまとめてみました。 browser-use の基礎的なところは以下にまとめてあります。 ブラウザを起動させず、ヘッドレスモードで実行したい BrowserConfigのheadlessをTrueにすることで、ブラウザを起動させず、ヘッドレスモードで実行することができます。 from browser_use.browser.browser import Browser, BrowserConfig browser = Browser( config=BrowserConfig( headless=True, ) ) async def main(): model = ChatOpenAI(model='gpt-4o') agent = Agent( task='東京の天気をGoogleで調べて

    browser-useによるブラウザ操作自動化のサンプル集
  • browser-use やばいです - Qiita

    はじめに 語彙力なくてすみません、 browser-use は、「AI エージェントがウェブブラウザを操作できるようにする」ためのライブラリです。 プロンプトで与えられた指示どおりに動き、ほかの技術と比較しても精度が抜群に高いです。 早速試してみます。 実践 複数のECサイトから特定の商品価格を取得することを目標とする。 Python は 3.11 以上が必要です。

  • コーディングAI課金するならCodyが断トツ良い話

    概要 開発者向けの AI ツールは数多くありますが、その中で「Cody」は 無名ながらも知る人ぞ知る優れたプロダクトです。私が普段いるAI技術者コミュニティでは密かに絶大な支持を集めていますが、SNSなどでの一般的な知名度はほとんどないため、ここで紹介します。 Cody は無料プランが圧倒的に強い他、課金プランも、GitHub Copilot、Cursor、ChatGPT と比較して機能性で大きく抜きん出ています。私はすでに半年課金愛用していて、おそらく来年も愛用するでしょう。 Cody とはなんぞや Cody くんは、VSCode や、JetBrains IDEs、Neovim、Eclipseなどのコードエディタの拡張機能として使えるコーディング補助 AI ツールです。 他の生成 AI コードツールと同様に、AI コード補完とAIチャットがあります。 なぜ Cody がおススメなのか C

    コーディングAI課金するならCodyが断トツ良い話
  • vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics

    皆さんこんにちは Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。 大規模言語モデル(通称:LLM)は近年、非常に注目される技術となりました。 ただ、7Bや13Bといった巨大モデルのパラメータは推論時間も長時間で計算時間の面からも運用が非常に難しいです。 しかし、vLLMを使えば、高速化できます。記事では、推論をどこまで高速化できるのかを検討したいと思います。 ※記事はLLM・LLM活用のAdvent Calendar 24日目の記事です。 qiita.com vLLMとは? vLLMによる高速化実践 vLLMを利用しない場合 vLLMを利用する vLLMに加えてAWQを利用して量子化する Auto Prefix Caching

    vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics