オライリー様よりご恵贈いただきました。ML寄りのエンジニアとして継続的なモデルの訓練とデリバリーを伴なうMLシステムの信頼性をどう向上させるのかが気になって読みました。 本書では、ソフトウェアシステムの信頼性と安定性を保つことに優れたアプローチであるSRE(サイトリライアビリティエンジニアリング)の原則を適用し、信頼性が高く、効果的で、責任のある機械学習システムを構築し運用するための方法を紹介します。毛糸を販売している仮想のオンラインストア「yarnit.ai」を例に用いつつ、本番環境でのモデルモニタリングの方法から、製品開発組織で調整されたモデル開発チームを運営する方法まで解説します。 目次 1章 はじめに 2章 データマネジメント 3章 ML モデルの基礎 4章 特徴量と訓練データ 5章 モデルの確実性と品質の評価 6章 公正さ、プライバシー、倫理的なML システム 7章 ML モデル
この記事では、NTT Communications Advent Calendar 2024 16 日目の記事です。本記事では MLflow という実験管理 OSS を Google Cloud の Vertex AI Experiments に置き換えを検討してみた話について記載しています。 はじめに 結論 話題の中心となる実験管理機能 浮き彫りになった課題 パフォーマンス面 セキュリティ面 Vertex AI Experiments によるアプローチ 検討の中でぶち当たった壁 前提知識の整理 テスト実行のメタデータの扱い方 API コールの上限 考察と今後 さいごに はじめに こんにちは、イノベーションセンターの林です。普段はノーコード AI 開発ツールである「Node-AI」というプロダクトでソフトウェアエンジニアとして開発に携わっています。また、SRE・オブザーバビリティ・Goog
はじめに この記事はMLOps Advent Calendar 2024の14日目の記事です。 Databricksという会社でソフトウェアエンジニアをしている渡辺と申します。普段は業務でMLflowのCore maintainerをしています。 2024年6月に、Amazon SageMakerでのフルマネージド型MLflowが提供開始されました。MLflowを開発している身ながら、SageMaker上でのセットアップ方法やプロダクト全体についてはあまり把握できていなかったので、今回実際にサービスを使って理解を深めることにしました。 MLflowとは MLflowはオープンソースの機械学習プラットフォームで、主に実験やモデルの管理、評価、デプロイメント、トレーシングなどの機能を備えています。 これまでのMLflowの使い方 MLflowでは、「トラッキングサーバー」というサーバーを中心に
LLMOps基盤のシステムアーキテクチャ目次− 目次 − 対象読者 − TL;DR − 背景:LLMアプリケーション運用の課題 − LLMOps基盤のシステムアーキテクチャ −− 主なコンポーネントと役割 −− Langfuseを採用した理由 − 評価ドリブンなリリースライフサイクルの全体像 − オンライン評価プロセス −− 1. ログ・トレースデータの保存 −− 2. 評価とアノテーション − オフライン評価プロセス −− プロンプト実験 −− LLMアプリケーション統合実験 − 今後の展望 − 終わりに − 参考文献 こんにちは!Eureka AI Teamで、Pairs(ペアーズ)のMLOps Engineerをしているnariです。 こちらは、Eureka(Pairs) Advent Calendar 2024 の10日目の記事です。 本日は、私たちが構築した「LLMOps基盤」と
こちらはエムスリー Advent Calendar 2024 2日目の記事です。 こんにちは、AI・機械学習チームの池嶋(@mski_iksm)です。 近年、機械学習は多くのアプリケーションで当たり前のように使われるツールになりつつあります。ですが機械学習は、ライブラリを呼び出すだけで簡単に使える、というわけにはいかない特有の難しさもありますよね。 例えば、モデルの学習実験を試行錯誤しながら何度も繰り返しているうちに、「どのデータを使い、どんな設定で学習させたモデルが一番良かったのか分からなくなった」という経験はないでしょうか。 また、本番環境で使用するモデルが実験環境で作ったものを再現できず、「実験ではうまくいったのに、本番ではイマイチ…」といった問題に直面したことがある方も多いかと思います。 こうした課題に取り組みながら機械学習プロジェクトの生産性を向上させるため、近年ではMLOpsの
第11回 Data-Centric AI勉強会 ~MLOps勉強会コラボ回~ / 第46回 MLOps 勉強会 の登壇資料です
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに MLflowの環境構築はできましたが、機械学習関連の開発はNotebook上でインタラクティブに進める方が便利です。私もNotebookに慣れているため、今回は MLflow+Jupyter Notebook の環境を構築しました。 そもそも何が良いの? MLflowとJupyter Notebookの統合により、以下のようなメリットがあります。 迅速なプロトタイピングとトラッキングの連携 Jupyter Notebook はインタラクティブなデータ解析やプロトタイピングに適しています。Notebookで実験しながら、MLfl
GitHubレポジトリ HumanLayer HumanLayer: AIエージェントがツールベースおよび非同期ワークフローで人間とコミュニケーションできるようにするPythonツールキット。人間をループに組み込むことで、エージェントツールはより強力で意味のあるツールコールやタスクへのアクセスが可能になります。 あなたのLLM(OpenAI、Llama、Claudeなど)やフレームワーク(LangChain、CrewAIなど)を持ち込み、AIエージェントに安全に世界へのアクセスを提供しましょう。 なぜHumanLayerなのか? 機能やツールは、エージェントワークフローの重要な要素です。これらは、LLM(大規模言語モデル)が外部の世界と意味のある形でやり取りし、広範囲にわたる重要な作業を自動化することを可能にします。正確で正しい機能呼び出しは、AIエージェントがアポイントメントを予約したり
※この投稿は米国時間 2024 年 8 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI アプリケーションは誰が管理すべきでしょうか。AI 関連の所有権はデータチームが持つことが多いものの、生成 AI アプリケーションに固有の要件はデータチームや AI チームの要件とは明らかに異なり、DevOps チームとの類似点が多いこともあります。このブログ投稿では、これらの類似点と相違点を探り、生成 AI アプリケーション独自の特性を扱う新たな「GenOps」チームの必要性について検討します。 「データからモデルを作成する」ことを目的とするデータ サイエンスとは対照的に、生成 AI は「モデルから AI 対応サービスを作成する」ことに関連しており、既存のデータ、モデル、API の統合に関与するものです。このように見ると、生成 AI は従来のマイクロサービス
※この投稿は米国時間 2024 年 9 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 組織が生成 AI ソリューションを大規模にデプロイしようとすると、多くの場合、運用上の課題に直面します。GenOps(生成 AI 向け MLOps)は、これらの課題に対処します。 GenOps は、DevOps の原則と ML ワークフローを組み合わせて、本番環境で生成 AI モデルのデプロイ、モニタリング、メンテナンスを行います。GenOps により、生成 AI システムがスケーラブルかつ高い信頼性のもと、継続的に改善されるようになります。 なぜ MLOps では生成 AI にとって難しいのか?生成 AI モデルには、従来の MLOps の手法では不十分な独自の課題があります。 スケーリング: 何十億ものパラメータには特殊なインフラストラクチャを要する。 コンピューテ
はじめに こんにちは。MonotaROで機械学習エンジニア兼、Tシャツのモデルを務めている新卒3年目の長澤です! 最近は健康のためにスポーツをしているのですが、そのスポーツの疲れで日々が辛くなってきました。観戦と自分で身体を動かす方の割合(重み)をバンディットを使ってうまく最適化していきたいこの頃です。 今回は、自分がここ1,2年(2023~2024)で取り組んできたMonotaROにおけるMLOpsの取り組みについて、実例を交えながら紹介します。MLOpsの実例はあまり世の中に出回っていないので、一つの事例として読んでもらえれば嬉しいです。 はじめに この記事で紹介すること この記事で紹介しないこと MonotaROにおける機械学習エンジニア パーソナライズドランキングとは MLOpsに取り組むにあたっての背景と課題 MLOpsのプロジェクトスタート時 MLOpsとりあえず始めてみる期
はじめに ドワンゴ教育事業でデータサイエンティストとして働いている中井です。 この記事では、PythonのパイプラインパッケージであるLuigiで構築したパイプラインにおいて、それを構成するタスク間の依存関係・タスクのグループ間(task_namespace で分けられる)の依存関係を良い感じに出力する方法についてお話しします。想定する読者はある程度Luigiを使ったことのある方としています。 Luigiではタスク全体の依存関係を出力できますが、大規模なタスクだともう少し荒い粒度であったり、全体のうちの一部だけ見たいといったこともあると思います。この記事を読むことでそのような荒い粒度の可視化やパイプラインの一部分に注目した可視化ができるようになります。この記事ではまずLuigiを使っていて課題に感じている部分について説明した後に、可視化対象のサンプルパイプラインについて少し触れて、そのパイ
MonotaRO(モノタロウ)では、全社的にデータ活用研修を行うなど、数字に基づいた意思決定を行うデータドリブンな経営が根付いています。事業者向けECサイトとして、モノを買う時にかかる手間や時間を短縮し、顧客である事業者の時間を創出することが、モノタロウの提供価値です。この価値をさらに高めるため、「ほしいものがすぐ見つかる」という顧客体験の向上に注力しています。 その中心的な役割を担うのが、機械学習(ML)を活用した顧客体験の最適化です。MLエンジニアリング(MLE)チームは、この重要なテーマの最前線に立ち、日々革新的なソリューションの開発に取り組んでいます。 データサイエンスのアルゴリズムを実用的なサービスへと昇華させる重要な役割を果たすMLEチーム。高度な検索・推薦システムの構築から、大規模データパイプラインの設計、リアルタイムユーザー行動データを用いた実装まで、幅広い技術的課題にチャ
Cathy Chen、Niall Richard Murphy、Kranti Parisa、D. Sculley、Todd Underwood 著、井伊 篤彦、張 凡、樋口 千洋 訳 TOPICS System/Network 発行年月日 2024年10月 PRINT LENGTH 388 ISBN 978-4-8144-0076-8 原書 Reliable Machine Learning FORMAT Print PDF EPUB 本書では、ソフトウェアシステムの信頼性と安定性を保つことに優れたアプローチであるSRE(サイトリライアビリティエンジニアリング)の原則を適用し、信頼性が高く、効果的で、責任のある機械学習システムを構築し運用するための方法を紹介します。毛糸を販売している仮想のオンラインストア「yarnit.ai」を例に用いつつ、本番環境でのモデルモニタリングの方法から、製品開
TL;DR CARTA MARKETING FIRMのデータサイエンスチームは、8年間にわたり機械学習基盤を進化させてきました。Luigi、AWS SageMaker、Prefectと変遷する中で、「データサイエンティストが最も付加価値を生み出す部分に集中し、時間を費やすことができる基盤」という目標に着実に近づいています。 Luigiでは開発環境構築や運用負荷が高く、柔軟性に欠けていました。 SageMakerではインフラ構築の複雑さやStep Functionsの制約が課題でした。 Prefectの導入により、Pythonのみでインフラからバッチ処理まで記述可能になり、A/Bテストの実施が容易になりました。また、ログ監視の一元化により運用効率が大幅に向上しました。 この進化を通じて、データサイエンティストの生産性と施策の実験サイクルが大幅に改善されました。 概要 CARTA MARKET
Netflixが自社製ワークフローオーケストレーター「Maestro」をオープンソース化しました。MaestroはNetflix社内で現役稼働しており、データパイプラインや機械学習パイプラインといった大規模ワークフローの管理に使われているそうです。 Maestro: Netflix’s Workflow Orchestrator | by Netflix Technology Blog | Jul, 2024 | Netflix TechBlog https://netflixtechblog.com/maestro-netflixs-workflow-orchestrator-ee13a06f9c78 Netflixは「ユーザーが次に視聴する作品の予測」などを目的に機械学習を活用しており、記事作成時点では何千もの機械学習ワークフローインスタンスを起動し、平均して1日当たり50万のジョブを
By Jun He, Natallia Dzenisenka, Praneeth Yenugutala, Yingyi Zhang, and Anjali Norwood TL;DRWe are thrilled to announce that the Maestro source code is now open to the public! Please visit the Maestro GitHub repository to get started. If you find it useful, please give us a star. What is MaestroMaestro is a horizontally scalable workflow orchestrator designed to manage large-scale Data/ML workflows
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く