Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

funa-1gのブックマーク (308)

  • これから推薦システムを作る方向けの推薦システム入門|masa_kazama

    イントロ「Amazonのこの商品をチェックした人はこの商品もチェックしています」や「YouTubeのあなたへのおすすめ」、「Twitterのおすすめユーザー」などのレコメンド機能は多くのWebサービスに組み込まれております。そのレコメンドによって、ついつい商品をたくさん買ってしまったり、夜遅くまで動画を見てしまった経験はないでしょうか。 この記事では、レコメンドシステムの裏側はどのような仕組みになっているのか、そもそもレコメンドとはどういうものなのかを具体例を交えながら俯瞰できればと思います。レコメンドシステムのアルゴリズムの詳細には触れず、ビジネスにおいてどのような形で実装されているかにフォーカスしています。ネット上に公開されているレコメンドに関するスライドや記事、論文のリンクをまとめましたので、アルゴリズムの詳細などはリンク先の記事でご確認ください。 対象の読者は、自社のサービスにレコ

    これから推薦システムを作る方向けの推薦システム入門|masa_kazama
    funa-1g
    funa-1g 2020/09/29
  • 「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ

    はじめに CTOの川口 (id:dmnlk) です。 5月にオンラインmeetupをさせて頂きその中で「具体的な負荷対策に関しては開発ブログで!」と言っていた件ですが気づいたらもう9月になりかけていました。 コロナ禍においてネットショップ作成サービス「BASE」の利用者様が急増しました。 www.nikkei.com 5 月には 100 万ショップを超えるショップオーナー様にご利用していただいております。 今まで EC 事業を行っていなかった飲店様や様々な業種の方が利用をはじめていただき、ショップオーナー様も購入者様共に短期の見通しでは想定をしていないアクセスが発生しました。 その途中でシステムとして対応しきれない面もあり、アクセス負荷によるサービスの不安定を招き皆様にはご不便や販売時間を変更していただくお願いなどをしてしまい大変申し訳ありませんでした。 現在では安定しておりますが、その

    「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ
    funa-1g
    funa-1g 2020/08/27
  • Kubernetes Meetup Tokyo #32

    funa-1g
    funa-1g 2020/08/05
  • ゆるふわMLOps入門 - Re:ゼロから始めるML生活

    MLOpsに関してちゃんと勉強中でして、色々事例とか調べてました。 とは言うものの、現在ではMLOpsを様々な観点から語られて、MLOpsという言葉にいろんな意味が含まれています。 という事情から色々探していたら、こちらをお見かけしました。 medium.com 書籍へのリンクはこちらです。 n月刊ラムダノート Vol.1, No.1(2019)(紙書籍+PDF版) – 技術書出版と販売のラムダノート こちらの書籍では基的な背景からきれいに整理されていました。 こちらを参考にしつつ、頑張ってMLOpsの動向について整理してみたので、そのメモです。 それでは張り切って書いていきます。 tl;dr; 背景・問題設定 機械学習は学習のアルゴリズムよりその周辺のほうが大きい 機械学習システムに携わる人の役割の違いによってうまくいかないことがある 機械学習システムの構築・運用する上で課題も多い 問

    ゆるふわMLOps入門 - Re:ゼロから始めるML生活
    funa-1g
    funa-1g 2020/08/01
  • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

    AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、稿では番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と番環境に大きなギャップを抱えている クラウド含む番環境でのモデルのホスティングが考慮されないローカルでの作業 番のデータボリュームやス

    小さく始めて大きく育てるMLOps2020 | | AI tech studio
    funa-1g
    funa-1g 2020/07/27
  • IT技術者の担当範囲を書いてみた。|むぎSE

    お疲れ様です。むぎです。 就活サイトや転職サイトを見ると、IT業界の求人がたくさんあって、どこの何をやっているのかが、いまいちイメージがしづらいと思ったので、システム開発工程と、よくあるIT技術者(職種)の担当範囲を書いてみました。 職種や担当範囲は、会社やプロジェクトによって違いがあるし、全て書きだしたわけではないです。細かくすると有りすぎて語り切れない。。。 なので、一例として、新サービスのシステム化プロジェクトを、ざっくりイメージで書きましたので、参考にしてください。

    IT技術者の担当範囲を書いてみた。|むぎSE
    funa-1g
    funa-1g 2020/05/24
    自分の見てきた主にウェブ系ベンチャーとは全然違う世界だ
  • 【アカデミー賞4冠】「半地下」「悪臭」以外から読み解く、『パラサイト』の秀逸さと限界 | 文春オンライン

    ​*以下の記事では、現在公開中の『パラサイト 半地下の家族』の内容と結末が述べられていますのでご注意ください。とりわけ、作のポン・ジュノ監督は「ネタバレ」をしないように呼びかけています(劇場パンフレットより)。まだ作品をご覧になっていない方、これからご覧になる予定の方は以下の記事を読まないことをお勧めします。 キーワードとなる「悪臭」 『動物農場』や『一九八四年』で有名なイギリスの小説家ジョージ・オーウェルは、1937年に『ウィガン波止場への道』というルポルタージュを出版している。これは、当時炭鉱町であった北イングランドのウィガンの炭鉱労働者たちの生活を、その中に飛び込んで記述するというスタイルで書いたものだった。その中で、オーウェルは「下層階級には悪臭がする」と述べて物議を醸した。正確に引用するなら、次の通りだ。 “下層階級には悪臭がする──これこそ私たちが教えこまれたことなのである。

    【アカデミー賞4冠】「半地下」「悪臭」以外から読み解く、『パラサイト』の秀逸さと限界 | 文春オンライン
    funa-1g
    funa-1g 2020/02/17
  • 入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)

    入門 Kubeflow ~Kubernetes機械学習をはじめるために~ (NTT Tech Conference #4 講演資料) 2020年1月31日 株式会社NTTデータ / NTT DATA Yuki NishizawaRead less

    入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
    funa-1g
    funa-1g 2020/02/11
  • 2000年代邦楽アルバムベスト100 - License to Live

    2010年代、終わってしまいましたね。 年末年始も過ぎ、メディアや個人のやる「2010年代のベスト○○」的な企画が乱立していますが、その前に2000年代の総括って当に出来ていますか? 今回やろうとしている企画はタイトルの通りです! 最近のネットの感覚ではもはや"洋楽" "邦楽"という括り自体が古く、さらにディケイドで総括したアルバム単位のランキングなんて時代遅れじゃないか、と思われるかもしれません。 その感覚は間違っていないかもしれませんが、とはいえネット上で参照できる2000年代の邦楽について扱ったものが、以下の2つにほぼほぼ集約されてしまっている状況があります。 ①ブログやTwitter上のタグに紐づけられた個人史的なもの ②ミュージック・マガジン2010年7月号「ゼロ年代アルバムベスト100 邦楽編」や、rateyourmusicのチャート、またはおんがくだいすきクラブが毎年やる企

    2000年代邦楽アルバムベスト100 - License to Live
    funa-1g
    funa-1g 2020/02/02
  • minikubeを使ってローカル環境でHTTPサーバを動かす - analogworker’s diary

    要約 ローカル環境でhelmを試しやすいように、ローカル環境のminikubeでregistryを動かし、そのままapplyできるようにする。 Sharing a local registry with minikube を参考にする。 ローカル環境からminikube registryにdocker pushし、workerがdocker pullできるように、レジストリ名と名前解決を工夫する。 ソースコードはこちら: github.com ローカル開発環境の確認 macOS 10.15.2 Docker Desktop 2.2.0.0 minikube v1.6.2 Install Minikube - Kubernetes のとおりhomebrewでインストール helm Spinnakerと併用するため、2系をインストール brew install helm@2 パスも通す ech

    minikubeを使ってローカル環境でHTTPサーバを動かす - analogworker’s diary
    funa-1g
    funa-1g 2020/01/28
  • Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

    はじめに 前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング 最適なクラスタ構成を検討するにあたり、今回はSparkの(設定ファイルspark-defaults.confに記述できる)パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用(前回解説したもの) パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです(図1)。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか

    Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成
    funa-1g
    funa-1g 2020/01/03
  • 【☆追記】黒タイツのブラック校則をめぐる報道のありかたについての考察、ぼくらは戦争したいわけじゃない - ネットロアをめぐる冒険

    【12 月 27 日追記】 斐太高校の生徒の方からのコメントを「生徒の反応について」という項にて掲載いたしました。記事の結論としてはおおよそ変わりはありませんが、より各種報道に関する事実確認の不足が指摘できるのではないかと思います。 おかげさまでこのブログも開設して5年が経とうとしています。右も左もわからず、というよりは、気ままに始めたものですので、ここまで続いていることはお読みいただいている方に感謝をするとともに、たまさかの僥倖であることを肝に銘じながら今日も記事を書いていきます。 読者の方が増えるにつれ、「●●を調べてほしい」という依頼をいただくこともあります。それを記事にすることもありますが*1、たいていはあまり芳しいお返事ができずにそのままにしてしまっています(ごめんなさい)。実は今日の記事もそのような依頼案件なのですが、調べてみると大変興味深く、珍しく記事化しました。 さて、前

    【☆追記】黒タイツのブラック校則をめぐる報道のありかたについての考察、ぼくらは戦争したいわけじゃない - ネットロアをめぐる冒険
    funa-1g
    funa-1g 2019/12/26
  • 機械学習モデルを高速にオンラインテストする仕組みを作った話 | メルカリエンジニアリング

    こんにちは。Mercari Advent Calendar 2019の20日目は、AIチーム所属エンジニアのlain_m21が担当させていただきます。 一度出したサービスはそのまま放置せず、何度も改善させていくものです。特に機械学習を用いたサービスを改善させていく際には、精度向上がどれほどのビジネスインパクトがあるのか、どの指標を用いてモデルを改善していくべきなのか、ということを常に考える必要があります。それらを検証するために、オンラインでモデルを高速にテストする仕組みが必要だったので作った、という話をします。 背景 機械学習を用いたサービスは、開発時には何かしらの精度指標を最適化するようにモデルを学習させます。しかし、その精度向上が実際にはどれほどのビジネス的なインパクトに繋がるかは、プロダクション環境に出すまでわからないことがとても多いです。 例えば、出品時に商品の提示価格をサジェスト

    機械学習モデルを高速にオンラインテストする仕組みを作った話 | メルカリエンジニアリング
    funa-1g
    funa-1g 2019/12/20
  • Repositoryによる抽象化の理想と現実/Ideal and reality of abstraction by Repository

    Repositoryによる抽象化の理想と現実/Ideal and reality of abstraction by Repository

    Repositoryによる抽象化の理想と現実/Ideal and reality of abstraction by Repository
    funa-1g
    funa-1g 2019/12/05
  • 【初心者向け】Amazon SageMakerではじめる機械学習 #SageMaker | DevelopersIO

    はじめに Amazon SageMaker(以下SageMaker) の公式開発者ガイドの「開始方法」の手順に沿って手を動かすと、初心者でもすぐにAWSを使った機械学習を始めることができます。 この記事では、「開始方法」の手順に従い、Amazonが提供する高レベルなSageMaker用のPythonライブラリを使って、機械学習モデルをデプロイして動作を検証するまでの流れをご説明します。 ステップ 1: 事前準備 SageMakerを使い始める前に、以下の準備を済ませておく必要があります。 AWSアカウントおよび管理ユーザーの作成 AWSアカウントを持っていない方は、こちらの手順に従いまずアカウントを作成しましょう。アカウントの作成にはクレジットカードかデビットカードが必要です。 S3バケットの作成 SageMakerが機械学習モデルのトレーニングを行う際に、以下の2種類のデータを作成します

    【初心者向け】Amazon SageMakerではじめる機械学習 #SageMaker | DevelopersIO
    funa-1g
    funa-1g 2019/10/04
  • Amazon SageMakerからS3に保存したデータを操作する方法について(EMR,Glueを利用する) | Developers.IO

    Amazon SageMakerからS3に保存したデータを操作する方法について(EMR,Glueを利用する) 概要 こんにちは、yoshimです。 今回はタイトルの通り、Amazon SageMakerからS3に保存したデータを操作する方法についてご紹介します。 基的には下記の公式ドキュメントの通りですが、「新規にSageMakerインスタンスを作成する場合」、「既存のSageMakerインスタンスを利用する場合」の2パターンを検証してみました。 AWSの公式ドキュメント 目次 1.やることと構成について 2.新規にSageMakerインスタンスを作成する場合 3.既存のSageMakerインスタンスを利用する場合 4.まとめ 5.引用 1.やることと構成について 1-1.やること S3に保存したデータセットをGlueデータカタログに登録し、EMRクラスターで処理させた結果をSageMa

    Amazon SageMakerからS3に保存したデータを操作する方法について(EMR,Glueを利用する) | Developers.IO
    funa-1g
    funa-1g 2019/10/04
  • Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス | Amazon Web Services

    Amazon Web Services ブログ Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス ビッグデータの世界における一般的なユースケースは、さまざまなデータソースからの大量のデータにおける抽出/変換 (ET) とデータ分析の実行です。多くの場合、この後でデータを分析してインサイトを取得します。このような大量のデータを処理するための最も人気のあるクラウドベースソリューションのひとつが Amazon EMR です。 Amazon EMR は、AWS での Apache Hadoop および Apache Spark などのビッグデータフレームワークの実行をシンプル化するマネージドクラスタープラットフォームです。Amazon EMR は、組織が複数のインスタンスを持つクラスターをほんの数分でスピンアップすることを可能にし

    Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス | Amazon Web Services
    funa-1g
    funa-1g 2019/09/18
  • 働き方に変化はあったのか? フレックスタイム制導入背景と効果検証結果! - DMM inside

    企画職からのジョブチェンジで労務領域でのキャリアをスタート。業務フローの構築や改善、労務施策の企画、実行等に従事。多種多様な事業が共存する当社において企画、管理、労務対応等の労務業務全般を担うチームを管轄している。

    働き方に変化はあったのか? フレックスタイム制導入背景と効果検証結果! - DMM inside
    funa-1g
    funa-1g 2019/08/28
    だいぶ良くなりました
  • プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll

    ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、

    プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
    funa-1g
    funa-1g 2019/07/06
    作品ドメインが違ったら傾向も違うのでは、と感じたが「縦書き文庫」の掲載作は文学、普通小説を意識しているっぽい? それなら確かに正しいのかな
  • 機械学習の実用的な評価値チートシート - sola

    機械学習の評価値として、Accuracy/Precision/Recall/F1などが教科書にも載っており、最も有名な評価値だと思います。 ただ実産業への応用において、これらの評価値では正しくモデルの性能を評価できないことが多く、多くの機械学習エンジニアやデータサイエンティストにとって頭を悩ますポイントだと思います。 これまで自分なりに調査したり試行錯誤したりする中で、大体これでいいだろというものが何となく固まってきたので、備忘録のためにチートシート的なものにしました。 機械学習モデルの評価をする際の一助になれば幸いです。 分類問題では二値分類問題のみを対象としています。 RMSE (Root Mean Squared Error) 回帰問題の場合は基的にRMSEを使えば良いと思います。 RMSEは予測値と目的変数の値の二乗誤差の平均値に平方根をとったものです。 これは非常に分かりやすく

    機械学習の実用的な評価値チートシート - sola
    funa-1g
    funa-1g 2019/06/20