サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「かわいい」
blog.recruit.co.jp
はじめに はじめまして、2023年10月にシニアリサーチャーとして入社したアドバンスドテクノロジーラボ(ATL)の梅谷俊治です。2023年9月まで、大阪大学大学院情報科学研究科にて数理最適化寄附講座教授を務めていました。 本記事では、リクルートのデータ推進室における数理最適化を活用した問題解決の取り組みをご紹介します。 数理最適化は、与えられた制約条件の下で、目的関数を最小(もしくは最大)にする最適化問題を通じて、現代社会における意思決定や問題解決を実現する数理技術の一つです。 近年では、機械学習によるデータ分析や予測の技術開発が進み次々と実用化されています。数理最適化は、それらのデータ分析や予測の結果を踏まえた上で意思決定や計画策定を実現する問題解決における出口を担当する技術です。例えば、オンライン広告などカスタマーに商品を推薦するレコメンデーションでは、機械学習を活用してカスタマーの商
はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す
この記事は リクルート ICT統括室 Advent Calendar 2023 23日目の記事です。 はじめに はじめまして。ICT統括室のあーやです! 6/1に中途入社して、リクルート内の人材評価システム、発注管理システムなどのUIUXデザインを担当しています。 この記事で伝えたいこと 6つのサービスを使って生成した Next.js コードの比較生成したコードの精度ってどれくらい?コードを生成をしてみての気づき! なぜ調べようと思ったのか 私が関わっている発注管理システムでアーキテクチャを改善することになり、以下を実現する第一歩として「Figma から Next.js コード生成する方法」について調べてみました。 開発スピードを上げたい!React / Next.js や Tailwind CSS でフロントを実装するにあたり、デザインとフロントエンドの連携をスムーズにしたいマークアッ
この記事はリクルート ICT統括室 Advent Calendar 2023 24日目の記事です。 はじめに こんにちは、ICT統括室の金光 大貴です。 今年度のお仕事では、クラウドファイルサーバの構築及び移行を担当しておりました。 この記事では、「オンプレのファイルサーバから、SharePoint・Google Driveといったクラウドストレージへの移行PJ」「ローコードアプリによるオートメーション化で力技コミュニケーションからの脱却!~全社ファイルサーバのクラウド移行~」の裏でクラウドファイルサーバ構築/移行にあたって、どのような困り事があったのかお話ししたいと思います。 すでにAWS社にて修正された箇所もありますが、クラウド移行の参考としていただければ幸いです。 案件の経緯 オンプレファイルサーバが2024年2月にEOSLとなるにあたり、移行先として3つの選択肢がありました。 ①S
この記事はリクルート ICT統括室 Advent Calendar 2023 22日目の記事です。 はじめに こんにちは。リクルート ICT統括室 コミュニケーションプラットフォームグループの 政岡 裕士 です。普段は まっぴぃ というハンドルネームでコミュニティ活動をしています。 リクルートでは、リクルートグループ従業員数万人が利用する Microsoft 365 や Power Platform 環境の運用・管理、開発支援をはじめ、Microsoft Azure 環境の運用・管理などを担当しています。 今回は、私が普段よりリクルートの情シス担当として Microsoft Graph API 利用時に心がけていることや注意していること、実際に業務内で行っていることを参考に、企業内で Microsoft Graph API を利用する際に情シス担当が把握しておくと良い点をご紹介できればと思
この記事は リクルート ICT統括室 Advent Calendar 2023 18日目の記事です。 こんにちは、ICT統括室の別府(@tky_bpp)です。この記事は、社内の情報流通を社内プロダクト起点で改善しようとしている取り組みの紹介です。 具体的には「社内・社外に分散している情報」を集約することで「各従業員がこれまでどのような仕事をしてきたのか」を可視化しようとしている取り組みです。その中でも、主にプロセス、工夫した点について書いています。そのため、特定の技術スタック、ツールの紹介といった技術的な内容にはあまり触れません。 同じような課題に取り組んでいる方にとって、少しでも参考になれば幸いです。 はじめに 私は現在、リクルートの社内で利用されている従業員検索システムのプロダクトマネージャーをしています。 このシステムには、従業員毎の個人ページがあり、連絡先や所属部署、使用しているパ
はじめに 検索エンジニアリング1グループ(以下、検索1G)所属の安達です。 検索1Gは検索基盤を開発・運用するグループです。 今回、新たな検索基盤を開発し、本番リリースしたのでその事例について紹介します。 どんな検索基盤か アーキテクチャ図は以下です。 検索1Gが管理しているリソースは、図中のSolrデータ更新バッチとフロントアプリケーションを除くすべてのリソースです。 このシステムは大きく3つに分かれています。フロントアプリケーションとの接続を担う検索動線、検索に使われるデータの更新を担当するデータ更新導線、そして検索エンジンです。それぞれの構成について見ていきます。 検索導線 EKS上の検索APIへリクエストをルーティングする。通常時は何も処理をせず1つの検索APIにリクエストを流す。オンラインA/Bテスト実施時にはグループを振り分けし適切な検索APIにリクエストを振り分けできる。また
「久しぶり! 今、何してるの?」 「うわー、やっと会えたね。はじめまして」 ——2023年8月31日、「株式会社リクルート 社内ISUCON 2023」が開催されたリクルート本社の最上階の会場であるアカデミーホールでは、そんな会話が飛び交いました。 社内ISUCONは、Webサービスのチューニングバトル「ISUCON※」に触発され、リクルートグループ横断で行われているイベントです。1〜3名でチームを組み、コンテスト形式で、Webサービスの高速化に取り組みます。競うことでフロントエンドやデータベース、クラウドといったWebサービスを支える技術の学びを加速させるとともに、部署や世代の壁を越えて社内エンジニアの交流を図ることを目的にしています。 ※「ISUCON」は、LINEヤフー株式会社の商標または登録商標です 国内のエンジニアや学生が参加するISUCONは今年で13回目を数えますが、リクルー
はじめに こんにちは。Kagglerの 中間 と 若月 です。業務では主に人材領域でのレコメンドシステムの改善に取り組んでいます。 この記事では、レコメンドシステムにTwo-Towerモデルと近似最近傍探索による候補生成ロジックを導入することで、精度とコストを改善することに成功したので、その取り組みについて紹介します。 背景 導入したロジックについて説明する前に、まず既存のレコメンドシステムについて簡単に説明します。 既存のレコメンドシステムでは、ユーザとアイテムについてルールベースによる候補生成を行った後、機械学習モデルを用いてスコアを付与し、スコア順にユーザに推薦するアイテムを選択していました。 しかし、ルールベースによる候補生成はベースラインとしてはよいものの、性能改善には限界があり、ルールベースが複雑になればなるほど計算コストもかかるようになっていきます。 そこで、性能改善がしやす
本記事の内容 ドキュメント、書いてますか? こんにちは。データエンジニアの加藤です。社内データプロダクトである Knile1 と Crois2 の開発・運用や、社内に複数あるデータプロダクトの統合や連携などを見据えたリアーキテクチャを担当しています。 唐突ですが、チーム開発をしている皆様は、日常業務でドキュメントを書いていますか? 4 月の新卒社員の配属や組織再編・異動など、人や組織が大きく入れ替わる時期を終え、以下のような課題を再認識したチームも多いのではないでしょうか。 オンボーディングのドキュメントが整っていない 現状のアーキテクチャ図が整備されていない プロダクトのデバッグ対応が言語化されていない 自チームでもこういった問題は常に挙がっていましたが、ドキュメンテーション改善はなかなかされない状況が続いていました。 リモートワークが中心の業務では特に、暗黙知をきちんと言語化し、属人性
はじめに 2023年4月に入社した竹内博俊と池田柳之介と申します。 今年の3月にOpenAIはChatGPT APIを公開し、多くの注目を浴びました。 それから約1ヶ月後、当社リクルートでは、データ/エンジニアスペシャリストコースにて入社した新人を含む、データ推進室内で希望があった既存社員向けにこのAPIを利用した研修を実施しました。 研修から約3ヶ月が過ぎ、基礎的な部分の内容はだいぶ理解され、広まってきたように感じます。 このブログでは、我々新入社員が研修を通じて得た知見についてご紹介したいと思います。 なぜプロンプトデザイン研修を行うのか? この研修は「プロンプトデザイン研修」と名付けられており、当社のシニアサーチエンジニア、大杉直也が立案し講師を務めました。 研修立案の背景について、大杉はこう述べていました。 「研修対象は専門家だけではなく、非専門家のエンジニアも含むべきだと考えまし
はじめに こんにちは。人材領域でレコメンドシステムの機能開発をしている羽鳥です。 今日はみなさんが大好きな huggingface のライブラリを使って、自然言語処理を行う際に欠かせないトークナイザーを学習させる方法について書いていこうと思います。 huggingface 近年の自然言語処理においてはBERT1をベースにしたモデルは欠かせないものになってきました。 そしてその実装として市民権を得ているものの一つがhuggingfaceのライブラリでしょう。 huggingfaceのライブラリを使うと、いい感じに隠蔽されたインターフェイスを利用して多くのモデルを内部構造を気にすること無く使えるようになります。 Kaggleなどの分析プラットフォーム上で行われる自然言語を用いるコンペでもデファクトスタンダードとなっており、多くのユーザーに利用されています。 トークナイザー BERTに限らず自然
自己紹介 はじめまして、京都大学大学院エネルギー科学研究科に所属していますM1の下野祐太です。普段は、深層強化学習を利用したタンパク質の高効率サンプリング手法の開発というテーマで研究をしたり、別の長期インターンシップにおいて時系列データの解析などをしています。 今回、様々なプロダクトを展開し大規模なデータを保有しているリクルートに興味をもち、アルバイトに応募しました。そこで10/6〜11/15という約1か月の間、リクルートのアルバイト生として取り組んだ内容について紹介します。 背景 『Airインボイス』について 私は今回のアルバイトにおいて、 『Airインボイス』 というSaaSを開発するチームでお世話になりました。まずは『Airインボイス』というサービスについて説明します。『Airインボイス』は、請求書をスマホで撮影するとアプリが振込に必要な情報を自動でデータ化し、そのまま支払いまで行う
はじめに プロダクトオーナー兼機械学習エンジニアの本田志温です。 弊社高橋による前回の記事「NeurIPS 2022 参加報告 前編」 に引き続き、同会議の参加報告をします。本記事では、個人的に気になった論文(計53本)をいくつかのカテゴリで分類し、カテゴリごとに研究トレンドを大づかみにできるような形で書きます。特に重要だと感じた論文は詳しめに取り上げます。 会場の様子 また、本記事に関心をお持ちになった方は以下の過去記事もお楽しみいただけるのではないかと思います。ぜひ合わせてご覧ください。 AI開発の新たなパラダイム「基盤モデル」とは NeurIPS 2021 参加報告 前編 NeurIPS 2021 参加報告 後編 深層学習の原理 深層学習は様々なタスクで高い性能を発揮することが経験的に知られていますが、「なぜうまくいくのか」という原理についてわかっていることは多くありません。そのため
はじめに 機械学習エンジニアの本田志温です。最近担当した類似アイテム推薦の案件で、BigQueryを使って最大内積検索(MIPS; maximum inner-product search)1 を実装したので、その方法と高速化のテクニックを紹介します。 類似アイテム推薦は「多数のアイテム候補から、クエリとなるアイテムに最も類似したK件を抽出する」というタスクなので、MIPSないし近傍探索の枠組みで解くことが一般的です。 一定の規模を持つサービスでMIPSを実装しようとすると、アイテム数×特徴量次元の行列が何かと厄介です2。第一に、MIPSを素朴な行列積で実装すると、時間・空間計算量がアイテム数の2乗でかかってきます。典型的には空間計算量の方がボトルネックになりやすく、RAMの制約に収めるための工夫が必要になるでしょう。第二に、アイテム数が膨大な場合、特徴量マートから全アイテムの特徴量を転送
こんにちは、データテクノロジーユニット D3M 部の @beniyama こと山邉と申します。 D3M とは Data Driven Decision Making の略で、下記の組織概要にありますように『データマネジメントを通して経営資源としてのデータの価値を引き出し、意思決定の速度と精度を最大化する』ための組織になります。 具体的には、経営の意思決定やプロダクト戦略の策定など、様々なデータ利活用に対するデータ環境の要件を整理し、それを満たすための BI ダッシュボードやデータマートの構築など各種モニタリング基盤の整備などを行っています。 データ推進室組織概要(2022/09 現在) この度、データを活用した意思決定やプロダクト開発のスピードを加速させるべく、D3M 部において『アナリティクスエンジニア』の募集を新たに始めたので紹介させていただきます。 アナリティクスエンジニアとは De
自己紹介 はじめまして!株式会社リクルートにデータスペシャリストとして新卒入社しました橋本大輝と申します。 自分は入社当初はデータサイエンティストって結局具体的には何をする仕事なんだろう、エンジニアリングにも興味あるけどどこまで手を伸ばせるのかな、という不安感を持っていたのですが、新人研修を通して社内で触れることができる技術の幅と自由度を知りその不安が大きく解消されました。 ここではそんなデータスペシャリスト入社者に向けた新人研修の概要について、個人的に面白かった/ためになったところに重点を置きながら紹介していきたいと思います。 全体の流れ スケジュール データサイエンス×ソフトウェアエンジニアリング ソフトウェアエンジニアリング データサイエンス まとめ 最後に スケジュール 技術に関する研修は全てリモートで実施され、大まかに下図のようなスケジュールで行われました。 図1: 研修のスケジ
こんにちは!2022年度エンジニア新人の太田です。毎年反響を頂いているエンジニアコースの研修内容を、今年は受講者の立場から紹介させていただきます。 研修概要 リクルートの新卒エンジニアコースでは、入社した新人を対象に技術研修を行っています。その内容は、実際の開発業務に活かせる技術を扱う「本当に必要な生きた知識・技術」を取り入れたものとなっています。 特筆すべき点として、研修の資料はほとんどが内製であることが挙げられます。そのため、講義中の質疑を通してより深い知識や、開発の現場で培われた経験に触れることができます。 フロントエンド、モバイルアプリ、バックエンド、インフラ、データ分析、セキュリティなど幅広いテーマが扱われるため、知識のインデックスを張ることにもつながります。またハンズオンや競技形式の演習も取り入れられており、実際に手を動かすことで印象に残りやすく、エラーへの対処も学ぶことができ
バックエンドの設定、データベースのチューニング、あるいはワンライナーを駆使したトラブルシューティングなど、一芸に秀でたエンジニアならばあなたの周りのさまざまな分野で活躍しているでしょう。ただ、こうした要素すべてを網羅できるエンジニアとなると、そう多くはないはずです。そんなエンジニアとしての総合能力を競うイベント「RECRUIT ISUCON 2022」が、2022年7月8日に開催されました。新型コロナ感染症のリスクを考慮し、2年連続でオンライン形式で実施されることになりましたが、社内からは28チーム、のべ71名が参加しました。その模様を紹介します。 老舗の社内ISUCONとして、スキルアップとモチベーションアップ、ネットワーキングの場を提供 エンジニアの方ならば、「いい感じにスピードアップコンテスト」、略して「ISUCON※」というイベントについて聞いたことのある人も多いでしょう。お題とし
はじめに この記事では、当社内で開発した最適化フレームワークである「 Codable Model Optimizer 」について紹介します。 リクルートでは、機械学習のビジネス活用に長く取り組んできましたが、機械学習によって将来の予測が正確にできたとしても、その予測を元に良い選択を決定できなければならない問題に直面することが増えてきています。 例えば、商品に対する購入率が予測できたとしても、購入率の高い商品をたくさん表出させれば良いというわけではなく、実際には商品の在庫などを考慮してどのように表出させるのか意思決定する必要があります。 膨大な選択肢からより良い選択を見つけ出す問題を"最適化問題"とよび、様々な解法があります。解法としては、数理最適化(主に厳密な最適解を見つけるのに使われる)やメタヒューリスティクス(厳密最適解ではないが、大規模な問題において良い解を見つけるのに使われる)など
さて、視覚・言語を扱う基盤モデルとしては、2021年の CLIP がブレイクスルーでした。CLIPはテキストと画像を同じ特徴空間に写像する2つのエンコーダからなります。CLIPを使うと、次のようにして任意の画像分類問題を追加の学習なしで解くことができます。まず、各候補クラスを文章の形式(例:「犬の写真」)にした後、テキストエンコーダに入力します。次に、分類したい画像を画像エンコーダに入力します。最後に、画像から得られたベクトルと候補クラスたちから得られた複数のベクトルとのコサイン類似度を計算し、最も類似度が高いクラスを出力結果とします。 CLIPによるゼロショット画像分類の方法。OpenAI Blogより引用 CLIPは画像とテキストというモードの異なる情報を意味的な近さによって結びつけることを可能にしました。CLIPを教師のようにして使うことで、テキストから画像を生成するモデルを訓練する
特徴的な点として、ユーザーID・リクエスト時間・検索パラメータが一致するレコードが必ず偶数含まれ、半分が正例でもう半分が負例になるようにデータセットが作られていました。 このようなデータ設計になった背景は ML Contest 2021 - データセット準備 に詳しく説明されています。 サンプルノートブックの作成 今回のコンテストでは、EDA(探索的データ分析)のノートブック、ベースラインのノートブック、そして一部のカラムに含まれていた日本語を扱うための自然言語処理に関するノートブックを作成しました。 自然言語処理のノートブックの内容は私が以前個人的に執筆した ブログ記事 の内容に近いものですので、ここではEDAのノートブックとベースラインのノートブックの作成についてかいつまんで説明をします。 EDAのノートブックの用意 EDAのノートブックを作る段階では、私自身が一切データに関して知識が
はじめに 機械学習エンジニアの荒居秀尚です。2021年新卒入社で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。 分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 前回の記事 では、自己教師あり学習が近年大きく発展している背景と、画像を対象とした自己教師あり学習の部品となる技術の紹介を行いました。それを踏まえ、今回は具体的な手法について紹介を行います。 おさらい 代表的手法の紹介に
こんにちは、データエンジニアの多田です。 私は現在、データ利活用基盤「Knile(発音は “ナイル")」の開発をしています。 今回は、私が Knile チームでスクラムマスターからプロダクトマネージャーへと役割が推移していく中で取り組んできた、チーム開発の課題とその対策について紹介いたします。 Knile とは Knile とは、以前 CET と呼ばれていたチームが開発するデータ利活用基盤です。 Knile のビジョンや設計思想については、最近行われた社外への登壇資料があるので、ご覧ください。 第14回MLOps勉強会 CloudNative Days Tokyo 2021 時間軸で取り組むチーム運営 この記事では以下の 4 つのサイクルに分けて取り組みを紹介します。 長期計画 半期 四半期 スプリント(2 週間) チーム運営のサイクル これは実際に業務の中で考える思考の順番でもあります。
『スタディサプリ ENGLISH』 Mobileチームのhirothingsです。 ENGLISHのiOSアプリでは、StoreKit Testingを活用してIn-App Purchase(以下、IAP)の安定運用を行っています。 この記事では、 StoreKit Testingの自動テスト導入 最新のSandbox事情 について解説します。 StoreKit Testingとは WWDC2020で発表されたApp Storeサーバに接続することなく、アプリ内課金をテストするためのローカル環境の総称です。 StoreKit Configファイルで設定したプロダクト情報を元に ローカル(シミュレータでも可)で課金処理のシミュレーション 自動ユニットテスト の実行ができます。 設定については割愛します。ドキュメントはこちらです StoreKit Testを使った課金テストの自動化 Store
こんにちは、データエンジニアの龍野です。 私は現在、全社横断のデータ基盤「Knile」の開発を行っています。 自分のチームは Four Keys の計測をはじめとした DevOps の実践をし、積極的に Site Reliability Engineering (SRE) の推進も行なっています。その中で今回は、 SRE の中核を占める SLO についてのより深い理解を深めるためにチーム内で実施した SLO Workshop と、Workshop の中で自分たちが学んだ SLO のエッセンスを紹介いたします。 この記事が目指すもの SRE 本 でも言われている通り( こちら のブログでも同様の言及があります)、SLOs are key to making data-driven decisions about reliability, they’re at the core of SRE
はじめに 機械学習エンジニアの荒居秀尚です。2021年に入社したばかりの新卒で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 今回はまず自己教師あり学習の基礎の部分の解説を行っていこうと思います。 画像を対象とした自己教師あり表現学習 背景 近年、Deep Learningの技術発展やコンピュータの性能向上、フレームワークの充実など
今回の記事はリクルートアドベントカレンダー2021の10日目の記事です。 こんにちは。スタディサプリ ENGLISH SREグループの木村です。 re:Invent2021で AWS OSS製のCluster Autoscaler KarpenterがProduction readyになったことをがアナウンスされました。 『スタディサプリENGLISH』では基盤にkubernetesを採用しており、今回導入ができないか検証をした記録です。 1)現在はauto scalingにはspotを利用しており別途記事になっているので興味があればこちらも参照ください Karpenterとは? 公式の説明では下記のように説明されています。 Karpenter automatically launches just the right compute resources to handle your cl
はじめに 機械学習エンジニアの本田志温です。2020年新卒入社で、機械学習を用いたデータ施策や社内のデータ活用プラットフォームの開発を担当しています。 本日はGPUによるモデルサービングに関するちょっとした注意点について話します。というのも最近、ある施策のためにGPUによるオンライン推論を行うAPIを開発したのですが、負荷テストをしたところ、処理性能が期待していたほど出ませんでした。いろいろと調査をした結果、原因は1つのリクエストの中でデータがGPUとCPUの間を行ったり来たりしていることだとわかりました。一度わかってしまえば当たり前のことですが、GPUによるモデルサービングをするときの注意点として書き残しておきたいと思います。 GPUによるサービング ディープなモデルの推論を高速化するためのテクニックには、精度を落とさないものでは計算グラフのコンパイル、精度を犠牲にするものでは蒸留や量子
次のページ
このページを最初にブックマークしてみませんか?
『TECHBLOG 一覧 | Engineering at Recruit』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く