メディア統括本部 サービスリライアビリティグループ(SRG)の長谷川 @rarirureluis です。 #SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。 本記事

はじめに こんにちは、FAANS部バックエンドブロックでFAANSのバックエンドシステムの開発と運用をしている田島です。 2021年11月にZOZOTOWNとアパレルのブランド実店舗をつなぐOMOプラットフォーム「ZOZOMO」が始動しました。FAANSは、ZOZOMOで展開するサービスの1つで、ブランド実店舗で働くショップスタッフ専用の販売サポートツールです。FAANSは2022年8月の正式版リリース以来、これまで様々な機能をリリースしてきました。以下はその一部です。 投稿機能: ショップスタッフが自身で自社のアイテムを着て撮ったコーディネート画像やコーディネート動画といったコンテンツを複数チャネルに同時投稿できる機能。投稿先チャネルとしては、ZOZOTOWNやWEAR、Yahoo!ショッピングといった弊社並びに弊社のグループ会社のWebサイトだけでなく、ブランド企業の自社ECサイトへの
これはCAMPFIRE Advent Calendar 2020の6日目の記事です。 はじめまして。SREチームの加我です。 CAMPFIREのモニタリング周りを12月に刷新しました。 刷新に至った経緯や感じていた課題、導入して良かった事を書きます。 これまでのCAMPFIRECAMPFIREは Mackerel というモニタリングサービスを利用していました。 (余談ですが別のサービスでは今でもMackerelをバリバリ使っています) Mackerelは導入のハードルの低さやプラグインによるカスタマイズ性の高さ、直感的なUIが好評であることから当時導入に至ったとのことです。 私も以前Mackerelを導入してサービスのモニタリングをしていた事があり、導入後の運用のしやすさは大きなアドバンテージだと感じます。 CAMPFIREの課題おかげ様でCAMPFIREは多くの方に利用して頂けるクラウド
2024年7月2日に開催された SRE Lounge #17 の発表資料です。 SRE Lounge #17(ハイブリッド開催) - connpass https://sre-lounge.connpass.com/event/321335/ このプレゼンの技術的な詳細は、過去のブログ記事…
こんにちは、Platform Team というチームでマネージャーをしている荒引 (@a_bicky) です。 Platform Team は、データエンジニア・アーキテクト的な役割を担う Repro Core Unit と、インフラエンジニア・SRE 的な役割を担う Sys-Infra Unit から成るチームです。 先月 SRE Lounge #15 で「何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜」と題して次の発表をしたんですが、時間の都合上話せなかった内容があるので、それらについて触れたいと思います。 なお、当日の発表内容は動画でも視聴可能です。 アジェンダ 本エントリーのアジェンダは次のとおりです。 SRE Lounge #15 での発表内容の要約 Repro Core と Sys-Infra の棲み分け R
2023年3月から株式会社アンドパッドに入社して、前職に引き続きSREとして活動しています。アンドパッド入社後は、ANDPAD Tech Blogにブログ記事を書くだけでなく、SREチームの採用や情報発信について考える機会も増えてきました。 このページでは、SRE Lounge/SRE NEXTなどのイベントで初めてお会いした人に向けて、自分のこれまでの活動をご紹介します。 (最終更新日:2025年1月5日) 目次 目次 AWS Security Hub の導入 システムの詳細 システムの運用から得られた教訓など アンチウイルスソフト Antivirus for Amazon S3 の導入 Antivirus for Amazon S3 の紹介 セルフサービス化に向けた取り組み SRE チームからの情報発信の強化 2023年のイベント SRE Lounge #17 SRE NEXT 202
こんにちは。SREチームの吉澤です。2023年3月にアンドパッドに入社し、最近は主にセキュリティ関係の改善に取り組んでいます。 SREの経験としては、アンドパッドへの入社前からSREとして働いており、雑誌に寄稿したり、個人ブログを書いたり、SREの勉強会に運営スタッフとして長年参加したりしてきました。9/29(金)開催のSRE NEXT 2023にも、運営スタッフとして参加しています。SRE NEXT 2023には、アンドパッドもブロンズスポンサーとして参加しています! そこで今回は、SRE NEXT 2023のCFPに応募したネタ(今回、競争率すごく高かったんですよね……)を育てて、1つ記事を書いてみました。CFP落選供養スペシャルです。 背景 AWS Security Hubとは アンドパッドでのSecurity Hubの活用 目的 実現方法 課題 Security Hubのコントロー
こんにちは。データ・AI戦略部 SREチームの小野です。普段は部内のシステムに対し、SRE推進活動を行っています。直近では、データエンジニアと協力してデータ基盤周りの改善に取り組んでいます。 <SREの主な仕事> IaC化(Terraform/Terraform Cloud Business)の導入・推進 SLI/SLOの導入・推進 ポストモーテムの導入・推進 アプリケーションデプロイ基盤の導入・推進 ツールやAPIの設計・開発 インフラ設計・開発・運用 トイル削除・システムの自動化 データ基盤改善 一般的なSREエンジニアは、インフラ関連の業務が中心になると思います。しかし、データ・AI戦略部のSREチームは、開発を含めた幅広い仕事をします。やりたいことがあり、手をあげればそれを後押ししてくれる雰囲気の職場です。 今回は、SREエンジニアである私が、組織改善プロジェクトを立ち上げた話をお
SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主軸で大企業向けクライアントワーク&技術支援 2021/10〜、NewsPicksのSREチームメンバーとして参画 2022/7〜、同チームリーダーになり、現在に至る SREチームの業務Googleが提唱した サイト信頼性エンジニアリング(SRE)がチーム名の由来です。SREはサービスの安定運用と変化への対応のバランスをとるためのプラクティス(技術的実践)なので、このプラクティスを遂行することがチームの業務と完全に一致するかというとそうではありません。 とはいえ、それを体現するチ
盛況のうちに閉幕しましたオフラインイベント。お暑い中多数のご来場をいただき、ほんとうにありがとうございました! 2日目 7/8 の 15:10 より、標題の 長すぎる タイトルのセッションで登壇しました。その時に資料を公開します。 「開発環境」と銘打っていますが、運用がメイン担当であるエンジニアの方にとってもヒントになるものを盛り込めたのではないかなーと自負しています。 *1 内容 日々大切なアプリケーションを開発されている開発者の方々のなかには、開発基盤やパイプラインに何かしらの課題を感じている方も多いのではないでしょうか。 それらを一撃で吹き飛ばす特効薬「銀の弾丸」はもちろん存在しませんが、その一部は、ツールや手法・考え方の工夫次第で軽減できるものかもしれません。 状況の変化に合わせて武器や装備を整え直すRPG(ロールプレイングゲーム)のように、開発環境やパイプラインに改善の余地はない
いま、求められるITシステムの監視・ モニタリングの 高度化・DevOps・SRE オブザーバビリティ 運用の定着を 実現する方法とは? オブザーバビリティ運用のシステムと 組織への定着を促す X-Tech5「OBServe」のご紹介 課題 実現手法 サービス概要 提供方式 提供までの流れ 価格 ITシステムのクラウド移行が進み、コンテナやサーバーレスファンクションなどのクラウドネイティブ技術の採用が進むにつれて、運用における新たな概念である「オブザーバビリティ」への注目が高まっています。 しかしながらオブザーバビリティは「これをすれば(ツールを導入すれば)すべて解決」というものではなく、概念としての解釈や取り組み方は、サービスの稼働環境やシステム特性、あるいは組織・体制や企業文化(カルチャー)などの要素によって異なります。 このページでは、オブザーバビリティが求められる背景と課題、従来の
SRE がアツいですね。 昨年は以前に増して SRE 関連のイベントも増え、SRE 人材への注目も更に高まっていると感じた 1 年でした。私も Google Cloud の Customer Engineer として、お客様へ SRE のお話をする機会が増えてきています。 ご存知の通り、SRE は Google から生まれた運用プラクティス、またはそのロール自体を指す言葉です。 詳細は無料で読むことができる書籍を御覧ください。 “Site Reliability Engineering” 及び “The Site Reliability Workbook” (右上の右2つ)は HTML 形式 なので、Google Chrome で右クリックして 翻訳を選択するという簡単な手順で日本語でも読むことができます。(書籍がよい方は日本語版も購入できます。) 今回のテーマは SLO (Service
こんにちは、READYFORでソフトウェアエンジニアをしている@shmokmtです。 本記事は「READYFOR Advent Calendar 2021」の22日目の記事です。 21日目は @kotarella1110 さんによるフロントエンドのログ周りを改善する過程で OSS (Datadog Browser SDK) にコントリビュートした話でした。自ら積極的に手を動かし、OSSの不具合を修正しようとする姿勢は見習いたいものです。 READYFORではスクワッド体制[1]という組織体制が組まれており、私はシステム&データ基盤スクワッド(以下、本スクワッド)に所属しています。 本スクワッドでは、インフラ領域を中心とした開発効率の向上や堅牢なシステムに繋がる施策を中心に取り組んでおり、来年からはSLI/SLOを本格的に運用しようと考えています。 現在はその準備をしている段階です。 今回は
昨今では自社のプロダクトやシステムのエンゲージメント向上のために、「DevOps」や「アジャイル」といったキーワードのもと、大小さまざまな企業がシステムやアプリの開発手法の改善を試みています。その中において、最近だと「SRE」というキーワードを聞く頻度も多くなってきたかと思います。 しかしアジャイルやCICDなどと比べ、SREについては「言葉は知ってるけど具体的になんなのかはよくわからない」という方もいるのではないでしょうか?ここではそんな方々向けに、SREの最初の一歩となる概要について、独自の解釈を交えつつまとめていきます。 ここで話すこと SREって何? なぜSREが必要? SREってどんなことするの? ここで話さないこと SREの技術の具体的なところ(k8sやAPMの導入手順、設定方法など) プラクティスの実践例・具体例(アーキテクチャ、各種設定値、モニタリング指標など) TL;DR
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く