スライド概要 2024/7/11開催のEmbedded SRE 現場に寄り添うアプローチで話したスライドです。 https://findy.connpass.com/event/323099/
スライド概要 2024/7/11開催のEmbedded SRE 現場に寄り添うアプローチで話したスライドです。 https://findy.connpass.com/event/323099/
サイバーエージェントは創業来、インターネット産業の拡大とともに事業成長を続けてきました。またそれと同時に、SRE領域へも注力してきました。SRE Technology Mapは、サイバーエージェントのSREチームの取り組みを知ってもらうことを期待して製作しています。 Developer Experts of SRE 柘植 翔太 Shota Tsuge サイバーエージェントが提供する幅広い事業サービスの信頼性向上に、私達SREsは日々取り組んでいます。事業領域や事業フェーズ、組織規模が異なれば、SREsのアプローチも違ってきます。それぞれのSRE組織が、様々な課題解決に取り組んだことによって得られた知見や考え方などを多くの人に知ってもらいたいと考え、「SRE Technology Map」を作成しました。 「SRE Technology Map」を通して、少しでもサイバーエージェントに興味を
こんにちは、運用本部サービス運用部、SET(cybozu.com)所属の山田です。 この記事では、外部発信をしていなかったためあまり存在を知られていなかったであろう、サイボウズの SET チームについて紹介します。 サイボウズ SET は何をするチームなのか ざっくり言うと、募集要項 にもある通り、クラウドサービスの基盤の品質保証エンジニアのチームです。 これが何を意味しているかを、順番にお伝えします。 組織図上の立ち位置 SET の役割を紹介するために、まず組織図上の位置を確認します。 図の文字が小さいのですが、SET は次のような階層に位置する組織です1。 サイボウズ組織図における SET の位置付け 一部を文字でも書き起こすと、以下のようになります: 運用本部 ├── サービス運用部 │ ├── SET (cybozu.com) # ここ │ ├── Cloud Platform (
こんにちは。SREの@kyontanです。スタディサプリのSREチームにジョインしてから初のブログ記事となります。 つい先日、スタディサプリ 中学講座が大幅リニューアルされました。*1 今回は、そのリリースを自信を持ってユーザーの皆様へお届けするために実施した、プレモーテムという取り組みについてご紹介したいと思います。 背景 今回のスタディサプリ 中学講座のリニューアルは、バックエンド、フロントエンド(Web/iOS/Android)の開発をフルスクラッチで行ったため、大規模なリリースとなりました。 すでにユーザーへ提供しているサービスを、段階的にリニューアルされたものへ切り替えていく複雑なリリースということもあり、リリースにあたっては予期しないトラブルが起きる可能性が推測できます。 通常、さまざまなトラブル(障害)が起きた際には、私たちはあらかじめ定めた障害対応フローに沿って対応を行い、
この記事はCyberAgent Developers Advent Calendar 2021 11日目の記事です。 みゆっきこと山中勇成(@toriimiyukki)です。普段は、ABEMAで動画配信基盤の開発運用を担当しています。 直近では、配信システムの大規模刷新プロジェクトなどを担当しており、こちらの模様はCA BASE NEXTの発表からアーカイブを閲覧可能です。 ABEMAでは、24時間365日のリニア型配信やVOD配信など、昼夜を問わず落とすことができないミッションクリティカルなサービスを運用しています。サービスを支えるマイクロサービスは、配信分野に限っても20サービスを超えています。 既にPrometheusなど、各種モニタリングソリューションでの監視やアラーティングなども行っていますが、この記事では、あえて手動監視を定期的に行う、モニタリング定例を勧めたいと思います。 な
こんにちは、SRE(Site Reliability Enginner) の @showwin です。前回の LAPRASインフラチームで避難訓練を行いました の記事に引き継ぎ、今回もSREチームの取り組みの紹介です。 概要2021年2月からSLI, SLOを定めた運用を開始し、約半年が経過しました。導入の背景や、運用開始までの流れ、実際に運用してみて気付いたことをまとめました。 体制としては、SREチームはフルタイム1名、適宜手伝っていただけるメンバー2名で構成されており、アプリケーションエンジニアが9名です。また、サービスの利用者に対してはSLAを提示しておりません。このような状況下において運用されているという前提で読み進めていただけたら幸いです。 SLO導入に至った経緯前任のインフラエンジニアの退職により、2020年9月より私がその役割を引き継いだのですが、なんとなくカッコ良さそうと
こんにちは、SREチームの @bayashi_ok です。 今回はクラウドワークスで週1回ペースで実施している「週刊ポストモーテム」の取り組みをご紹介していきます。 ポストモーテムとは 週刊ポストモーテムとは 復刻:週刊ポストモーテム 障害対応した人もしくはそのチームの人が発表 障害がなくても開催 ゆるく開催 継続して開催していくメリット みんなの交流の場にもなる 課題を見つけ、なにかをはじめるきっかけになる 他部門の人に知ってもらえる 監視ツールの使い方や見方がわかる 今後の課題 ファシリテーションのローテーション 他部門の人も発表してもらえるようにする 時間帯が合わない ファシリテーションスキルをあげる 最後に ポストモーテムとは まずポストモーテムという単語について少し説明します。 ポストモーテムの意味は各分野でも変わっており、医学の世界では「検死」、プロジェクトマネジメントの世界で
技術部シニアエンジニアリングリードの @tnmt です。 近年ペパボではSRE(Site Reliability Engineering)に取り組んでいます。同じくSREに取り組むエンジニアを読者想定に、今回からいくつかケーススタディとして事例の紹介をしていきたいと思います。ペパボのエンジニアリングの一部理解になれば幸いです。 第一弾として、2019年より行っているロリポップ!レンタルサーバーでのSLI/SLOを元にしたパフォーマンス改善の取り組みをライトに取り上げます。 ロリポップ!レンタルサーバーのSLI/SLO運用 きっかけ そもそものきっかけとしては、2019年当時のサービス利用ユーザー様の一部から「ウェブサーバーのレスポンスが悪い」というフィードバックをいただいていたということでした。 ウェブサーバーのレスポンスタイムはホスティングサービスの品質を左右するものであり、ロリポップ!
CloudNative Days Spring 2021 ONLINE でお話したときの資料です https://event.cloudnativedays.jp/cndo2021/talks/201
By: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In this bo
#jtf2017 ( http://2017.techfesta.jp/ ) にて『Web サービスの信頼性を守るための取り組み』というタイトルで発表しました。
デブサミ2017でGoogleの中井悦司氏が登壇。Googleが考えるDevOpsの理想形についてGoogleパブリッククラウドサービスをベースに解説を行った。 ソフトウェア開発者のためのイベント、デブサミ2017(Developers Summit 2017)が2017年2月16、17日の両日、都内で開催された。今回は多くのセッションから「Googleのインフラ技術から考える理想のDevOps」と題されたセッションを紹介する。これは昨年までレッドハットでエバンジェリストとして活躍していた中井悦司氏が担当したセッションで、Googleの社内システムを通じてDevOpsのあるべき姿を紹介するものだ。 このセッションで中井氏はGoogleが考えるDevOps、つまり開発と運用を連携させる際の注意点を実際にGoogleが提供するパブリッククラウドサービスを例に挙げながら解説を行った。理想のDev
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く