[B! operation] vanbraamのブックマーク

vanbraam id:vanbraam

operationに関するvanbraamのブックマーク (31)

Masanori Kusunoki / 楠正憲 on Twitter: "COCOAは途中まで私たち補佐官も入っていたので、決して運用保守を軽視したつもりはなかったのですが、EN API自体のプライバシー哲学に沿おうとすると既存のデバッグ用ツールがほぼ使えなくなってしまったのと、EN APIの更新がスマ… https://t.co/iQ5kltAo9k"
COCOAは途中まで私たち補佐官も入っていたので、決して運用保守を軽視したつもりはなかったのですが、EN API自体のプライバシー哲学に沿おうとすると既存のデバッグ用ツールがほぼ使えなくなってしまったのと、EN APIの更新がスマ… https://t.co/iQ5kltAo9k
vanbraam 2021/02/08
後半の"EN API"云々の話は他国も同様な筈で,他国で同様の問題が起きていないならどう贔屓目に見ても日本の開発運用体制に問題があったと言わざるを得ないのでは

疑義あり

development

operation

devops
リンク
crontab database ～君がしでかしてくれたもの～ - Qiita
この記事は本番環境でやらかしちゃった人のアドベントカレンダー２日目の記事です。内容的にそろそろ時効だと思うので供養のために書きました。追記。そういえば時期をちゃんと書いてなかったけど事件が起きたのは去年2018年、つまり仕込み（ヲイ）は2017年の話ですぶっちゃけネタ記事ですｗ（たまたま見つけて参加してみただけなのに昨日の記事の伸びっぷりを見て戦々恐々としてる TL;DR DB移行作業において、テスト期間中は常に最新のデータで処理できるように書いておいたプログラムをcrontabで実行していた。最終的に本番に合わせて日時を調整していたが、そのことを失念し１年後に再実行されてしまい、本番データが１年前に巻き戻る事故発生。 crontab は分、時、日、月、曜日を指定できるが、１年後に帰ってくるから気をつけてね。という話。惨劇はなぜおこってしまったのか結論から言えばcrontabの
vanbraam 2020/01/08
コメント欄でテストを理由にatよりcronの方が便利だったみたいな言い訳してるが,atでテストができない筈はないので言い訳にもなってない.本文に"一度きりの作業はat"という正しい対策を書かないのは有害ですらある

これはひどい

software

operation

これは本当にひどい
リンク
いつものように本番作業してたはずなのに - Qiita
この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019」の1日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production なかなか濃いラインナップが期待されますが、まずはさらっといきたいと思います。具体性が乏しい部分もあると思いますが、そこはお察しください。。。やらかし背景（前提条件）いっていに昔の話です ETL（データ加工）サーバ数十を超えるシステムからデータを集める BIツールなどで活用できるように各種加工処理を行い、DBなどにロードする繁忙の違いはあれど、24/365で常時一定量の処理は稼働している複数のチームが共存しているサーバアプリ面では比較的疎 ETL処理のリリース前に本番サーバ上で試験をする取り決めになっていた性能や本番相当データのテストが安全に行えるような環境
vanbraam 2019/12/01
そもそも本番環境で .profile = アカウントを共用するのが❌なのでは..? 仮に本番環境で作業を行うにせよ,個人のアカウントは別に用意すべきだと思う(状況が正確に理解できてない可能性はあるが)

software

operation

犯罪・事件・トラブル
リンク
Kubernetesの自前運用は難しい？　はてなの撤退事例
はてなのMackerelチームはKubernetesクラスタを自前で構築して運用していたが、撤退を選択したという。なぜ、Kubernetesの運用を諦めて撤退を選んだのか。はてなのMackerelチームでSREを務める今井隼人氏が語った。コンテナ型仮想化技術を活用したアプリケーションの管理（オーケストレーション）ツール「Kubernetes」が注目を集めている。その背景の一端にあるのが、アプリケーションをコンテナ化し、マネージドKubernetesサービスで実行することによるメリットの享受と、運用負荷の軽減だ。参考記事：「Kubernetes」とは何か――コンテナ型仮想化の本番利用に向けた課題参考記事：「Kubernetesで運用する」その前に　Kubernetesを本番環境で利用する際のポイントそんな中、「Kubernetesクラスタを自前で構築して運用していたが、撤退を選択した
vanbraam 2019/11/09
タイトルしか読んでないけど,2人じゃ厳しいと思う(そもそも24/7運用が無理).k8s導入より前にapplicationをcloud-native化しないと,運用コストもVMとさして変わらないのでは;GKEやEKSも銀の弾丸ではないと思う

Kubernetes

development

operation

CaaS

あとで読む
リンク
CircleCI 2.0を支える2つのコンテナクラスターとSRE
CNDT 2019の登壇資料
vanbraam 2019/07/24
Nomadってcontainerも扱えたのか(無知);SREはincident対応以外の仕事(SRE clinicはこっち)の話がもう少し知りたかった

CI・CD

SaaS

container

software

operation
リンク
「インフラ怖い」が生んだSREの業務負担――freeeはどう改善したか
「インフラ怖い」が生んだSREの業務負担――freeeはどう改善したか：運用コストを減らす3つのポイントとは（1/2 ページ）本番環境にKubernetesを活用するfreeeでは、SREに運用管理業務が集中して疲弊してしまった。そこで、開発チームにサービスの運用管理業務を任せることで改善していったという。その方法とは？個人事業主や法人向けにSaaSを開発、提供するfreeeは、本番環境にAmazon Web Services（AWS）の「Amazon Elastic Compute Cloud」（以下、EC2）と「Amazon EC2 Auto Scaling」（以下、EC2 Auto Scaling）を活用していた。だが、提供するサービスの増加やマイクロサービス化などに伴い、SRE（Site Reliability Engineer）に運用管理業務が集中して疲弊。そこで、開発チーム
vanbraam 2019/07/20
ここに出てくる"SRE"はSREじゃなくて単なる「インフラエンジニア」なのでは?;k8sはインフラだと自分は思ってるので,その運用を開発チームに委ねるのも正直疑問

疑義あり

container

CaaS

devops

development

operation
リンク
エンジニアが何か問題にぶつかったときにあるといい力を5個 - Mitsuyuki.Shiiba
最近ちょこちょこ相談されることがあって、直接のスキルではないけど、こういうのもスキルだよなぁって思ったので、思いついた順に書いてみる。5個になった。 ## 1. 問題を切り分ける力「これがなぜか動かない」って相談されたときって、いくつかの要素が絡んでることが多い。なので「ここは明らかに問題ないでしょう」という一番土台のところからチェックを始める。そうすると「え？そこは問題ないと思いますよ？」って言われるので「うん、それを『問題ないと思う』じゃなくて『問題ない』って断言できるようにしようと思って」みたいな会話をよくする。可能性をひとつずつつぶしていくと「ここだなぁ」って場所が見つかって、そしたら、もうあとはそんなに難しくない。ひとつずつ確認していくのって遠回りに見えるけど、結局その方が確実ではやいと思う。 ## 2. 想像と事実を切り分ける力 ↑と絡んで、想像や思い込みなのに、「ここは
vanbraam 2019/04/05
確かにトラブルシューティングする時はこれだいたい全部使ってる;頼むから検索⇔試行錯誤だけで問題を解決しようとするのはやめてくれ.それはTVを叩いて直そうとするのと同じで,プロがやる事ではない

software

development

operation

programming
リンク
Apache Kafkaって本当に大丈夫？～故障検証のオーバービューと興味深い挙動の紹介～
4. © 2019 NTT DATA Corporation 4 Who am I? • Bio – Engineering and researching about the distributed computing, open source software, and so on. – Consulting about IT infrastructure for the data processing and data utilization – Leading technical teams • Presentations / Publications – Spark Summit, Strata Data Conference, Kafka Summit, DataWorks (Hadoop) Summit, Developer Summit, and so on. – Shoe
vanbraam 2019/03/22
tool

operation

devops
リンク
こわくないPostgreSQLのアップグレード
͸͡Ίʹ ຊηογϣϯͰ͸ɺMastodonͰ࢖༻͞Ε͍ͯΔɺ PostgreSQL 9.5·ͨ͸9.6͔Β11΁ͷͷΞοϓάϨʔυͷղ આΛߦ͍·͢ɻ RedHatܥͷඇDockerͳMastodonͰղઆ͠·͢ɻ ແఀࢭͰΞοϓάϨʔυ͢Δ͜ͱ͸Ͱ͖·ͤΜɻ (ํ๏͸͋Γ·͕͢ɺઆ໌ର৅֎ͱ͠·͢ɻ)
vanbraam 2019/03/18
あとで読む

DBMS

operation
リンク
2019-03-06 「運用自動化」とは /20190306-operation-what-automation
「運用自動化の基本原則」シリーズの総論と位置付け、ssmjp 2019/03で発表した資料です。 # 運用自動化の基本原則シリーズ - 2019-03-06 「運用自動化」とは: https://speakerdeck.com/opelab/20190306-operation-what-aut…
vanbraam 2019/03/07
b:id:entry:4665517408724211842とほぼ同内容.なぜか<はspeakerdeckでslideのprocessingに非常に時間がかかったが,こっちはそれほどでもなかった;同内容なので言葉遊びの多さと具体性のなさも同じ

内容がない

operation

自動化
リンク
2019-03-06 ダメな「運用自動化」の3類型 + α /operation-automation-3-bad-model
ssmjp 2019/03での発表資料です。「運用自動化の基本原則」シリーズの番外編と位置付けています。 # 運用自動化の基本原則シリーズ - 2019-03-06 「運用自動化」とは: https://speakerdeck.com/opelab/20190306-operation-…
vanbraam 2019/03/07
言いたい事はわからないでもないが,言葉遊びが多くて具体性がなくイマイチ;toil減らすのって立派な自動化だと思う.むしろtoilを減らす事でユーザーが求めるサービスを作る時間が生まれる

内容がない

operation

自動化
リンク
2019年版・Kubernetesクラスタ構築入門 | さくらのナレッジ
Kubernetesが標準で提供するリソースの一覧はAPIドキュメントで確認できる。また、独自のリソースを定義して利用することもできる。 Kubernetesでは、「マニフェスト（manifest）」と呼ばれる形式で各種リソースを定義する。マニフェストは木（ツリー）構造で表現できるデータであり、たとえばコマンドラインツール「kubectl」ではYAML形式で記述されたマニフェストを元にリソースの作成や削除、変更といった操作を行える。 kubectlの使い方についてはドキュメントを参照して欲しいが、たとえば、DockerHubで公開されている「httpd」コンテナイメージを利用してApache HTTP Serverを実行させるには、まず次のようなマニフェストファイルを用意する。 apiVersion: v1 kind: Pod metadata: name: httpd labels: a
vanbraam 2019/03/07
kubeadmが最もprimitiveな方法か;これで構築だけでなく運用までする/できる人ってどれくらいいるのだろう

CaaS

operation
リンク
システム障害との向き合い方 @sinamon129 #tokyogirlsrb
これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meet…
vanbraam 2019/03/02
slide=25及び38-46の辺り,opsを経験し意識する様になるとdevとしても優れたコードが書ける様になる良い例になっている

operation

software

development
リンク
SRE チームの評価に役立つレベル別チェックリスト | Google Cloud 公式ブログ
※この投稿は米国時間 2019 年 1 月 26 日に Google Cloud blog に投稿されたものの抄訳です。このたび、『The Site Reliability Workbook』がウェブサイトで閲覧できるようになりました。Google で生まれ、他の企業にも広まりつつある Site Reliability Engineering（SRE）は、運用上の問題をソフトウェア的に解決するためのエンジニアリングであり、Google におけるエンジニアリングの本質的な部分を占めています。 SRE は考え方であり、一連のプラクティスやメトリクスであり、システムの信頼性を保証するための処方箋でもあります。SRE モデルを構築すれば、サービスの信頼性が向上し、運用コストが下がり、人間が行う作業の価値が高くなって、サービスとチームの双方で大きなメリットが得られます。上述の新しいワークブックは、
vanbraam 2019/02/21
凄く良い記事だと思うが,これ最初の3原則のレベルまで到達するすら殆どの日本企業にとっては難しそう

software

service

operation
リンク
Living with legacy systems
デブサミ2019 14-A-6　「レガシーのいい感じの付き合い方」
vanbraam 2019/02/21
"葬り"は良さげ.本来移行前に是非やるべきだと思うが,その決断ができない人は多い;DB移行,選定/設計の苦労のみで肝心の実施の話がない.案ずるより産むが易し?;"legacy"の定義は"テストのないコード"なので本番はこれから

software

operation
リンク
NoOpsへ舵を切れ
2. 岡大勝 @okahiromasa 株式会社ゼンアーキテクツ代表取締役CEO アーキテクト DKIS ⇒ DEC ⇒ HP ⇒ Rational Software 金融SE ⇒ オブジェクト指向＆RUP の導入支援 2003年にゼンアーキテクツを設立先端技術による”企業のIT 投資の最適化”がミッション 2013年日経BP「日本のトップITアーキテクト」の一人として選出
vanbraam 2018/05/26
No _Uncomfortable_ Ops."Uncomfortable"重要.いい事書いてあるのに,煽り気味な表題が勿体ない;Opsを楽にする為のDevの設計の重要さを強調してるのが特に良い.それがDevOpsの本質なので;この辺興味あるならb:id:entry:364824833も参考になる

devops

design

development

operation
リンク
【GitFeatureFlow】GitFlowをやめて本番リリースが楽になった話 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 背景サーバーサイド開発のプロジェクトでGitFlow(的な)運用を行っていたが、本番リリースの際に困ることがあったのでgitの運用フローを変えて解消したという話。まず問題の内容から順番に書いているので、結論(新しい運用ルール)だけ知りたい人はこちら git運用フローについては、GitFlow・GitHub Flow・GitLab Flowなどが有名だがどれとも少し違うように思ったのでまとめた。 <2018/06/10追記> 新フローにも名前が欲しいと思っていたが、同じやり方を「GitFeatureFlow」と呼んでいる記事を見つけた
vanbraam 2018/05/14
id:snowcrush氏と同意見.Release operation的にはGitHub flowとの違いが不明.developブランチは検証=test operationの話;重厚長大なGitFlowをやめて,極めて単純なGitHub flowに変えたらリリースが"楽"になるのは当然

version control

operation

service
リンク
DemandBridge Provides Faster Product Releases and Updates with Cloud Foundry | Cloud Foundry
vanbraam 2018/04/26
"DemandBridge has only four developers on their Java team">即ちCloud Foundryは大企業だけでなく小さな開発チームにとっても有用.だが"too complex to learn and administrate"なので"hired Stark & Wayne to set up an open source Cloud Foundry development environment"

PaaS

software

development

operation
リンク
SmartHR が定期メンテナンスを始めた理由とやめる理由 - SmartHR Tech Blog
SmartHR のソフトウェアエンジニアぷりんたいです。SmartHR には2017年2月に入社しました。この記事は SmartHR 長時間のサービス停止を伴うシステムメンテナンスのお知らせによせて書かれたものです。ご挨拶 SmartHR では、昨年の6月より週2日という頻度で夜間のサービス停止を行ってきました。まずは、この運用形態を選択したことによりご利用中のお客様にはご不便をおかけしたことをお詫び申し上げます。今日のクラウドサービスでは、無停止運用が当たり前といった風潮もありますが、なぜ SmartHR が停止メンテナンス運用を選択したのか、今後のサービス提供においてどのようなことを重視していくのかを技術者としての立場からご説明させて頂きます。 SmartHR の開発初期とマルチテナント問題 SmartHR は2015年2月に開発が始まり、同年11月にサービスインしました。
vanbraam 2018/04/06
"Citus Cloud という Database as a Service を提供しており、フルマネージドで運用することが可能"<殆どのサービスでDBMSはfull managedに頼るのが正解では.優秀なDBAは年収1000万円でも安い.会社の費用は年収の倍で,24時間なら3人必要

DBMS

operation
リンク
なぜいま Heroku なのか - Qiita
開発中のサービスに Heroku を採用した経緯を社内で周知するために書いた文章なんですが、ついでに Qiita にも貼っておきます（ちなみに Heroku の回し者ではないので悪しからず）。従来、Heroku は日本で使うにはレイテンシの問題で本番環境での利用が避けられることが多かったこれは Heroku の Common Runtime には Tokyo region がなく US 等のサーバーと通信するとレイテンシが大きいため1 実際、Wantedly 社なんかもレイテンシを理由に Heroku から AWS に移行しているだが、Service Worker の先読みと Fastly（のような instant purge 可能な CDN）の登場により、このレイテンシの影響は極小化されたのではないか多くのリクエストは Fastly のエッジサーバーからレスポンスを返せるはず
vanbraam 2018/03/21
dev.toは様々な"常識"を壊したんだな.今まさに動いているdev.toの存在が,これらの"常識"が誤解である事を示す最強の証拠になっている

software

operation

PaaS

performance
リンク
1 2 次のページ