Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
2015年8月	
  
NTTコミュニケーションズ	
  
技術開発部	
OpenStack	
  
Ops	
  Mid-­‐Cycle	
  Meetup@PAO	
  
参加報告	
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Ops  Meetupとは?
n  OpenStack	
  Operators	
  Meetup(通称:Ops	
  Meetup)	
  
クラウドの運用者が集まるイベントであり、運用者(Ops)同士のベ
ストプラクティスやアイデアの意見交換、運用者の視点から開発者
へのフィードバックを行う	
  
n  次の3つを目的としてディスカッションやプレゼンテーション
形式で話し合いが行われる	
  
1.  OpenStackの運用中に発生した問題へのフィードバックの収集と、コ
ミュニティへの共有	
  
2.  運用者たちがベストプラクティスやアーキテクチャについてお互いに情
報交換が出来る体制を作る	
  
3.  クラウド運用者からの建設的/積極的な関わりあいを増やす	
  
n  開催時期	
  
•  OpenStack	
  SummitのDesign	
  summit開催中の数日	
  
•  SummitとSummitの間(Mid-­‐cycle)で数日	
  
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
1
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
今回のイベント概要
n  イベント名:OpenStack	
  Ops	
  Mid-­‐Cycle	
  Meetup	
  
n  日時:2015年8月18日、19日	
n  場所:米国:パロアルト(HP,	
  GoDaddyがスポンサー)	
  
n  主催:OpenStack	
  Founda8on	
n  参加者:2日で195名(登録は305名)	
  
n  参加者の多くは西海岸とオースティン	
  
n  ヨーロッパから数名とアジアからはNTTグループの5名	
  
n  構成はOps、PTL6〜7名(Keystone,	
  SwiR,	
  Cinder,	
  etc)、ATC二十数名(Coreが
数名)	
  
n  参加目的:OpenStackを活用している企業の運用者が集ま
り、各社の運用方法の情報共有やOpenStackの開発者に
フィードバックを提言していく会議体であり、今後のクラウド
運用のノウハウや情報を収集するため	
  
n  備考:議事録はEtherpad*1で公開中	
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐meetup	
2
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
⾃自⼰己紹介
•  三井貴之(みついたかゆき)	
  
•  H27年NTT	
  COM入社	
  
•  技術開発部 クラウドコア	
  OpenStackチーム	
  
•  学生時代にアルバイトやフリーランスでソフト
ウェア開発を経験	
  
•  趣味	
  
– ゴルフ	
  
– 海外ドラマ	
  
3
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
⾃自⼰己紹介
u 氏名:	
  
•  小倉真人	
  (おぐらまひと,	
  Mahito	
  OGURA)	
  
u 所属:	
  
•  NTTコミュニケーションズ 技術開発部	
  
•  OpenStackの調査	
  /	
  開発	
  /	
  人材育成に従事	
  
u 経歴:	
  
•  2009	
  –	
  2010:NTTコムウェア入社、Eucalyptusの検証	
  
•  2010	
  –	
  2012:仮想化基盤(KVM)の監視	
  /	
  デプロイ	
  
	
   	
   	
   	
  	
  	
  	
  	
  効率化の検証	
  
•  2012	
  –	
  2013:Cassandra,	
  HBase,	
  MongoDBの検証	
  
•  2013	
  –	
  2014:Hadoop基盤の自動構築検証	
  
•  2014	
  –	
  現在:10月に人事異動で現職へ	
  
4
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
OpenStack	
  
Ops	
  Mid-­‐Cycle	
  Meetup@PAO	
  
1日目	
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
5
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
スケジュール(1⽇日⽬目)*1
8/18	
  Tue	
 Med	
  II	
 Med	
  III	
 Salon	
  A	
 Salon	
  B	
 Bacchus	
9:00	
  -­‐	
  10:00	
 Registra8on	
10:00	
  -­‐	
  10:30	
 Introduc8on	
10:30	
  -­‐	
  11:15	
 Burning	
  Issues	
11:15	
  -­‐	
  11:55	
 Hypervisor	
  Tuning	
11:55	
  -­‐	
  12:05	
 Breakout	
  Explain	
12:05	
  -­‐	
  13:30	
 Lunch	
13:30	
  -­‐	
  15:00	
 Large	
  	
  
Deployments	
  Team	
  	
Burning	
  
Issues	
Logging	
  
WG	
Upgrades	
  
WG	
Ops	
  Guide	
  
Fixing	
15:00	
  -­‐	
  15:30	
 Coffee	
15:30	
  -­‐	
  16:00	
 Breakout	
  Reports	
16:00	
  -­‐	
  17:00	
 Using	
  Containers	
  for	
  
	
  Deployment	
17:00	
  -­‐	
  18:00	
 Lightning	
  Talks	
*1:hUps://goo.gl/qOQfFs	
6
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  *1
² 概要	
  
–  運用経験から得られた修正すべき点などを共有・議論	
  
–  Moderator:	
  Ulf	
  
n 内容	
  
–  Neutron	
  
–  キャパシティマネジメント	
  
–  Ceilometer	
  
–  RabbitMQ	
  
–  KeyStone	
  
–  SOC	
  コンプライアンス	
  
–  トラブルシューティング	
  
–  テスト	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐burning-­‐issues	
7
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  Neutron    
n バグの報告	
  
–  Kiloのdhcp	
  agentの問題で、テナントがfipをロスト	
  
–  L2,L3	
  agentを再起動すると、すべてのテナントのルータと
コンピュートノードがフラッシュされる	
  
•  Kiloにはパッチなし。Libertyは修正予定	
  
–  HA	
  routerのL2	
  popula8onにバグあり	
  
n トラブルシューティングが困難	
  
–  ドキュメント不足 	
  	
  
–  いい解析ツールがない(今はtcpdump)	
  
n ネットワークモデルのアンケート	
  
–  Linux	
  bridge	
  半数	
  
–  Open	
  vswitch 半数	
  
–  Contrail 少数	
8
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  キャパシティマネジメント  
n Quotas	
  
– ドメインごとに定義	
  
– グローバルで定義	
  
– Flavor/azで定義	
  
– Novaのroot	
  diskと一時ディスクにも欲しい	
  
•  Vcpuとvmemoryにはある	
  
•  Blueprint,	
  hUps://blueprints.launchpad.net/nova/
+spec/root-­‐and-­‐ephemeral-­‐disk-­‐quota)	
  
– Neutron	
  networkのport数	
  
n EbayではアセットをCMDBで管理	
  
9
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  Ceilometer  1/2  
n ユーザ関心	
  
–  使ってみたい:	
  一人	
  
–  諦めた	
  :	
  数人	
  
–  関心なし:	
  一人	
  
–  grep	
  :	
  数人	
  
n ユースケース	
  
–  監査証跡	
  
–  メータリング	
  
–  チャージバック/ショーバック	
  
•  VerisignはkibanaとElas8csearchを使ってチャージバックを構築し始め
た	
  
•  eBayは別の方法ですでに実現している	
  
10
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
n 主なgapや問題点	
  
–  Mongo	
  
•  Influxdbや他のプロプライエタリDBに切り替えている人も存在	
  
–  パフォーマンス	
  
–  安定性	
  
–  機能の理解に時間がかかる	
  
•  フルタイムエンジニアが7ヶ月	
  
n スケール	
  
–  135コンピュート	
  :	
  1Ceilometer	
  
–  Azごとに1000まで	
  (プロプライエタリDB使用)	
  
Burning  Issues  Ceilometer  2/2  
11
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  RabbitMQ  1/2
n Rabbit	
  teamによるinstall/configガイドが発表	
  
–  Vancouverで告知	
  
–  OpenStackに特化したドキュメントをrabbitmq.comに載せ
ることを計画中	
  
•  故障や分割時からの復旧	
  
•  動作中のクラスタでupgradeを行った時の影響 	
  	
  
n Rabbitの開発はgithubに移行	
  
n Kiloでもnova-­‐computeでrabbit再起動にいくつかの問
題が見られる	
  
n heartbeatはoslo	
  messagingにあってバックポート可能	
  
n Junoと最新のoslo.messagingは動作良好	
  
n LBを使う/わないのメリット・デメリットをOpsで議論した
い	
  
12
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  RabbitMQ  2/2  今後の予定
n 3.6.0リリース	
  
– 2015年10	
  or	
  11月	
  
– オペレーション改善にフォーカス	
  
– クラスタのプロビジョニングが容易に	
  
•  2タイプのプラグインが存在	
  
•  Chef/puppet/その他のモジュールをサポート	
  
– オペレーション指向のコマンドがrabbitmqctlに	
  
n 3.7.0リリース	
  	
  
– 2016年4	
  or	
  5月	
  
– Pluggable	
  logging	
  バックエンド	
  
– Pluggable	
  クラスタリングメカニズム	
  
13
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  Keystone  1/2
n  主に権限について議論	
  
–  VMがどのHVにいるのかはadminのみが知る	
  
•  仕様	
  
–  AdminAはフルアクセスできるが、AdminBはそうではないネットワークが
欲しい	
  
–  ホワイトリストのユーザだけがCRUD可能	
  
–  A,Cユーザはフルアクセスできるが、BユーザはRead	
  Only	
  
–  VMに特定の権限	
  
•  別テナントのswiRコンテナにアクセス可能	
  
–  Adminは何でもできる	
  
•  様々な独自roleやポリシーを使って運用しているところもある	
  
•  Admin+extraの権限を提案。E.g.	
  プロジェクトの削除にはAdmin+deleteの権限が
必要	
  
•  ロールのアサインを制御できるadmin-­‐nessな権限	
  
•  V3では粒度の細かいコントロールをサポート	
  
–  特定のロールにread-­‐onlyアクセスを許可する等	
  
–  Novaのpolicy.jsonで、別テナントへのアクセス可能に関する設定が無視	
  
•  Libertyでは修正済み	
  
–  Libertyのkeystoneでは試験的に中央集権されたポリシーを持つ	
  
14
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  Keystone  2/2
n スケーリング	
  
– 並列に多くの認証リクエストが来た時に認証時間が
長くなる	
  
•  400の同時リクエスト時にはレスポンスに14秒かかる	
  
•  トークンの認証が遅ければすべてのサービスが遅くなる	
  
•  トークンの破棄についても議論していきたい	
  
15
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  SOC  /  コンプライアンス
n アクセス/ログイベント	
  
–  だれがいつ作ったかを知りたい	
  
–  CADF(Cloud	
  Audi8ng	
  Data	
  Federa8on)	
  
•  顧客が監査機能を維持できるようにするために、クラウドプロ
バイダーが提供する標準化された監査データ	
  
•  データを格納するバックエンドが必要	
  
–  Logstash(ELK)	
  
–  Ceilometer	
  
n ユーザ認証に連続で失敗した場合にロックアウトし
たい	
  
–  SQLドライバー以外を使えばできる(LDAP、IPA、AD)	
  
–  Keystoneチームにウイスキーを与えれば…	
  
n Audit	
  keystonemiddlewawre	
  
–  開発は終了	
  
16
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  トラブルシューティング
n  以下のトラブルシューティングが困難	
  
–  “OpenStackが遅い”	
  
•  どうやってパフォーマンスの解析や問題点を発見するか	
  
–  Datadog(cloud	
  monitoring	
  as	
  a	
  service)	
  
–  Icinga(Open	
  Source	
  Enterprise	
  Monitoring)はこの用途には使えなかった	
  
–  “VMが作れない”	
  
–  ロードバランサ	
  
–  DNS解決	
  
–  UDPとマルチキャスト	
  
–  “no	
  valid	
  host	
  found”	
  
n  中央でログ収集	
  
–  Fuel-­‐plugin-­‐ima-­‐collector	
  
–  ELK	
  
n  Correla8on	
  engine	
  
–  既知のイベントに関しては自動的にトラブルシューティング	
  
17
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Burning  Issues  testing/validation
n APIテスト、interoperabilityテスト	
  
– RefStack	
  
n パフォーマンステスト	
  
– Rally	
  
n HAテスト	
  
– Cloud99	
  
18
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Hypervisor  Tuning*1  1/5
²  概要	
  
–  ハイパーバイザーのチューニングに関するベストプラクティスの共有・議
論	
  
–  Moderators:	
  Joe	
  Topjian	
  	
  
n  チューニングテスト	
  
–  DaCapoは良いツール	
  
–  Disk	
  IOテスト	
  
•  FIO	
  
–  70/30	
  tes8ng	
  at	
  8k	
  
–  レイテンシを見ている(スループットではない)	
  
–  Ansibleを使って複数VMで同時に実行	
  
•  Iometer	
  
–  シングル/クラスタ用のIO計測ツール	
  
–  共通のテスト環境のリセット方法が欲しい	
  
•  キャッシュなどが再テストを邪魔する	
  
–  CBTOOL	
  (hUps://github.com/ibmcb/cbtool)	
  
–  PHORONIX	
  TEST	
  SUITE	
  (hUp://www.phoronix-­‐test-­‐suite.com/)	
  
–  PerfKitBenchmarker	
  (hUps://github.com/GoogleCloudPlarorm/
PerfKitBenchmarker)	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐hypervisor-­‐tuning	
  
19
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Hypervisor  Tuning  2/5  
n  どのカーネルスケジューラを使っているか	
  
–  Deadline	
  
–  Noopはホストスケジューラと競合しない	
  
n  Network	
  
–  MTU	
  
•  1550	
  
•  8000	
  (いくつかのレガシーネットワークのため)	
  
•  Kiloではneutronのconfigに書いたmtuが反映されない場合あり	
  
–  プロバイダーネットのMTUをより大きな値にするといいかもしれない	
  
–  Nic	
  bonding	
  
•  LACPがデファクトスタンダード	
  
•  再起動時、50回に1回、LACPではなくラウンドロビンとして上がってくる	
  
n  cpu_mode	
  
–  Passthrough	
  
•  Upgrade時にいくつかの問題が発生	
  
–  Apparmor	
  のバグ	
  
–  レジュームできない	
  
–  Host-­‐model	
  
•  HVノードをスワップするときに、スワップ先のHVにCPU	
  extesionsがなければvmが立ち上
がらない	
  
20
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Hypervisor  Tuning  3/5
n  Intel	
  KVM	
  EPT	
  
–  6%スループットが改善	
  
–  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐
high-­‐throughput.html	
  
–  バグでホストクラッシュを起こすときもある	
  
n  KSM	
  
–  各コンピュートノードで20%メモリ節約	
  
–  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐
high-­‐throughput.html	
  	
  
–  Javaを重くする	
  
–  0.94%スループットが改善	
  
n  NUMA	
  
–  より効率UP	
  
–  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/numa-­‐and-­‐cpu-­‐
pinning-­‐in-­‐high-­‐throughput.html	
  	
  
–  Random	
  numa	
  cell	
  selec8onの時すべてのnuma	
  cellが使われない場合が
ある	
  
•  修正済み	
  
21
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Hypervisor  Tuning  4/5
n  Iptablesの設定	
  
–  conntrack_max	
  
•  512k	
  
•  256k	
  with	
  hash	
  table	
  size	
  of	
  16k	
  
•  256k	
  with	
  hash	
  table	
  size	
  of	
  64k	
  	
  
•  Ubuntuのデフォの64kでは足りなくなった	
  
n  CPU	
  overcommit	
  (デフォルトは16:1)	
  
–  1.2:1	
  
–  2:1	
  
–  4:1	
  
–  16:1(ramのほうが先に限界がきて実際は3.5:1程度)	
  
n  Memory	
  overcommit	
  
–  10%は良くない場合も	
  
•  OOM	
  killerが目覚める!真っ先にVMをkill	
  
•  RAM	
  Hardwareの問題でOOM	
  killerが走ることも	
  
•  VMマイグレーションが失敗する	
  
–  15%で問題なしのところも	
  
22
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
n  ローカルストレージ	
  
–  メモリーのオーバーコミットにSSD使用	
  
–  キャッシュにZoL	
  
–  bcache	
  
n VM	
  Swappinessは頻度をすくなるするかoffに	
  
n ひとつのHVでホストするVMの数はだいたい20-­‐25	
  
n HV一つに割り当てるRAM	
  
–  2-­‐8G	
  
–  テナントに合計いくつ、とかで割り当てる場合も	
  
n ライブマイグレーション	
  
–  Post-­‐copy	
  migra8on	
  :	
  10人程度が注目	
  
–  XenServerではマイグレーション中にVMがかなり遅く	
  
–  Cut	
  overの時に数秒ネットワークが途切れる	
  
Hypervisor  Tuning  5/5
23
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Logging  WG*1
²  概要	
  
•  ロギングに関する情報やベストプラクティスを共有	
  
n  LoggingはELK(elas8csearch	
  +	
  Logstash	
  +	
  Kibana)が主流	
  
–  ELK	
  stackを使ったモニタリングが現在のベストプラクティスと言われていた	
  
–  ログコレクタとしてSpark,	
  Splunk,	
  Fluentd,	
  Rsyslog,	
  Beaverの利用者も存在	
  
–  Infraチームのダッシュボードはgarafyamlを使ってGrafanaに出力してる	
  
n  Opsのツールに関するレポジトリの紹介	
  
–  OSOps:hUps://github.com/osops/	
  
–  Infraチーム:hUp://git.openstack.org/cgit/openstack-­‐infra	
  
–  RackspaceはOSAD(OpenStack	
  Ansible	
  Deployment)にコントリビュート	
  
n  Metricsはstatsd,	
  collectdとダッシュボードを組み合わせている	
  
n  Oslo.logのバグ紹介	
  
n  Blueprintについての議論	
  
–  return-­‐request-­‐id	
  for	
  API	
  calls	
  
•  リクエストを追いかける際に役立つが、考慮しなければいけないケースがあるので、
Blueprintで引き続き議論を行う	
  
–  Error	
  Code	
  Spec	
  
•  エラー原因の特定に効果的ではあるが導入が非常に難しいとの声が多数	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging	
24
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Large  Deployment  WG*1
²  概要	
  
–  大規模環境構築に関連した議論	
  
n  Mul8	
  node	
  /	
  mul8	
  region	
  
–  Ceilometerclientがregion-­‐nameを無視(
hUps://bugs.launchpad.net/python-­‐ceilometerclient/+bug/1439553)	
  
–  Horizon,	
  keystone,	
  swiRはregion共通	
  
–  Nova,neutron,glance,cinder,etc..はregion毎に	
  
n  共通の定義が必要	
  regions/availability	
  zones/cells/etc.	
  
–  hUps://wiki.openstack.org/wiki/OpenStackTaxonomy	
  
n  Cells	
  
–  インターフェイスと外部イベントのアタッチ/デタッチをサポートする
review(hUps://review.openstack.org/#/c/215459/)	
  
–  Compatは異なるバージョンのcellの動作をサポート	
  
•  公式ではサポートしていないが、Icehouse	
  (API)	
  <-­‐>	
  Juno	
  (Compute)が動く	
  
•  Kill(api)	
  <-­‐>	
  juno(compute)はバグで動かない	
  
n  Novaclientはpaginateに未対応、vmが一定数を超えたらnova	
  listに表示さ
れない	
  
–  Neutronも同じ	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging	
25
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Upgrades  WG*1
² 概要	
  
–  OpenStackのバージョンアップに関するWG	
  
–  Moderator:	
  Will	
  Auld(intel),	
  Clayton	
  O'Neill(TWC)	
  
–  参加者:	
  約15人	
  
n  Linux	
  bridgeはneutronダウン時も動くが、OVSは動かない	
  
n  使用バージョン	
  
•  Juno:	
  5,	
  kilo:3,	
  それ以前:2	
  	
  
n  多くの人は同じアプローチでupgradeを行っている	
  
–  ツールはそれぞれで作成	
  
n  不要なconfigファイルを探すツールが欲しい	
  
n  Rabbitの変更がkiloへのアップグレードの主な理由	
  
n  Kollaやコンテナがupgradeを簡単にしてくれないか興味津々	
  
n  Lazy	
  DB	
  マイグレーションやリリース間のRPCについても議論	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐upgrades	
26
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Ops-‐‑‒guide-‐‑‒fixing  WG*1
² 概要	
  
–  Ops	
  Guide(hUp://docs.openstack.org/ops/)	
  の修正	
  
–  Moderators:	
  JJ,	
  Joe	
  Topjian	
  
–  参加者:	
  約10	
  
n Ops	
  GuideをRSTに変換中(Mitakaリリースまでには終わ
る…?)	
  
•  Guideが古いので、みんなで修正しよう!	
  
n ニュートロンのトラブルシューティングガイドが紹介	
  
–  hUp://docs.openstack.org/openstack-­‐ops/content/
network_troubleshoo8ng.html	
  
–  hUp://docs.openstack.org/kilo/install-­‐guide/install/apt/
content/figures/1/a/common/figures/installguidearch-­‐
neutron-­‐networks.png	
  
	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐ops-­‐guide-­‐fixing	
27
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Using  Containers  for  Deployment*1
²  概要	
  
–  コンテナを使ったデプロイに関するアイディアやベストプラクティスの共有	
  
n  約25人がコンテナを使用	
  
–  baremetal	
  :24人	
  
–  vms	
  :	
  16人	
  
n  使用ツール	
  
–  LXC:	
  15,	
  Docker:	
  10,	
  Mesos	
  :	
  0,	
  k8s:	
  0	
  
n  管理ツール	
  
–  Juju,	
  vagrant,	
  OSAD	
  
n  設定ファイル	
  
–  コンテナの数だけ設定ファイルが必要	
  
–  Bind	
  mountで/etcにある	
  
–  Vmより管理が簡単	
  
n  Iscsiに問題あり	
  
–  Rackspaceはbaremetalで	
  
–  Kollaだと正常に動く	
  
n  コンテナのメモリサイズがホストのメモリサイズと同じ	
  
–  rabbitMQがホストのメモリサイズを使ってメモリ確保をしてしまう	
  
–  rabbitMQの設定で制限する必要あり	
  
n  Magnumを使っている人はまだいない	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐containers-­‐for-­‐deployment	
  
28
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Lightning  Talks
1.  Ryan	
  Moats,	
  IBM,	
  instrumen8on	
  of	
  neutron,
hUps://etherpad.openstack.org/p/neutron-­‐instrumenta8on	
  
2.  Steve	
  Pearson,	
  CMDBの紹介	
  
3.  Clayton	
  O’Neill,	
  Time	
  Warner	
  Cable,	
  kilo	
  upgradeのissue,	
  
hUps://docs.google.com/presenta8on/d/
1y7xfol4IyoM4irvSapF2rXkxijzSOyjHohMBTIWiBB4/edit?usp=sharing	
  
4.  市川 俊一,	
  NTT	
  SIC,	
  ユースケースとVMHAプロジェクト(MASAKARI)の紹介,	
  
hUp://www.slideshare.net/toshikazu_org/openstack-­‐ops-­‐meetup-­‐palo-­‐alto-­‐lt	
  
5.  室井 雅仁,	
  NTT	
  SIC,	
  Matchaの紹介	
  
6.  MaUhew	
  Thode,	
  Gentoo,	
  OpenStackにおけるgenUo	
  package	
  
7.  Tim	
  Cuddy,	
  HP,	
  データアグリゲーション,	
  
hUps://www.youtube.com/watch?
v=EWqRMyCptDo&list=PL2rC-­‐8e38bUURV8gCzH7NvBY0hj1FoFFe&index=54	
  
8.  Piet	
  Kruithof,	
  PTL	
  OpenStack	
  UX,	
  UX	
  Projectの紹介,	
  
hUps://docs.google.com/presenta8on/d/1FbTQI-­‐FfEkj-­‐9x2tRpt11Sef1-­‐E-­‐
HUfv3_0CywKnfxg/edit?usp=sharing	
  
9.  JJ	
  Asghar,	
  Chefの人,	
  chefを動かす話	
  
10.  James	
  Blair,	
  Shadeというシンプルなopenstackクライアントのライブラリ,	
  
hUp://docs.openstack.org/infra/shade/	
  
11.  John	
  Dickinson,	
  プロジェクトのコントリビュートの様子を可視化,	
  hUps://
github.com/notmyname/git-­‐stats	
  
29
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
OpenStack	
  
Ops	
  Mid-­‐Cycle	
  Meetup@PAO	
  
2日目	
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
30
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
スケジュール(2⽇日⽬目)*1
8/19	
  Wed	
 Med	
  II	
 Med	
  III	
 Salon	
  A	
 Bacchus	
9:00	
  -­‐	
  09:45	
 CMDB:	
  use	
  cases	
9:45	
  -­‐	
  10:30	
 Deployment	
  Tips	
10:30	
  -­‐	
  11:15	
 What	
  network	
  model	
  are	
  you	
  using?	
  
Are	
  you	
  happy?	
11:15	
  -­‐	
  11:30	
 Coffee	
11:30	
  -­‐	
  12:15	
 User	
  CommiUee	
  Discussion	
12:15	
  -­‐	
  12:20	
 Breakout	
  Explain	
12:20	
  -­‐	
  13:30	
 Lunch	
13:30	
  -­‐	
  15:00	
 Tools	
  and	
  Monitoring	
 Product	
  WG	
 Packaging	
 Ops	
  Tags	
  Team	
15:00	
  -­‐	
  15:30	
 Coffee	
15:30	
  -­‐	
  16:00	
 Breakout	
  Reports	
16:00	
  -­‐	
  17:00	
 Feedback	
  Session,	
  Tokyo	
  Planning	
*1:hUps://goo.gl/qOQfFs	
31
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
CMDB*1  1/2
n  背景:	
  
バンクーバーのOpsサミットでHPとeBayがCMDBに関する最初のBlueprintの取り組みを開始	
  
n  会場内のアンケートでは自前のCMDBを使っているユーザは10名程度	
n  何の目的でCMDBを使っているのか	
–  既存環境の関係性の記録(server,	
  cloud,	
  networks,	
  topology,	
  security	
  zone.	
  etc)	
–  構成情報の管理	
–  レポート(キャパシティプランニング、設定が一致しているか、部門への投資)の作成	
–  OpenStackクラスタ構築・復旧・スケールアウトの自動化のため	
–  監査対応・歴史の管理(ホストOSを入れなおしなどを行った場合に監査対応で過去のホスト
名が必要になったりするため、過去のホスト名なども追いたい)	
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐cmdb	
32
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
CMDB  2/2
n  実装のアイデア	
  
–  RDF(Resource	
  Descrip8on	
  Framework)での実装(REST	
  APIや専用のクエリの実装がすで
に存在してる	
  
n  今回の成果	
  
–  実装の参考となるベストプラクティスの収集	
  
–  実装方法のアイデア	
  
•  既存ソフトウェアを使う方法と	
  
•  新しいPJを立ち上げるための議論	
  
–  CMDBを実装するにあたり既存のPJに与える影響の影響	
  
•  Ironicはすでに同様の機能を持っており、追加機能も開発中	
  
n  FeedBackではGeneralセッションじゃなくてよかったのではという声が多数	
  
33
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Deployment  Tips*1  1/5
n Database	
  Setup	
  
•  Galera/replica8onが半数(他MySQL?)	
  
•  GaleraをDC跨ぎで使っているのは3名	
  
–  Arbitratorを使ってSplit	
  brain対策をしている	
  
–  パフォーマンスはDC間のラインに依存	
  
»  300kmを10g接続でKeystoneオンリーなら問題なし	
  
•  Galeraに入れてるデータ	
  
–  Keystone	
  
–  Designate	
  
–  Horizonのセッションデータ	
  
–  Glance(NovaとCinderはリージョンごとに構築)	
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐deployment-­‐8ps	
  
34
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Deployment  Tips  2/5
n Deployment	
  tools	
  
•  Ansible	
  /	
  juju	
  /	
  chef/	
  cfengine	
  /	
  puppet	
  /	
  bcfg2	
  
•  Ansibleオンリーは数名でAnsible	
  +	
  別ツールが多い	
  
•  Puppet、Chefともにコミュニティへの参加を募っている	
  
n RabbitMQ	
  
•  サイレント故障が起きたりする	
  
•  LB経由のアクセスはやめた方がいい?	
  
•  大丈夫派	
  
–  Kiloだと直ってるっぽいがそれ以外はおすすめしない	
  
–  OpenStack以外のサービスで使っているが問題なく動いている	
  
•  問題あり派	
  
–  Kiloでも問題は直ってないと思っているが確認はしていない	
  
–  library(Konbu)が原因みたいだがbugではなく仕様の可能性がある	
  
–  rabbitのmul8-­‐nodeを使っているがhaproxyは使わずにnova.confでrabbit	
  
hostを直接設定してる	
  
35
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Deployment  Tips  3/5
n  OVS?	
  LinuxBridge	
  
•  OVSの代わりにLinux	
  bridgeを使ってるとの意見が多数	
  
•  理由	
–  OVSのデバッグが難しい/OVSが複雑	
–  Linux	
  Bridgeに対して以前の経験や知見があるから	
–  “first	
  class	
  ci8zen	
  in	
  linux	
  network	
  stack”	
–  OVSのupstreamのリリースがLinux	
  kernelのリリースとラグがある	
–  OVSのクラッシュでFlowsが消えて、Compute	
  Nodeの再起動が必要になった	
•  Libertyに向けてOVSやテナントNWのように動くシンプルなLinux	
  
Bridgeの使い方のガイドを計画中	
–  OVSからのマイグレーション方法を含めてドキュメントが足りてないので充実
させる予定	
•  ARP	
  spoofing	
  protec8on	
  for	
  Linux	
  Bridge	
  agent	
–  hUps://review.openstack.org/#/c/209705/	
–  使っているOVSのバージョン 	
•  2.3.0,	
  2.0.*は問題ない	
  
•  2.1.xは問題があるので今すぐUpgradeしたほうがいい 	
36
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Deployment  Tips  4/5
n  Package	
  
•  ソースコードから直接構築 	
•  pipかOSごとに用意されているパッケージ 	
•  giRwrap/anvil/Omnibus	
  	
  
	
  
n  Load	
  Balancer	
  
•  haproxyが50%(便利、稼働中、コストが安く済む) 	
•  HW製品が50%() 	
•  負荷分散目的 12名 	
•  HAを利用してる 13名 	
  
•  Pacemaker/Corosync	
  keepalived	
  	
  
•  VIPで運用しているとX-­‐Forwarded-­‐Forに対応していないサービ
ス	
  
(e.g	
  Heat)がうまく動かなかったりする問題がある	
•  SSL	
  offloadを使うとjuno以降のclientが失敗する	
37
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Deployment  Tips  5/5
n  Object	
  Storage	
  
•  SwiRはOpenStackのデプロイの中で最も安定している +2	
  
•  SwiR-­‐proxyへのアクセス方法を複数設けている	
  
•  開発者管理のクラウドからのアクセス	
  
•  Apacheのmod_proxy経由(ユーザ用)	
  
•  エンドポイントへの直接アクセス(Cloud内部からのアクセス限定)	
  
•  新しいサイトをSwiR	
  global	
  clusterに追加するときは、初回はfull	
  weightになるまで追加しては
いけない	
  
•  swfit-­‐proxyのためにPublic	
  VIPを分けている(Junoで実現?)	
  
•  Time	
  werner	
  cableではIcehouseから問題なく動いている	
  
•  havanaから動いていたがjunoで壊れたという意見も	
  
–  今のところ原因不明で調査中とのこと	
  
•  利用しているClient	
  
•  apiを直接	
  /	
  python-­‐swiRclient	
  /	
  openstack-­‐client	
  /	
  pkgcloud	
  
n  その他	
  
•  人気のTipsについてはOperators	
  docに記載をする予定	
  
•  nginxとmod_wsgiのドキュメントがイケてない	
  
•  Admin用のAPIサーバやRead	
  only	
  APIサーバ	
  
•  CERNではCeilometer用にRead	
  onlyサーバを建てている	
  
38
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
User  Committee  Discussion*1  1/2
n  現在のUser	
  Surveyについてどう思うか	
  
•  生データがないのでよくわからない	
  
•  統計データがほしい(e.g.	
  KVMを使ってる割合)	
  
•  長くて退屈なアンケートはやめるべき	
  
•  hUps://www.openstack.org/user-­‐survey/AboutYou	
  
n  デプロイに関する情報をどう共有するか	
  
•  会社ごとにユーザグループを作りAdminを決める	
  
•  CTL(“Company	
  team	
  lead”)?	
  
•  各社のクラウドについて話す際はCTLが起点になる	
  
•  ATCのように問題解決に協力することが期待される	
  
•  nova.confをmd5付きで公開する	
  
n  Ceph-­‐brag	
  style	
  tool	
  
•  Refstack(	
  hUp://refstack.net)	
  	
  
•  DefCoreのmid-­‐cycleでRefStackの実行結果のリンクが公開できるか話
し合われたことがある	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐user-­‐commiUtee	
39
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
User  Committee  Discussion  2/2
n  Product	
  WG/feedback	
  loop	
  
–  WGにどのように働いて欲しいか?	
  
•  REF-­‐bugスタイルの機能要求	
  
–  hUps://github.com/openstack/openstack-­‐user-­‐stories/blob/master/user-­‐story-­‐
template.rst	
  
•  Ops	
  meetupの際に情報を提供してもらいたい	
  
n  Tags	
  Team	
  
–  プロジェクトのページに何を載せるべきか	
  
•  テストの総計とその結果	
  
•  adop8on	
  vs	
  maturity	
  
n  コミュニティ内のOpsの認知度向上について	
  
–  Superuser	
  awardみたいにSuperops	
  awardを作る?	
  
–  ATCのような仕組みを作る?(CTLのような)	
  
•  ATCになるにあたりCommit以外の方法があってもよいのでは?	
  
•  DocsのBugやChefやPuppetみたいなところにコントリビュートする方法もある	
  
–  Opsを示すTシャツ、ステッカー、バッグを作る	
40
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  and  Monitoring*1  1/7
n Capacity	
  planning	
  tool	
  
–  Schedule	
  simulatorを利用	
  
•  異なるVMサイズやオーダー、フレバーで実行可能	
  
•  キャパシティに何が起きるかをシミュレート可能	
  
n Rolling	
  reboot	
  /	
  Live	
  migra8on	
  /	
  defrag	
  
–  QEUMの脆弱性対策はglibcとqeumへのパッチ	
  
•  テナントへの通知は行う	
  
•  コントロールプレーン上のサービスはリブートするが、	
  
データプレーンはテナントのハンドリングに任せている	
  
–  Live	
  migra8onは運用上必須	
  
–  CVEはHypervisorのUpgradeに使ってる	
  
–  KspliceはKernel	
  upgrade時にもrebootしなくてよい	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐tools-­‐mon	
  
41
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  2/7
n Network	
  monitoring	
  tool	
  
–  Network	
  node	
  manager	
  (NNM)	
  
–  OpenStack標準の機能	
  
•  モニタリングに加えてデバッグ機能が欲しいとの意見	
  
–  MonascaはNetworkingモニタの機能を幾つか持っている	
  
n Object	
  Storage	
  の監視	
  
–  Recon	
  
•  hUp://docs.openstack.org/developer/swiR/
admin_guide.html#cluster-­‐telemetry-­‐and-­‐monitoring	
  
–  CephをNagiosで見ているが割り当てができていない	
  
•  結果、ユーザ側からのモニタリングができていないと気づいた	
  
–  Ichinga,	
  MicroStrategy	
42
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  3/7
n Ops	
  Ques8ons	
  (Stackoverflow	
  for	
  OpenStack)	
  
–  ask.openstack.org	
  
•  現在管理者がいないがボランティアメンバがいる	
  
•  Founda8onが主体となって管理者を雇ってもらいたい	
  
•  情報が足りなかったり古い回答が来るとの意見も	
  
–  リポジトリベースのナレッジ(Wiki等)を拡充させる	
  
–  Ops	
  MLへの参加の呼びかけ	
  
–  役に立たなくなった情報をどう管理するか	
  
•  投票や回答への評価などの制度を設けてはとの意見も	
–  モチベーションとしてATCのようなサミット参加への優遇や旅費の補助な
どを検討してはどうかとの意見	
  
n Tenant	
  clean	
  up	
  /	
  evacua8on	
  tool	
  
–  ospurge	
  (hUps://github.com/stackforge/ospurge)	
  
–  Scrubber	
  (HP)	
  
43
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  4/7
n Metering	
  and	
  billing	
  
–  Talligent	
  (hUp://talligent.com/)	
  
–  CloudkiUyが将来有望?	
  
	
  (hUps://github.com/stackforge/cloudkiUy)	
  
–  Pushback,	
  chargeback,	
  showback	
  
	
  
n Valida8on	
  following	
  update	
  or	
  install	
  
–  Tempest?	
  
•  Refstackはsetup+外部からTempest動かす機能がある	
  
–  Jenkinsと自作のテストツールでAPI試験をしてる参加者も	
  
n SLA	
  
–  99.5%	
  ~	
  99.95%ぐらいの可用性が求められている	
  
44
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  5/7
n Workflows	
  
–  Mistral	
  (hUps://wiki.openstack.org/wiki/Mistral)	
  
–  Reparo	
  
•  タスクフローベースで壊れたマシンのHWの修復を自動化する	
  
n Repository	
  for	
  ops	
  tools	
  in	
  github	
  
–  hUps://github.com/osops	
  
n Backup	
  
–  Truku	
  (
hUps://insights.ubuntu.com/2015/08/04/introducing-­‐
turku-­‐cloud-­‐friendly-­‐backups-­‐for-­‐your-­‐infrastructure/)	
  
–  Freezer	
  (hUps://github.com/stackforge/freezer)	
  
45
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  6/7
n Log	
  &	
  Event	
  aggrega8on	
  
–  Monasca	
  
•  hUps://wiki.openstack.org/wiki/Monasca/Logging	
  
•  hUps://wiki.openstack.org/wiki/Monasca/Events	
  
–  Elas8csearch	
  &	
  Kibana	
  
•  Kiabanaではイベントが起きる前に検知ができない	
  
–  	
  Incident.MOOGを使ってるとの意見も	
  
•  hUp://pages.moogsoR.com/06-­‐03-­‐15-­‐Webinar-­‐OpenStack-­‐
Cloud-­‐on-­‐demand.html	
  
n What’s	
  your	
  “Cloud	
  watch”	
  alterna8ve	
  for	
  
OpenStack	
  
–  Ichinga,	
  Monasca,	
  Nagios	
  
46
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Tools  &  Monitoring  7/7
n  Scale/	
  load	
  tes8ng	
  
–  Rally	
  
n  Anybody	
  doing	
  API	
  throUling	
  /	
  user	
  limits?	
  
–  Apigee	
  (hUps://apigee.com/about/)	
  
–  Repose	
  (hUp://www.openrepose.org/)	
  
n  Anomaly	
  detec8on	
  
–  Skyline	
  (hUps://github.com/etsy/skyline)	
  
n  Ops	
  Tools	
  &	
  MonitoringのIRC	
  Mee8ngはWed	
  at	
  10:00	
  AM	
  
–  日本時間で木曜	
  0:00	
  
–  参加者が少ないので時間調整中	
47
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Prodoct  WG*1  1/2
n  User	
  Story	
  
–  hUps://drive.google.com/drive/u/0/folders/
0BxtM4AiszlEyfm9UTW5LMEQ5cUhHbmFsSkd5WFNfdTMwVFI
wRUM1TVFXSHhhWHl6VHlpRzg	
  
n  Rolling	
  upgradeの状況	
  
–  hUps://docs.google.com/spreadsheets/d/
1iT0XraW8ORGk2•1bJMigE6wWdKK6YgrNB4ishPOc1M/
edit#gid=1668081475	
  
–  RPC互換のTracker/Planning追加が必要	
  
n  Cross-­‐projectのmeta-­‐dataを置く場所が必要	
  
–  Grafi‚をGlanceの外に出す提案が必要	
  
–  やるときはOsloのPTLやCPLたちにフォローアップしてもらうとよ
い	
  
*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐product-­‐wg	
48
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Product  WG  2/2
n Versioned	
  object	
  
–  CinderはLibertyでできそうだが、Oslo	
  library側がMitakaに
なりそう	
  
n Encrypted	
  Storage	
  
–  Data	
  Security	
  Standard(DSS)のためにcinderの機能や暗号
化を矯正させるためにgalnceのイメージのメタデータ、
novaのenforcementの仕組みを入れることに取り組んで
いる	
  
	
  
n User	
  Storyのtemplateがある	
  
–  hUp://github.com/openstack/openstack-­‐user-­‐stories	
  
–  上記の配下に分類もつくろうとしている	
49
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Feedback  Session,  Tokyo  Planning*1  1/2
n 改善点	
  
– 建設的な会議にするための改善案	
  
•  OpsやDevでもないヒトを呼ばないためにはどうする?	
  
–  呼ばない(Ops	
  Mid-­‐cycle	
  Working	
  Sessionの開催?)	
  
–  UnconferenceやOpenSpacesを行う	
  
– セッションの重複をなくす	
  
– 日程をもっと早く決めて周知する	
  
– 開催場所を北アメリカ以外でも検討する	
  
– モデレータのタスクの改善	
  
•  議論の中で出たアクションやワークを明記する	
  
•  情報共有の際には重要なポイントに絞って報告する	
  
	
  *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐feedback	
  
50
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
参考:Unconferenceとは
n  Unconference(OpenSpace	
  Conference)	
  
–  参加者主導のミーティング	
  
–  従来のConferenceで行われていた参加料やスポンサープレゼ
ン、トップダウンで決められた内容を避ける目的がある	
  
–  会議のはじめに参加者でアジェンダを作成する	
  
–  1人のスピーカーがしゃべるよりもオープンディスカッションをメ
インに進める	
  
–  高度な知識や経験を持った参加者を加えるとよりよい議論にな
る	
  
n  参考:	
  
–  hUps://en.wikipedia.org/wiki/Unconference	
  
–  hUp://blogs.itmedia.co.jp/zenkishimoto/2009/10/
unconference-­‐c0.html	
  
51
Copyright	
  ©	
  NTT	
  Communica8ons	
  Corpora8on.	
  All	
  right	
  reserved.	
Feedback  Session,  Tokyo  Planning  2/2
n 次回に向けて	
  
– War	
  stories	
  
•  〜20分プレゼン +	
  Breakoutのディスカッション	
  
– Lightning	
  Talk	
  を2日する	
  
– 最初のセッションをで話す内容をみんなで選ぶ	
  
•  今回の最初にBurning	
  issuesはよかったとの意見も	
  
•  話した内容をスケジュールにFBする	
  
– 聞きたいセッション	
  
•  ベストプラクティス、Large	
  deployment,	
  Networking	
  
•  Upgrade,	
  CMDB,	
  Hypervisor,	
  Infra	
  Container,	
  Logging,	
  
etc…	
  
52

More Related Content

OpenStack Ops Mid-cycle Meetup 参加報告

  • 1. 2015年8月   NTTコミュニケーションズ   技術開発部 OpenStack   Ops  Mid-­‐Cycle  Meetup@PAO   参加報告 Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.
  • 2. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Ops  Meetupとは? n  OpenStack  Operators  Meetup(通称:Ops  Meetup)   クラウドの運用者が集まるイベントであり、運用者(Ops)同士のベ ストプラクティスやアイデアの意見交換、運用者の視点から開発者 へのフィードバックを行う   n  次の3つを目的としてディスカッションやプレゼンテーション 形式で話し合いが行われる   1.  OpenStackの運用中に発生した問題へのフィードバックの収集と、コ ミュニティへの共有   2.  運用者たちがベストプラクティスやアーキテクチャについてお互いに情 報交換が出来る体制を作る   3.  クラウド運用者からの建設的/積極的な関わりあいを増やす   n  開催時期   •  OpenStack  SummitのDesign  summit開催中の数日   •  SummitとSummitの間(Mid-­‐cycle)で数日   Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. 1
  • 3. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. 今回のイベント概要 n  イベント名:OpenStack  Ops  Mid-­‐Cycle  Meetup   n  日時:2015年8月18日、19日 n  場所:米国:パロアルト(HP,  GoDaddyがスポンサー)   n  主催:OpenStack  Founda8on n  参加者:2日で195名(登録は305名)   n  参加者の多くは西海岸とオースティン   n  ヨーロッパから数名とアジアからはNTTグループの5名   n  構成はOps、PTL6〜7名(Keystone,  SwiR,  Cinder,  etc)、ATC二十数名(Coreが 数名)   n  参加目的:OpenStackを活用している企業の運用者が集ま り、各社の運用方法の情報共有やOpenStackの開発者に フィードバックを提言していく会議体であり、今後のクラウド 運用のノウハウや情報を収集するため   n  備考:議事録はEtherpad*1で公開中 *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐meetup 2
  • 4. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. ⾃自⼰己紹介 •  三井貴之(みついたかゆき)   •  H27年NTT  COM入社   •  技術開発部 クラウドコア  OpenStackチーム   •  学生時代にアルバイトやフリーランスでソフト ウェア開発を経験   •  趣味   – ゴルフ   – 海外ドラマ   3
  • 5. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. ⾃自⼰己紹介 u 氏名:   •  小倉真人  (おぐらまひと,  Mahito  OGURA)   u 所属:   •  NTTコミュニケーションズ 技術開発部   •  OpenStackの調査  /  開発  /  人材育成に従事   u 経歴:   •  2009  –  2010:NTTコムウェア入社、Eucalyptusの検証   •  2010  –  2012:仮想化基盤(KVM)の監視  /  デプロイ                  効率化の検証   •  2012  –  2013:Cassandra,  HBase,  MongoDBの検証   •  2013  –  2014:Hadoop基盤の自動構築検証   •  2014  –  現在:10月に人事異動で現職へ   4
  • 6. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. OpenStack   Ops  Mid-­‐Cycle  Meetup@PAO   1日目 Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. 5
  • 7. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. スケジュール(1⽇日⽬目)*1 8/18  Tue Med  II Med  III Salon  A Salon  B Bacchus 9:00  -­‐  10:00 Registra8on 10:00  -­‐  10:30 Introduc8on 10:30  -­‐  11:15 Burning  Issues 11:15  -­‐  11:55 Hypervisor  Tuning 11:55  -­‐  12:05 Breakout  Explain 12:05  -­‐  13:30 Lunch 13:30  -­‐  15:00 Large     Deployments  Team   Burning   Issues Logging   WG Upgrades   WG Ops  Guide   Fixing 15:00  -­‐  15:30 Coffee 15:30  -­‐  16:00 Breakout  Reports 16:00  -­‐  17:00 Using  Containers  for    Deployment 17:00  -­‐  18:00 Lightning  Talks *1:hUps://goo.gl/qOQfFs 6
  • 8. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  *1 ² 概要   –  運用経験から得られた修正すべき点などを共有・議論   –  Moderator:  Ulf   n 内容   –  Neutron   –  キャパシティマネジメント   –  Ceilometer   –  RabbitMQ   –  KeyStone   –  SOC  コンプライアンス   –  トラブルシューティング   –  テスト   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐burning-­‐issues 7
  • 9. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  Neutron     n バグの報告   –  Kiloのdhcp  agentの問題で、テナントがfipをロスト   –  L2,L3  agentを再起動すると、すべてのテナントのルータと コンピュートノードがフラッシュされる   •  Kiloにはパッチなし。Libertyは修正予定   –  HA  routerのL2  popula8onにバグあり   n トラブルシューティングが困難   –  ドキュメント不足     –  いい解析ツールがない(今はtcpdump)   n ネットワークモデルのアンケート   –  Linux  bridge  半数   –  Open  vswitch 半数   –  Contrail 少数 8
  • 10. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  キャパシティマネジメント   n Quotas   – ドメインごとに定義   – グローバルで定義   – Flavor/azで定義   – Novaのroot  diskと一時ディスクにも欲しい   •  Vcpuとvmemoryにはある   •  Blueprint,  hUps://blueprints.launchpad.net/nova/ +spec/root-­‐and-­‐ephemeral-­‐disk-­‐quota)   – Neutron  networkのport数   n EbayではアセットをCMDBで管理   9
  • 11. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  Ceilometer  1/2   n ユーザ関心   –  使ってみたい:  一人   –  諦めた  :  数人   –  関心なし:  一人   –  grep  :  数人   n ユースケース   –  監査証跡   –  メータリング   –  チャージバック/ショーバック   •  VerisignはkibanaとElas8csearchを使ってチャージバックを構築し始め た   •  eBayは別の方法ですでに実現している   10
  • 12. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. n 主なgapや問題点   –  Mongo   •  Influxdbや他のプロプライエタリDBに切り替えている人も存在   –  パフォーマンス   –  安定性   –  機能の理解に時間がかかる   •  フルタイムエンジニアが7ヶ月   n スケール   –  135コンピュート  :  1Ceilometer   –  Azごとに1000まで  (プロプライエタリDB使用)   Burning  Issues  Ceilometer  2/2   11
  • 13. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  RabbitMQ  1/2 n Rabbit  teamによるinstall/configガイドが発表   –  Vancouverで告知   –  OpenStackに特化したドキュメントをrabbitmq.comに載せ ることを計画中   •  故障や分割時からの復旧   •  動作中のクラスタでupgradeを行った時の影響     n Rabbitの開発はgithubに移行   n Kiloでもnova-­‐computeでrabbit再起動にいくつかの問 題が見られる   n heartbeatはoslo  messagingにあってバックポート可能   n Junoと最新のoslo.messagingは動作良好   n LBを使う/わないのメリット・デメリットをOpsで議論した い   12
  • 14. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  RabbitMQ  2/2  今後の予定 n 3.6.0リリース   – 2015年10  or  11月   – オペレーション改善にフォーカス   – クラスタのプロビジョニングが容易に   •  2タイプのプラグインが存在   •  Chef/puppet/その他のモジュールをサポート   – オペレーション指向のコマンドがrabbitmqctlに   n 3.7.0リリース     – 2016年4  or  5月   – Pluggable  logging  バックエンド   – Pluggable  クラスタリングメカニズム   13
  • 15. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  Keystone  1/2 n  主に権限について議論   –  VMがどのHVにいるのかはadminのみが知る   •  仕様   –  AdminAはフルアクセスできるが、AdminBはそうではないネットワークが 欲しい   –  ホワイトリストのユーザだけがCRUD可能   –  A,Cユーザはフルアクセスできるが、BユーザはRead  Only   –  VMに特定の権限   •  別テナントのswiRコンテナにアクセス可能   –  Adminは何でもできる   •  様々な独自roleやポリシーを使って運用しているところもある   •  Admin+extraの権限を提案。E.g.  プロジェクトの削除にはAdmin+deleteの権限が 必要   •  ロールのアサインを制御できるadmin-­‐nessな権限   •  V3では粒度の細かいコントロールをサポート   –  特定のロールにread-­‐onlyアクセスを許可する等   –  Novaのpolicy.jsonで、別テナントへのアクセス可能に関する設定が無視   •  Libertyでは修正済み   –  Libertyのkeystoneでは試験的に中央集権されたポリシーを持つ   14
  • 16. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  Keystone  2/2 n スケーリング   – 並列に多くの認証リクエストが来た時に認証時間が 長くなる   •  400の同時リクエスト時にはレスポンスに14秒かかる   •  トークンの認証が遅ければすべてのサービスが遅くなる   •  トークンの破棄についても議論していきたい   15
  • 17. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  SOC  /  コンプライアンス n アクセス/ログイベント   –  だれがいつ作ったかを知りたい   –  CADF(Cloud  Audi8ng  Data  Federa8on)   •  顧客が監査機能を維持できるようにするために、クラウドプロ バイダーが提供する標準化された監査データ   •  データを格納するバックエンドが必要   –  Logstash(ELK)   –  Ceilometer   n ユーザ認証に連続で失敗した場合にロックアウトし たい   –  SQLドライバー以外を使えばできる(LDAP、IPA、AD)   –  Keystoneチームにウイスキーを与えれば…   n Audit  keystonemiddlewawre   –  開発は終了   16
  • 18. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  トラブルシューティング n  以下のトラブルシューティングが困難   –  “OpenStackが遅い”   •  どうやってパフォーマンスの解析や問題点を発見するか   –  Datadog(cloud  monitoring  as  a  service)   –  Icinga(Open  Source  Enterprise  Monitoring)はこの用途には使えなかった   –  “VMが作れない”   –  ロードバランサ   –  DNS解決   –  UDPとマルチキャスト   –  “no  valid  host  found”   n  中央でログ収集   –  Fuel-­‐plugin-­‐ima-­‐collector   –  ELK   n  Correla8on  engine   –  既知のイベントに関しては自動的にトラブルシューティング   17
  • 19. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Burning  Issues  testing/validation n APIテスト、interoperabilityテスト   – RefStack   n パフォーマンステスト   – Rally   n HAテスト   – Cloud99   18
  • 20. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Hypervisor  Tuning*1  1/5 ²  概要   –  ハイパーバイザーのチューニングに関するベストプラクティスの共有・議 論   –  Moderators:  Joe  Topjian     n  チューニングテスト   –  DaCapoは良いツール   –  Disk  IOテスト   •  FIO   –  70/30  tes8ng  at  8k   –  レイテンシを見ている(スループットではない)   –  Ansibleを使って複数VMで同時に実行   •  Iometer   –  シングル/クラスタ用のIO計測ツール   –  共通のテスト環境のリセット方法が欲しい   •  キャッシュなどが再テストを邪魔する   –  CBTOOL  (hUps://github.com/ibmcb/cbtool)   –  PHORONIX  TEST  SUITE  (hUp://www.phoronix-­‐test-­‐suite.com/)   –  PerfKitBenchmarker  (hUps://github.com/GoogleCloudPlarorm/ PerfKitBenchmarker)   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐hypervisor-­‐tuning   19
  • 21. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Hypervisor  Tuning  2/5   n  どのカーネルスケジューラを使っているか   –  Deadline   –  Noopはホストスケジューラと競合しない   n  Network   –  MTU   •  1550   •  8000  (いくつかのレガシーネットワークのため)   •  Kiloではneutronのconfigに書いたmtuが反映されない場合あり   –  プロバイダーネットのMTUをより大きな値にするといいかもしれない   –  Nic  bonding   •  LACPがデファクトスタンダード   •  再起動時、50回に1回、LACPではなくラウンドロビンとして上がってくる   n  cpu_mode   –  Passthrough   •  Upgrade時にいくつかの問題が発生   –  Apparmor  のバグ   –  レジュームできない   –  Host-­‐model   •  HVノードをスワップするときに、スワップ先のHVにCPU  extesionsがなければvmが立ち上 がらない   20
  • 22. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Hypervisor  Tuning  3/5 n  Intel  KVM  EPT   –  6%スループットが改善   –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐ high-­‐throughput.html   –  バグでホストクラッシュを起こすときもある   n  KSM   –  各コンピュートノードで20%メモリ節約   –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐ high-­‐throughput.html     –  Javaを重くする   –  0.94%スループットが改善   n  NUMA   –  より効率UP   –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/numa-­‐and-­‐cpu-­‐ pinning-­‐in-­‐high-­‐throughput.html     –  Random  numa  cell  selec8onの時すべてのnuma  cellが使われない場合が ある   •  修正済み   21
  • 23. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Hypervisor  Tuning  4/5 n  Iptablesの設定   –  conntrack_max   •  512k   •  256k  with  hash  table  size  of  16k   •  256k  with  hash  table  size  of  64k     •  Ubuntuのデフォの64kでは足りなくなった   n  CPU  overcommit  (デフォルトは16:1)   –  1.2:1   –  2:1   –  4:1   –  16:1(ramのほうが先に限界がきて実際は3.5:1程度)   n  Memory  overcommit   –  10%は良くない場合も   •  OOM  killerが目覚める!真っ先にVMをkill   •  RAM  Hardwareの問題でOOM  killerが走ることも   •  VMマイグレーションが失敗する   –  15%で問題なしのところも   22
  • 24. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. n  ローカルストレージ   –  メモリーのオーバーコミットにSSD使用   –  キャッシュにZoL   –  bcache   n VM  Swappinessは頻度をすくなるするかoffに   n ひとつのHVでホストするVMの数はだいたい20-­‐25   n HV一つに割り当てるRAM   –  2-­‐8G   –  テナントに合計いくつ、とかで割り当てる場合も   n ライブマイグレーション   –  Post-­‐copy  migra8on  :  10人程度が注目   –  XenServerではマイグレーション中にVMがかなり遅く   –  Cut  overの時に数秒ネットワークが途切れる   Hypervisor  Tuning  5/5 23
  • 25. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Logging  WG*1 ²  概要   •  ロギングに関する情報やベストプラクティスを共有   n  LoggingはELK(elas8csearch  +  Logstash  +  Kibana)が主流   –  ELK  stackを使ったモニタリングが現在のベストプラクティスと言われていた   –  ログコレクタとしてSpark,  Splunk,  Fluentd,  Rsyslog,  Beaverの利用者も存在   –  Infraチームのダッシュボードはgarafyamlを使ってGrafanaに出力してる   n  Opsのツールに関するレポジトリの紹介   –  OSOps:hUps://github.com/osops/   –  Infraチーム:hUp://git.openstack.org/cgit/openstack-­‐infra   –  RackspaceはOSAD(OpenStack  Ansible  Deployment)にコントリビュート   n  Metricsはstatsd,  collectdとダッシュボードを組み合わせている   n  Oslo.logのバグ紹介   n  Blueprintについての議論   –  return-­‐request-­‐id  for  API  calls   •  リクエストを追いかける際に役立つが、考慮しなければいけないケースがあるので、 Blueprintで引き続き議論を行う   –  Error  Code  Spec   •  エラー原因の特定に効果的ではあるが導入が非常に難しいとの声が多数   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging 24
  • 26. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Large  Deployment  WG*1 ²  概要   –  大規模環境構築に関連した議論   n  Mul8  node  /  mul8  region   –  Ceilometerclientがregion-­‐nameを無視( hUps://bugs.launchpad.net/python-­‐ceilometerclient/+bug/1439553)   –  Horizon,  keystone,  swiRはregion共通   –  Nova,neutron,glance,cinder,etc..はregion毎に   n  共通の定義が必要  regions/availability  zones/cells/etc.   –  hUps://wiki.openstack.org/wiki/OpenStackTaxonomy   n  Cells   –  インターフェイスと外部イベントのアタッチ/デタッチをサポートする review(hUps://review.openstack.org/#/c/215459/)   –  Compatは異なるバージョンのcellの動作をサポート   •  公式ではサポートしていないが、Icehouse  (API)  <-­‐>  Juno  (Compute)が動く   •  Kill(api)  <-­‐>  juno(compute)はバグで動かない   n  Novaclientはpaginateに未対応、vmが一定数を超えたらnova  listに表示さ れない   –  Neutronも同じ   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging 25
  • 27. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Upgrades  WG*1 ² 概要   –  OpenStackのバージョンアップに関するWG   –  Moderator:  Will  Auld(intel),  Clayton  O'Neill(TWC)   –  参加者:  約15人   n  Linux  bridgeはneutronダウン時も動くが、OVSは動かない   n  使用バージョン   •  Juno:  5,  kilo:3,  それ以前:2     n  多くの人は同じアプローチでupgradeを行っている   –  ツールはそれぞれで作成   n  不要なconfigファイルを探すツールが欲しい   n  Rabbitの変更がkiloへのアップグレードの主な理由   n  Kollaやコンテナがupgradeを簡単にしてくれないか興味津々   n  Lazy  DB  マイグレーションやリリース間のRPCについても議論   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐upgrades 26
  • 28. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Ops-‐‑‒guide-‐‑‒fixing  WG*1 ² 概要   –  Ops  Guide(hUp://docs.openstack.org/ops/)  の修正   –  Moderators:  JJ,  Joe  Topjian   –  参加者:  約10   n Ops  GuideをRSTに変換中(Mitakaリリースまでには終わ る…?)   •  Guideが古いので、みんなで修正しよう!   n ニュートロンのトラブルシューティングガイドが紹介   –  hUp://docs.openstack.org/openstack-­‐ops/content/ network_troubleshoo8ng.html   –  hUp://docs.openstack.org/kilo/install-­‐guide/install/apt/ content/figures/1/a/common/figures/installguidearch-­‐ neutron-­‐networks.png     *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐ops-­‐guide-­‐fixing 27
  • 29. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Using  Containers  for  Deployment*1 ²  概要   –  コンテナを使ったデプロイに関するアイディアやベストプラクティスの共有   n  約25人がコンテナを使用   –  baremetal  :24人   –  vms  :  16人   n  使用ツール   –  LXC:  15,  Docker:  10,  Mesos  :  0,  k8s:  0   n  管理ツール   –  Juju,  vagrant,  OSAD   n  設定ファイル   –  コンテナの数だけ設定ファイルが必要   –  Bind  mountで/etcにある   –  Vmより管理が簡単   n  Iscsiに問題あり   –  Rackspaceはbaremetalで   –  Kollaだと正常に動く   n  コンテナのメモリサイズがホストのメモリサイズと同じ   –  rabbitMQがホストのメモリサイズを使ってメモリ確保をしてしまう   –  rabbitMQの設定で制限する必要あり   n  Magnumを使っている人はまだいない   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐containers-­‐for-­‐deployment   28
  • 30. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Lightning  Talks 1.  Ryan  Moats,  IBM,  instrumen8on  of  neutron, hUps://etherpad.openstack.org/p/neutron-­‐instrumenta8on   2.  Steve  Pearson,  CMDBの紹介   3.  Clayton  O’Neill,  Time  Warner  Cable,  kilo  upgradeのissue,   hUps://docs.google.com/presenta8on/d/ 1y7xfol4IyoM4irvSapF2rXkxijzSOyjHohMBTIWiBB4/edit?usp=sharing   4.  市川 俊一,  NTT  SIC,  ユースケースとVMHAプロジェクト(MASAKARI)の紹介,   hUp://www.slideshare.net/toshikazu_org/openstack-­‐ops-­‐meetup-­‐palo-­‐alto-­‐lt   5.  室井 雅仁,  NTT  SIC,  Matchaの紹介   6.  MaUhew  Thode,  Gentoo,  OpenStackにおけるgenUo  package   7.  Tim  Cuddy,  HP,  データアグリゲーション,   hUps://www.youtube.com/watch? v=EWqRMyCptDo&list=PL2rC-­‐8e38bUURV8gCzH7NvBY0hj1FoFFe&index=54   8.  Piet  Kruithof,  PTL  OpenStack  UX,  UX  Projectの紹介,   hUps://docs.google.com/presenta8on/d/1FbTQI-­‐FfEkj-­‐9x2tRpt11Sef1-­‐E-­‐ HUfv3_0CywKnfxg/edit?usp=sharing   9.  JJ  Asghar,  Chefの人,  chefを動かす話   10.  James  Blair,  Shadeというシンプルなopenstackクライアントのライブラリ,   hUp://docs.openstack.org/infra/shade/   11.  John  Dickinson,  プロジェクトのコントリビュートの様子を可視化,  hUps:// github.com/notmyname/git-­‐stats   29
  • 31. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. OpenStack   Ops  Mid-­‐Cycle  Meetup@PAO   2日目 Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. 30
  • 32. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. スケジュール(2⽇日⽬目)*1 8/19  Wed Med  II Med  III Salon  A Bacchus 9:00  -­‐  09:45 CMDB:  use  cases 9:45  -­‐  10:30 Deployment  Tips 10:30  -­‐  11:15 What  network  model  are  you  using?   Are  you  happy? 11:15  -­‐  11:30 Coffee 11:30  -­‐  12:15 User  CommiUee  Discussion 12:15  -­‐  12:20 Breakout  Explain 12:20  -­‐  13:30 Lunch 13:30  -­‐  15:00 Tools  and  Monitoring Product  WG Packaging Ops  Tags  Team 15:00  -­‐  15:30 Coffee 15:30  -­‐  16:00 Breakout  Reports 16:00  -­‐  17:00 Feedback  Session,  Tokyo  Planning *1:hUps://goo.gl/qOQfFs 31
  • 33. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. CMDB*1  1/2 n  背景:   バンクーバーのOpsサミットでHPとeBayがCMDBに関する最初のBlueprintの取り組みを開始   n  会場内のアンケートでは自前のCMDBを使っているユーザは10名程度 n  何の目的でCMDBを使っているのか –  既存環境の関係性の記録(server,  cloud,  networks,  topology,  security  zone.  etc) –  構成情報の管理 –  レポート(キャパシティプランニング、設定が一致しているか、部門への投資)の作成 –  OpenStackクラスタ構築・復旧・スケールアウトの自動化のため –  監査対応・歴史の管理(ホストOSを入れなおしなどを行った場合に監査対応で過去のホスト 名が必要になったりするため、過去のホスト名なども追いたい) *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐cmdb 32
  • 34. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. CMDB  2/2 n  実装のアイデア   –  RDF(Resource  Descrip8on  Framework)での実装(REST  APIや専用のクエリの実装がすで に存在してる   n  今回の成果   –  実装の参考となるベストプラクティスの収集   –  実装方法のアイデア   •  既存ソフトウェアを使う方法と   •  新しいPJを立ち上げるための議論   –  CMDBを実装するにあたり既存のPJに与える影響の影響   •  Ironicはすでに同様の機能を持っており、追加機能も開発中   n  FeedBackではGeneralセッションじゃなくてよかったのではという声が多数   33
  • 35. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Deployment  Tips*1  1/5 n Database  Setup   •  Galera/replica8onが半数(他MySQL?)   •  GaleraをDC跨ぎで使っているのは3名   –  Arbitratorを使ってSplit  brain対策をしている   –  パフォーマンスはDC間のラインに依存   »  300kmを10g接続でKeystoneオンリーなら問題なし   •  Galeraに入れてるデータ   –  Keystone   –  Designate   –  Horizonのセッションデータ   –  Glance(NovaとCinderはリージョンごとに構築) *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐deployment-­‐8ps   34
  • 36. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Deployment  Tips  2/5 n Deployment  tools   •  Ansible  /  juju  /  chef/  cfengine  /  puppet  /  bcfg2   •  Ansibleオンリーは数名でAnsible  +  別ツールが多い   •  Puppet、Chefともにコミュニティへの参加を募っている   n RabbitMQ   •  サイレント故障が起きたりする   •  LB経由のアクセスはやめた方がいい?   •  大丈夫派   –  Kiloだと直ってるっぽいがそれ以外はおすすめしない   –  OpenStack以外のサービスで使っているが問題なく動いている   •  問題あり派   –  Kiloでも問題は直ってないと思っているが確認はしていない   –  library(Konbu)が原因みたいだがbugではなく仕様の可能性がある   –  rabbitのmul8-­‐nodeを使っているがhaproxyは使わずにnova.confでrabbit   hostを直接設定してる   35
  • 37. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Deployment  Tips  3/5 n  OVS?  LinuxBridge   •  OVSの代わりにLinux  bridgeを使ってるとの意見が多数   •  理由 –  OVSのデバッグが難しい/OVSが複雑 –  Linux  Bridgeに対して以前の経験や知見があるから –  “first  class  ci8zen  in  linux  network  stack” –  OVSのupstreamのリリースがLinux  kernelのリリースとラグがある –  OVSのクラッシュでFlowsが消えて、Compute  Nodeの再起動が必要になった •  Libertyに向けてOVSやテナントNWのように動くシンプルなLinux   Bridgeの使い方のガイドを計画中 –  OVSからのマイグレーション方法を含めてドキュメントが足りてないので充実 させる予定 •  ARP  spoofing  protec8on  for  Linux  Bridge  agent –  hUps://review.openstack.org/#/c/209705/ –  使っているOVSのバージョン •  2.3.0,  2.0.*は問題ない   •  2.1.xは問題があるので今すぐUpgradeしたほうがいい 36
  • 38. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Deployment  Tips  4/5 n  Package   •  ソースコードから直接構築 •  pipかOSごとに用意されているパッケージ •  giRwrap/anvil/Omnibus       n  Load  Balancer   •  haproxyが50%(便利、稼働中、コストが安く済む) •  HW製品が50%() •  負荷分散目的 12名 •  HAを利用してる 13名   •  Pacemaker/Corosync  keepalived     •  VIPで運用しているとX-­‐Forwarded-­‐Forに対応していないサービ ス   (e.g  Heat)がうまく動かなかったりする問題がある •  SSL  offloadを使うとjuno以降のclientが失敗する 37
  • 39. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Deployment  Tips  5/5 n  Object  Storage   •  SwiRはOpenStackのデプロイの中で最も安定している +2   •  SwiR-­‐proxyへのアクセス方法を複数設けている   •  開発者管理のクラウドからのアクセス   •  Apacheのmod_proxy経由(ユーザ用)   •  エンドポイントへの直接アクセス(Cloud内部からのアクセス限定)   •  新しいサイトをSwiR  global  clusterに追加するときは、初回はfull  weightになるまで追加しては いけない   •  swfit-­‐proxyのためにPublic  VIPを分けている(Junoで実現?)   •  Time  werner  cableではIcehouseから問題なく動いている   •  havanaから動いていたがjunoで壊れたという意見も   –  今のところ原因不明で調査中とのこと   •  利用しているClient   •  apiを直接  /  python-­‐swiRclient  /  openstack-­‐client  /  pkgcloud   n  その他   •  人気のTipsについてはOperators  docに記載をする予定   •  nginxとmod_wsgiのドキュメントがイケてない   •  Admin用のAPIサーバやRead  only  APIサーバ   •  CERNではCeilometer用にRead  onlyサーバを建てている   38
  • 40. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. User  Committee  Discussion*1  1/2 n  現在のUser  Surveyについてどう思うか   •  生データがないのでよくわからない   •  統計データがほしい(e.g.  KVMを使ってる割合)   •  長くて退屈なアンケートはやめるべき   •  hUps://www.openstack.org/user-­‐survey/AboutYou   n  デプロイに関する情報をどう共有するか   •  会社ごとにユーザグループを作りAdminを決める   •  CTL(“Company  team  lead”)?   •  各社のクラウドについて話す際はCTLが起点になる   •  ATCのように問題解決に協力することが期待される   •  nova.confをmd5付きで公開する   n  Ceph-­‐brag  style  tool   •  Refstack(  hUp://refstack.net)     •  DefCoreのmid-­‐cycleでRefStackの実行結果のリンクが公開できるか話 し合われたことがある   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐user-­‐commiUtee 39
  • 41. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. User  Committee  Discussion  2/2 n  Product  WG/feedback  loop   –  WGにどのように働いて欲しいか?   •  REF-­‐bugスタイルの機能要求   –  hUps://github.com/openstack/openstack-­‐user-­‐stories/blob/master/user-­‐story-­‐ template.rst   •  Ops  meetupの際に情報を提供してもらいたい   n  Tags  Team   –  プロジェクトのページに何を載せるべきか   •  テストの総計とその結果   •  adop8on  vs  maturity   n  コミュニティ内のOpsの認知度向上について   –  Superuser  awardみたいにSuperops  awardを作る?   –  ATCのような仕組みを作る?(CTLのような)   •  ATCになるにあたりCommit以外の方法があってもよいのでは?   •  DocsのBugやChefやPuppetみたいなところにコントリビュートする方法もある   –  Opsを示すTシャツ、ステッカー、バッグを作る 40
  • 42. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  and  Monitoring*1  1/7 n Capacity  planning  tool   –  Schedule  simulatorを利用   •  異なるVMサイズやオーダー、フレバーで実行可能   •  キャパシティに何が起きるかをシミュレート可能   n Rolling  reboot  /  Live  migra8on  /  defrag   –  QEUMの脆弱性対策はglibcとqeumへのパッチ   •  テナントへの通知は行う   •  コントロールプレーン上のサービスはリブートするが、   データプレーンはテナントのハンドリングに任せている   –  Live  migra8onは運用上必須   –  CVEはHypervisorのUpgradeに使ってる   –  KspliceはKernel  upgrade時にもrebootしなくてよい   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐tools-­‐mon   41
  • 43. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  2/7 n Network  monitoring  tool   –  Network  node  manager  (NNM)   –  OpenStack標準の機能   •  モニタリングに加えてデバッグ機能が欲しいとの意見   –  MonascaはNetworkingモニタの機能を幾つか持っている   n Object  Storage  の監視   –  Recon   •  hUp://docs.openstack.org/developer/swiR/ admin_guide.html#cluster-­‐telemetry-­‐and-­‐monitoring   –  CephをNagiosで見ているが割り当てができていない   •  結果、ユーザ側からのモニタリングができていないと気づいた   –  Ichinga,  MicroStrategy 42
  • 44. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  3/7 n Ops  Ques8ons  (Stackoverflow  for  OpenStack)   –  ask.openstack.org   •  現在管理者がいないがボランティアメンバがいる   •  Founda8onが主体となって管理者を雇ってもらいたい   •  情報が足りなかったり古い回答が来るとの意見も   –  リポジトリベースのナレッジ(Wiki等)を拡充させる   –  Ops  MLへの参加の呼びかけ   –  役に立たなくなった情報をどう管理するか   •  投票や回答への評価などの制度を設けてはとの意見も –  モチベーションとしてATCのようなサミット参加への優遇や旅費の補助な どを検討してはどうかとの意見   n Tenant  clean  up  /  evacua8on  tool   –  ospurge  (hUps://github.com/stackforge/ospurge)   –  Scrubber  (HP)   43
  • 45. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  4/7 n Metering  and  billing   –  Talligent  (hUp://talligent.com/)   –  CloudkiUyが将来有望?    (hUps://github.com/stackforge/cloudkiUy)   –  Pushback,  chargeback,  showback     n Valida8on  following  update  or  install   –  Tempest?   •  Refstackはsetup+外部からTempest動かす機能がある   –  Jenkinsと自作のテストツールでAPI試験をしてる参加者も   n SLA   –  99.5%  ~  99.95%ぐらいの可用性が求められている   44
  • 46. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  5/7 n Workflows   –  Mistral  (hUps://wiki.openstack.org/wiki/Mistral)   –  Reparo   •  タスクフローベースで壊れたマシンのHWの修復を自動化する   n Repository  for  ops  tools  in  github   –  hUps://github.com/osops   n Backup   –  Truku  ( hUps://insights.ubuntu.com/2015/08/04/introducing-­‐ turku-­‐cloud-­‐friendly-­‐backups-­‐for-­‐your-­‐infrastructure/)   –  Freezer  (hUps://github.com/stackforge/freezer)   45
  • 47. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  6/7 n Log  &  Event  aggrega8on   –  Monasca   •  hUps://wiki.openstack.org/wiki/Monasca/Logging   •  hUps://wiki.openstack.org/wiki/Monasca/Events   –  Elas8csearch  &  Kibana   •  Kiabanaではイベントが起きる前に検知ができない   –   Incident.MOOGを使ってるとの意見も   •  hUp://pages.moogsoR.com/06-­‐03-­‐15-­‐Webinar-­‐OpenStack-­‐ Cloud-­‐on-­‐demand.html   n What’s  your  “Cloud  watch”  alterna8ve  for   OpenStack   –  Ichinga,  Monasca,  Nagios   46
  • 48. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Tools  &  Monitoring  7/7 n  Scale/  load  tes8ng   –  Rally   n  Anybody  doing  API  throUling  /  user  limits?   –  Apigee  (hUps://apigee.com/about/)   –  Repose  (hUp://www.openrepose.org/)   n  Anomaly  detec8on   –  Skyline  (hUps://github.com/etsy/skyline)   n  Ops  Tools  &  MonitoringのIRC  Mee8ngはWed  at  10:00  AM   –  日本時間で木曜  0:00   –  参加者が少ないので時間調整中 47
  • 49. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Prodoct  WG*1  1/2 n  User  Story   –  hUps://drive.google.com/drive/u/0/folders/ 0BxtM4AiszlEyfm9UTW5LMEQ5cUhHbmFsSkd5WFNfdTMwVFI wRUM1TVFXSHhhWHl6VHlpRzg   n  Rolling  upgradeの状況   –  hUps://docs.google.com/spreadsheets/d/ 1iT0XraW8ORGk2•1bJMigE6wWdKK6YgrNB4ishPOc1M/ edit#gid=1668081475   –  RPC互換のTracker/Planning追加が必要   n  Cross-­‐projectのmeta-­‐dataを置く場所が必要   –  Grafi‚をGlanceの外に出す提案が必要   –  やるときはOsloのPTLやCPLたちにフォローアップしてもらうとよ い   *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐product-­‐wg 48
  • 50. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Product  WG  2/2 n Versioned  object   –  CinderはLibertyでできそうだが、Oslo  library側がMitakaに なりそう   n Encrypted  Storage   –  Data  Security  Standard(DSS)のためにcinderの機能や暗号 化を矯正させるためにgalnceのイメージのメタデータ、 novaのenforcementの仕組みを入れることに取り組んで いる     n User  Storyのtemplateがある   –  hUp://github.com/openstack/openstack-­‐user-­‐stories   –  上記の配下に分類もつくろうとしている 49
  • 51. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Feedback  Session,  Tokyo  Planning*1  1/2 n 改善点   – 建設的な会議にするための改善案   •  OpsやDevでもないヒトを呼ばないためにはどうする?   –  呼ばない(Ops  Mid-­‐cycle  Working  Sessionの開催?)   –  UnconferenceやOpenSpacesを行う   – セッションの重複をなくす   – 日程をもっと早く決めて周知する   – 開催場所を北アメリカ以外でも検討する   – モデレータのタスクの改善   •  議論の中で出たアクションやワークを明記する   •  情報共有の際には重要なポイントに絞って報告する    *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐feedback   50
  • 52. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. 参考:Unconferenceとは n  Unconference(OpenSpace  Conference)   –  参加者主導のミーティング   –  従来のConferenceで行われていた参加料やスポンサープレゼ ン、トップダウンで決められた内容を避ける目的がある   –  会議のはじめに参加者でアジェンダを作成する   –  1人のスピーカーがしゃべるよりもオープンディスカッションをメ インに進める   –  高度な知識や経験を持った参加者を加えるとよりよい議論にな る   n  参考:   –  hUps://en.wikipedia.org/wiki/Unconference   –  hUp://blogs.itmedia.co.jp/zenkishimoto/2009/10/ unconference-­‐c0.html   51
  • 53. Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved. Feedback  Session,  Tokyo  Planning  2/2 n 次回に向けて   – War  stories   •  〜20分プレゼン +  Breakoutのディスカッション   – Lightning  Talk  を2日する   – 最初のセッションをで話す内容をみんなで選ぶ   •  今回の最初にBurning  issuesはよかったとの意見も   •  話した内容をスケジュールにFBする   – 聞きたいセッション   •  ベストプラクティス、Large  deployment,  Networking   •  Upgrade,  CMDB,  Hypervisor,  Infra  Container,  Logging,   etc…   52