ノートPC1台で作るSRE体験ブース──Chaos Survival Challenge 開発記
クラウドネイティブ会議の実行委員ブース、連載第2回です。今回は体験コンテンツのChaos Survival Challengeの開発記をお届けします!
企画の概要──障害を"体験"してみよう
「SREってなに?」「可観測性って結局どういうこと?」
Chaos Survival Challengeは、Kubernetesクラスタに意図的に障害を注入し、GrafanaダッシュボードやターミナルでSREが普段やっていることを短時間で体験できるコンテンツです。
システム構成──使った技術スタック
- Chaos Mesh:Kubernetesネイティブなカオスエンジニアリングツール。CPU負荷やPodの強制停止などの障害シナリオを作成できます
- Grafana:CPUやメモリの使用率をリアルタイムに可視化します
- ttyd:ブラウザ上でkubectlやk9sなどのコマンドを実行できるターミナルを提供します
- kind:1台のPC上でKubernetes環境を丸ごと動かすためのツールです。
ダッシュボード画面
Grafanaダッシュボードとttydターミナルをiframeで並べ、1つのブラウザ画面でモニタリングもk8sの操作も完結するフロントを作成しました!初心者でもすぐにk8sを使った障害対応を経験できます!!

Grafanaのiframe埋め込み
Grafanaはデフォルトではiframeへの埋め込みが制限されています。Kioskモードと匿名閲覧を有効にすることで、ログイン不要ですぐにダッシュボード画面が見れます!
ttydのカスタマイズ
ブラウザからターミナルにアクセスできるようにttydを採用しました。参加者がすぐに調査を始められるよう、kubectl・k9s・helmなど、SREがよく使うツールをあらかじめ詰め込んだDockerイメージを用意しました。ブラウザから手を動かせる環境を目指しています。
実際に操作してみよう
Grafanaダッシュボードでシステムの状態を読む

まず画面を眺めてみてください。CPUやメモリのグラフがリアルタイムで動いています。どこかの数値が急上昇していたり、グラフが崩れていたりしませんか? それが「障害のサイン」です。
「このメトリクスが跳ね上がっているということは、何かが重くなっている」──SREが日々モニタリングで行っている最初の一歩を、ここで体験できます。グラフの読み方を知らなくても大丈夫。「普段と違う」という感覚を掴むだけで十分です!
k9sで障害Podを探す
ダッシュボードで異常を見つけたら、次はターミナルを開いてk9sを起動してみましょう。

k9sはKubernetesクラスタの状態をリアルタイムに一覧表示してくれるTUIツールです。Podの一覧を眺めると、STATUSがRunningではなくCrashLoopBackOffやErrorになっているものがあるはずです。
矢印キーで選択して d(describe)を押すと、そのPodの詳細ログが確認できます。「なぜ落ちているのか」を読み解くプロセスは、まさにSREの障害調査そのものです。
kubectlで障害を直す
原因が掴めたら、いよいよ復旧作業です。kubectlを使って障害を解消してみましょう。
たとえばPodを再起動したいときはこんなコマンドを試してみてください:
kubectl rollout restart deployment/<deployment名> -n <namespace>
コマンドを実行した直後、Grafanaのグラフがすっと落ち着いていく様子が見えれば、あなたの対応は成功です !
「コマンドを打ったらグラフが変わった」──この体感こそが、Chaos Survival Challengeで持ち帰ってほしい一番のお土産です。技術の細かい仕組みはあとからいくらでも学べます。まずは「自分の操作がシステムに影響している」というリアルな手応えを、ぜひブースで感じてみてください!
当日の遊び方
ブースに立ち寄ったら、画面に表示されているGrafanaダッシュボードを眺めてみてください。どこかのメトリクスがおかしくなっているはずです。気になったらターミナルを使って調査を開始!技術的な知識がなくても「こういうときにこのグラフが動くんだ」という体感を持ち帰ってもらえたら嬉しいです。
なお、障害シナリオは現在鋭意制作中です!どんな「カオス」が待ち受けているかは、当日のお楽しみ👀
次回の連載第3回は、AI × Grafana MCP NOCダッシュボードについてご紹介します。お楽しみに!