ノートPC1台で作るSRE体験ブース──Chaos Survival Challenge 開発記

Apr 23, 2026

クラウドネイティブ会議の実行委員ブース、連載第2回です。今回は体験コンテンツのChaos Survival Challengeの開発記をお届けします！

企画の概要──障害を"体験"してみよう

「SREってなに？」「可観測性って結局どういうこと？」

Chaos Survival Challengeは、Kubernetesクラスタに意図的に障害を注入し、GrafanaダッシュボードやターミナルでSREが普段やっていることを短時間で体験できるコンテンツです。

Grafanaダッシュボードとttydターミナルをiframeで並べ、1つのブラウザ画面でモニタリングもk8sの操作も完結するフロントを作成しました！初心者でもすぐにk8sを使った障害対応を経験できます！！

開発中のダッシュボード画面

Grafanaのiframe埋め込み

Grafanaはデフォルトではiframeへの埋め込みが制限されています。Kioskモードと匿名閲覧を有効にすることで、ログイン不要ですぐにダッシュボード画面が見れます！
ttydのカスタマイズ

ブラウザからターミナルにアクセスできるようにttydを採用しました。参加者がすぐに調査を始められるよう、kubectl・k9s・helmなど、SREがよく使うツールをあらかじめ詰め込んだDockerイメージを用意しました。ブラウザから手を動かせる環境を目指しています。

まず画面を眺めてみてください。CPUやメモリのグラフがリアルタイムで動いています。どこかの数値が急上昇していたり、グラフが崩れていたりしませんか？　それが「障害のサイン」です。

「このメトリクスが跳ね上がっているということは、何かが重くなっている」──SREが日々モニタリングで行っている最初の一歩を、ここで体験できます。グラフの読み方を知らなくても大丈夫。「普段と違う」という感覚を掴むだけで十分です！

ダッシュボードで異常を見つけたら、次はターミナルを開いてk9sを起動してみましょう。

k9sはKubernetesクラスタの状態をリアルタイムに一覧表示してくれるTUIツールです。Podの一覧を眺めると、STATUSがRunningではなくCrashLoopBackOffやErrorになっているものがあるはずです。

矢印キーで選択して d（describe）を押すと、そのPodの詳細ログが確認できます。「なぜ落ちているのか」を読み解くプロセスは、まさにSREの障害調査そのものです。

原因が掴めたら、いよいよ復旧作業です。kubectlを使って障害を解消してみましょう。

たとえばPodを再起動したいときはこんなコマンドを試してみてください：

kubectl rollout restart deployment/<deployment名> -n <namespace>

コマンドを実行した直後、Grafanaのグラフがすっと落ち着いていく様子が見えれば、あなたの対応は成功です！

「コマンドを打ったらグラフが変わった」──この体感こそが、Chaos Survival Challengeで持ち帰ってほしい一番のお土産です。技術の細かい仕組みはあとからいくらでも学べます。まずは「自分の操作がシステムに影響している」というリアルな手応えを、ぜひブースで感じてみてください！

ブースに立ち寄ったら、画面に表示されているGrafanaダッシュボードを眺めてみてください。どこかのメトリクスがおかしくなっているはずです。気になったらターミナルを使って調査を開始！技術的な知識がなくても「こういうときにこのグラフが動くんだ」という体感を持ち帰ってもらえたら嬉しいです。

なお、障害シナリオは現在鋭意制作中です！どんな「カオス」が待ち受けているかは、当日のお楽しみ👀

次回の連載第3回は、AI × Grafana MCP NOCダッシュボードについてご紹介します。お楽しみに！