ノートPC1台で作るSRE体験ブース──Chaos Survival Challenge 開発記

Apr 23, 2026

クラウドネイティブ会議の実行委員ブース、連載第2回です。今回は体験コンテンツのChaos Survival Challengeの開発記をお届けします!

企画の概要──障害を"体験"してみよう

「SREってなに?」「可観測性って結局どういうこと?」

Chaos Survival Challengeは、Kubernetesクラスタに意図的に障害を注入し、GrafanaダッシュボードやターミナルでSREが普段やっていることを短時間で体験できるコンテンツです。

システム構成──使った技術スタック

  • Chaos Mesh:Kubernetesネイティブなカオスエンジニアリングツール。CPU負荷やPodの強制停止などの障害シナリオを作成できます
  • Grafana:CPUやメモリの使用率をリアルタイムに可視化します
  • ttyd:ブラウザ上でkubectlやk9sなどのコマンドを実行できるターミナルを提供します
  • kind:1台のPC上でKubernetes環境を丸ごと動かすためのツールです。

ダッシュボード画面

Grafanaダッシュボードとttydターミナルをiframeで並べ、1つのブラウザ画面でモニタリングもk8sの操作も完結するフロントを作成しました!初心者でもすぐにk8sを使った障害対応を経験できます!!

開発中のダッシュボード画面

  1. Grafanaのiframe埋め込み

    Grafanaはデフォルトではiframeへの埋め込みが制限されています。Kioskモードと匿名閲覧を有効にすることで、ログイン不要ですぐにダッシュボード画面が見れます!

  2. ttydのカスタマイズ

    ブラウザからターミナルにアクセスできるようにttydを採用しました。参加者がすぐに調査を始められるよう、kubectl・k9s・helmなど、SREがよく使うツールをあらかじめ詰め込んだDockerイメージを用意しました。ブラウザから手を動かせる環境を目指しています。

実際に操作してみよう

Grafanaダッシュボードでシステムの状態を読む

image.png

まず画面を眺めてみてください。CPUやメモリのグラフがリアルタイムで動いています。どこかの数値が急上昇していたり、グラフが崩れていたりしませんか? それが「障害のサイン」です。

「このメトリクスが跳ね上がっているということは、何かが重くなっている」──SREが日々モニタリングで行っている最初の一歩を、ここで体験できます。グラフの読み方を知らなくても大丈夫。「普段と違う」という感覚を掴むだけで十分です!


k9sで障害Podを探す

ダッシュボードで異常を見つけたら、次はターミナルを開いてk9sを起動してみましょう。

image.png

k9sはKubernetesクラスタの状態をリアルタイムに一覧表示してくれるTUIツールです。Podの一覧を眺めると、STATUSRunningではなくCrashLoopBackOffErrorになっているものがあるはずです。

矢印キーで選択して d(describe)を押すと、そのPodの詳細ログが確認できます。「なぜ落ちているのか」を読み解くプロセスは、まさにSREの障害調査そのものです。


kubectlで障害を直す

原因が掴めたら、いよいよ復旧作業です。kubectlを使って障害を解消してみましょう。

たとえばPodを再起動したいときはこんなコマンドを試してみてください:

kubectl rollout restart deployment/<deployment名> -n <namespace>

コマンドを実行した直後、Grafanaのグラフがすっと落ち着いていく様子が見えれば、あなたの対応は成功です !

「コマンドを打ったらグラフが変わった」──この体感こそが、Chaos Survival Challengeで持ち帰ってほしい一番のお土産です。技術の細かい仕組みはあとからいくらでも学べます。まずは「自分の操作がシステムに影響している」というリアルな手応えを、ぜひブースで感じてみてください!

当日の遊び方

ブースに立ち寄ったら、画面に表示されているGrafanaダッシュボードを眺めてみてください。どこかのメトリクスがおかしくなっているはずです。気になったらターミナルを使って調査を開始!技術的な知識がなくても「こういうときにこのグラフが動くんだ」という体感を持ち帰ってもらえたら嬉しいです。

なお、障害シナリオは現在鋭意制作中です!どんな「カオス」が待ち受けているかは、当日のお楽しみ👀


次回の連載第3回は、AI × Grafana MCP NOCダッシュボードについてご紹介します。お楽しみに!

共有: