Nagios は細かい制御ができて便利だけど何をどう設定すればいいのか文字だけだとつらい。
ということで図にまとめてみた。調べながらだから間違ってたらごめんなさい。
以下文章補足
- interval_length は Nagios の世界の単位となる。デフォルト 60 秒だから、もし 1 分よりも粒度の細かい(精度の高い)監視をしたければこの設定を変える必要がある。ただ、あんまり買えないほうがいいらしい。
- つまり、interval_length がデフォルトだと、ほにゃらら_interval はそのまま数値が分と読み替え可能
- 監視中 OK ステータス以外が返ってくるととりあえず soft status となる。これは本当に障害か様子見してる感じ。(但し、設定によってすぐに障害とすることも可能)
- soft status 中は retry_check_interval * max_check_attempts の間様子見する。これが過ぎると hard status として障害!となる。障害かどうか気になるのが心情だから、大体は normal_check_interval > retry_check_interval になると思う。
- あんまりメールが大量に来てもなんなので、notification_interval でメールがくる感覚を調整できる
- ↑はポーリング型の監視で、syslog とか trap 監視をする際はそれ用の設定を用意する必要あり(passive 状態にして、検知したら一発で hard status とする。など。hard status から OK ステータスに戻す仕組みも必要)