アラートポリシーのベストプラクティス

アラートポリシー は、複数の New Relic が監視しているリソースに対して条件付けを行える場を提供します。また、条件に違反した際の 通知先 (アラートチャネルを使って) を定義できます。

組織のニーズに合わせてアラートポリシーを構築できます。ここでは、New Relic Alerts (alerts.newrelic.com)の設定を最大限に活用するためのベストプラクティスとその例を述べます。

New Relic Alerts で使われる共通用語を理解する必要があるかもしれません。

エンティティやメンバーのポリシーを定義する

アラートポリシーを設計する際に考慮すること:

  • インフラの内、責任者を必要とする部分
  • インフラの1つ以上の部分の責任者になっている人

例えば、組織に、New Relic APM、New Relic Browser、New Relic Servers、New Relic Synthetics か監視するアプリが複数ある場合、

  • ソフトウェア開発者は、フロントエンドとバックエンドのパフォーマンス(ページのレスポンスタイムやページロード時の avaScript エラーなど)の両方のアラート通知が必要かもしれません。
  • 運用担当は、バックエンドのパフォーマンス(サーバーのメモリやロードアベレージなど)が落ちた時のアラート通知が必要かもしれません。
  • プロダクトオーナーは、エンドユーザーの Apdex スコア向上や New Relic Insights が監視する ARR レベルの向上といったポジティブなフロントエンドのパフォーマンスに関するアラート通知が必要かもしれません。
条件を定義すればするほど、インシデントのロールアップはより効果的になります。キーパーソンは、関係するメトリックのアラート通知を受信できますし、そうすることで一般的に、組織はより効率的に傾向やパターンを把握しやすくになります。

アラート通知数の決定

アラート条件を定義すればするほど、より多くのインシデントがトリガーされ、監視することができます。たとえば、所属する組織が、大規模なITインフラに対応するためにアラートソリューションが必要になるかもしれません。New Relic Alerts を使えば、複数のエンティティ(ターゲット)用の複数の条件を持つアラートポリシーを作成することができます。そして、一つ以上の通知チャネルを介して通知を送信することもできます。

一方、所属する組織が、広範なアラートシステムを必要としないことあります。その場合は、少数のアラート条件のみ定義することで、少数のインシデントのみがトリガーされます。たとえば、よくあるアラートのシナリオ用には、メール通知チャネルを設定したシンプルなアラートポリシーを作成できます。

条件の閾値の設定

お使いの環境に有効な閾値をアラートポリシーの条件に設定します。以下は、いくつかの状況を想定したガイドラインです。

アラートの閾値 推奨
閾値のレベルの設定 低すぎる閾値を設定しないように。 例えば、CPU のアラートの閾値を本番サーバーで5分間 75%と設定すると、その閾値では日常的にそのレベルを越え、対応に困るアラートの増加や誤検知し易くなります。
設定の試行錯誤 ファイルの編集やソフトウェアの再起動は必要ありません。そのため、必要に応じて閾値を自由に、気兼ねなく調整できます。
設定の調整

定期的な条件の調整

  • New Relic 製品を使って、エンティティのパフォーマンスを向上しながら、併せて、New Relic Alerts のポリシー条件を厳しくしていきましょう。
  • 一定期間、パフォーマンスに負の影響を与えるような何かを実行している場合、これを許容するよう条件の閾値を緩めることができます。
設定の無効化 ポリシーのアラート条件を無効にできます。これは、例えば、他のメトリックや閾値を試しながら、ポリシーの他のアラート条件を引き続き使用したい場合に便利です。

通知チャネルの選択

New Relic Alerts では、最初に通知チャネルを作成でき、その後、アラートポリシーに割り当てることができます。また、先にポリシーを作成し、その後、通知チャネルを割り当てることもできます。最もやり易い方法で、誰に通知を行うかを柔軟に調​​整できます。

例えば、以下のことが可能です。

  • 一般的なレベルのアラート用の運用チームの HipChat ルームを特定したり、業務時間外やエスカレーションレベルの高い警告については、オンコールの PagerDuty コンタクトを行えます。
  • 様々な状況やスタッフ用にカスタマイズしあたメッセージ付きの Webhooks を作成できます。
アラートを無視する可能性のある人に対して、アラートを送ることは避けてください。ことができる個人を中断することは避けてください。最も有用なチャネルやポリシーの通知を調整することによって、体系的な方法で対応すべきインシデントを正しい担当者が受信し、対応させることができます。

関連情報

関連する情報は以下のとおりです。