New Relicのアラート機能

New Relic は、次の各アラートポリシーを使用してアラート通知機能を提供しています。New Relic APM が監視するアプリケーション、New Relic Servers が監視するサーバー、そしてキートランザクションのアラートポリシーです。また、アプリケーションとサーバーのダウンタイムのアラート機能も提供しています。アラート通知は、Lite アカウントを含むすべてのアカウントで利用できます。

New Relic Browser が監視するアプリケーションの End user Apdex 値は、Browser Settings ページに表示されます。しかし、アプリでアラートポリシーと通知を設定するには、New Relic APM を利用する必要があります。

New Relic MobileNew Relic Plugins 用のアラート通知も受け取ることができます。しかし、アラートポリシーは現在、これらの製品をサポートしていません。

アラート通知

アラートポリシーの定義や New Relic の REST API にあるアラート API の設定 [英語]からアラート通知の設定を変更できます。以下にアラートを通知できます。

  • PagerDuty
  • Campfire
  • HipChat
  • Webhooks
  • メール
  • New Relic の iOSAndroid アプリ

通知の設定方法については、をご覧ください。

イベントの種類

New Relic は、問題の重要度を以下の3段階に分けています。

アイコン 説明
icon-alert-open.png  警告 致命的になる前にチェックすべきイベントが発生しました。
icon-incident-open.png  アラート送信 注意が必要な致命的なイベントが発生しました。
icon-outage.png  ダウンタイム サーバーが New Relicへ データを送信していない。もしくは、アラートポリシーで指定した期間過ぎても New Relic からアプリケーションへの Ping が成功しなかった。

問題やその他のイベント(デプロイなど)は、アプリケーションまたはサーバの最近のイベントに表示されます。関連するアプリケーションやサーバーの状態を示すインジケータは、それぞれのページにおいて、状態に応じて色を変えます。

説明
block-green.png  緑色 サーバー及びアプリケーションには問題ありません。
block-yellow.png  黄色 警告:そこまで致命的ではない問題に対しての注意です。
block-red.png  赤色 致命的なアラート:何かがおかしくなっている。もしくは、New Relic エージェントがコレクターと通信できないことを示しています。
block-gray.png  灰色 この時点でサーバーに報告されているデータは存在しない。

条件

アラートポリシーを使用すると、メトリクスに対して「Critical」アラートと「Caution」アラートの条件を設定できます。

メトリクスは、最近のタイムウィンドウと移動平均を利用して、リアルタイムに評価されます。監視対象のメトリックが一定期間に条件となる閾値を超えたとき、問題イベントと対応するアラート通知を生成します。詳しくは アラートの最小スループットをご覧ください。

また、通知レベルを選択することもできます。アラートポリシーが閾値を越えた時に、特定のチャンネルに対して、アラート通知の送信頻度を制御できます。詳しくは アラート通知レベルをご覧ください。

閾値の条件を設定するときは、以下のことをに気をつけてください。

  • アラートについて閾値の以上または以下の場合、どちらで通知を行いますか?
  • 閾値を越えた後に、報告するまでどのくらいの時間許容できますか?

既存のアラートポリシーに、アプリケーション、サーバー、キートランザクションを追加する前に、ポリシーのアラートの閾値が適切かどうかを評価してください。適切で無い場合は、新しいポリシーを作成してください。アプリ、サーバー、キートランザクションを追加した、ポリシーは条件に基づいてアラートをトリガーします。

たとえば、すでに 90% 使用済みである新規のサーバーを監視していて、85% でトリガーするようにサーバーのアラートポリシーに追加するとします。新しいサーバーのメトリックが既に閾値を超えているため、New Relic はアラートをトリガしません。メトリックは、アラートをトリガーする閾値を通過する必要があります。この例では監視が始まる前に通過済みです。このような状況では、新しいサーバー用の新しいアラートポリシーを作ったほうが良いかもしれません。

アラートタイミング

新しい通知はポリシーに則って作成されます。ただし、そのポリシーで現在開いてるインシデントが存在しない場合に限ります。そのポリシーのおいて致命的なイベントを開いている場合、ダウンタイム通知はそれでも送信されます。

問題 通知シーケンス
問題の重大度
icon-outage.png  ダウンタイム

サーバーが New Relic へのデータ送信を停止した。もしくは、アプリケーションがアラートポリシーで定義された時間を超えても、Pinger に応答しなかった時、ダウンタイムアラートは送信されます。

ポリシーにあるすべてのダウンタイムがクリア(Pinger がアプリを達することができる、もしくは、サーバーが New Relic への報告を開始した)になった時に復旧通知は送信されます。

致命的な問題すべてを5分以内にクローズした場合、最後にクローズした通知が送信されます。

icon-incident-open.png  致命的なイベント(アラートを送信)

アラートポリシーで定義された期間を閾値条件が超えたとき、致命的なイベントがトリガされます。アラートがアクティブな場合、ダッシュボード上にある関連する状態を示すインジケータバーは赤色に変わります。

致命的なイベントをすべて閉じたときに、アラートもクローズしたと考えられています。アラートが5分間クローズされている場合、最後にクローズした通知が送信されます。

icon-alert-open.png  注意イベント

アラートポリシーで定義された期間を閾値条件が超えたとき、警告イベントがトリガされます。ダッシュボード上の関連する状態を示すインジケータは、黄色に変わります。

警告イベントはそれ自体でアラート通知をトリガすることはありません。

問題のタイプ
サーバーの問題 (CPU、ディスク、メモリ) New Relic はアラートポリシーに対して1つのア​​ラートを送信します。いくつかの問題が複数のサーバー上で同時に発生した場合は、最初の問題が発生したときにアラートを1つ送信します。すべての致命的なサーバーの問題が解決したとき、復旧通知を1通送信します。
アプリケーションの問題 (Apdex とエラー率の閾値、アプリケーションのダウンタイム) New Relic は関連するアプリケーションのアラートポリシーに則ってアラートを送信します。アプリケーションに関する致命的な問題が全て完了したとき、最後にクローズ通知を送信します。
キートランザクションの問題 (Apdex とエラー率の閾値) New Relic は、関連するキートランザクションのアラートポリシーに則ってアラートを送信します。すべての致命的な問題に対応が完了すると、最終的な、クローズ通知を送信します。

アラートのテスト

キートランザクションのアラート条件をテストする方法は以下のとおりです。

  1. すべてのステータスインジケータが緑色になるように、アラート設定を調整する。
  2. 15分待ってから、最近のイベントのリストを表示して、オープンのインシデントがないことを確認する。
  3. インシデントを引き起こし値に設定し、インシデントが起こる時間待つ。
  4. 最近のイベントリスト上や設定したアラート通知(メールなど)に新しいインシデントがないか探す。

関連情報

関連する情報は以下のとおりです。

  • アラートの最小スループット (Web アプリ、ブラウザ、キートランザクション、コンポーネント、サーバーのアラートをトリガーするタイミングについて)
  • アプリケーションモニターのアラート (アプリケーションモニターのイベントタイミング、種類、オプションについて)
  • サーバーモニターのアラート (サーバーモニターのイベントタイミング、種類、オプションについて)
  • キートランザクションアラート (キートランザクションのイベントタイミング、種類、オプションについて)
  • アラートポリシーの設定 (通知のタイミング、種類、オプションについて)
  • キートランザクション (あなたのビジネスにとって重要なWebトランザクション)
  • 可用性の監視 (Pingers、ダウンタイムや New Relic の可用性の監視機能)
  • Alerts ページ (詳細にドリルダウン可能なアラート履歴のテーブルを表示する New Relic のページ)