ダウンタイムアラートのトラブルシューティング

停電(停止状態)はアプリのチャートに赤い縦線として表示されます。ここでは、ダウンタイムアラートに関するトラブルシューティングのヒントを紹介します。

断続的なタイムアウト

New Relic はサイトに対して約20秒ごとに Ping を行います。そして、断続的な障害に対してフラグを立てます。可用性監視サービスが、他よりも敏感である傾向がある理由である。New Relic の Pinger サーバーと、サイト間のネットワークリンクが不調の場合、他のモニターが問題を示していない場合でも、断続的な失敗のために定期的なタイムアウトアラートが表示されることがあります。

あなたがサイトにアクセスできたとしても、一部のユーザーはまだアクセスできない場合があります。独自のネットワークパスが動作している場合でも、欧州、アジア、米国にある New Relic の Pinger が、あなたのサイトの壊れたネットワークパスをキャッチすることがあります。これは多くの場合、ホスティングプロバイダにおける一時的なネットワークの故障です。

ダウンタイムの評価

ダウンタイムイベントが断続的な故障によるものかどうかを確認する方法は以下のとおりです。

  • どんな問題があるかどうかを確認するために、ISP やサービスプロバイダーのネットワークの状態を確認してください。
  • サーバーのスループットの低下、応答時間の増加が起きているかを、アラート詳細ビューの Server throughput チャートで確認してください。
  • (特定のプラットフォームや製品レベルの場合に Reports セクションで閲覧可能な)アプリケーションサーバーのキュー時間やサーバーの容量の増加を探します。
  • ページ読み込みタイミングを有効にしている場合は (リアルユーザー監視、RUM とも呼ばれる)、ダウンタイム中のエンドユーザーのページビュー 下落の確認にアラートビューの End user throughput チャートを確認してください。ページ読み込みタイミングの計測と可用性の監視は、互いに独立しています。停電で長時間おきた場合、ページ読み込みタイミングのスループットが著しく低下していることがわかると思います。
  • 独立して、同じ問題を検出するかを確認するために、cURL を使ったり、別の Pinger サービスを試してみてください。他の Ping サービスが頻繁にあなたのサイトを打つことはありませんので注意してください。
  • 短い期間の断続的な故障がアラートをトリガしないように、アラート生成の最小時間の閾値を見なおしてください。

誤警報

あなたのサーバーが New Relic Pinger に対して貧弱なネットワークで接続している場合、頻繁に誤警報が発生する可能性があります。このような誤警報を最小限に抑えるために、アラートを送信する前に必要なダウンタイムの時間(分単位)を増やすことができます。New Relic では、よりフォールトトレラントであり、設定しやすい Pinger となるような変更に取り組んでいます。

ステータスエラー

New Relic の Pinger リクエストは、Web ブラウザが一般的に送るものとは大きく異なっています。ほぼすべてのケースで、これは違いを気にすることはありません。

しかし、顧客のリクエストが拒否されることがあります。エラーステータス(400、404 等)のサイトダウンの通知を受信したとしても、ブラウザ等ではその URL を開ける場合もあります。場合によっては、より制限付きの Accepts ヘッダーだったり、ユーザーエージェントかもしれません。

コマンドラインから以下の curl を実行して、失敗を再現できるかどうかを確認してください。

curl  -v \
      -H "Cache-Control: no-cache, max-age=0" \
      -H "User-Agent: NewRelicPinger/1.0 (1)" \
      -H "X-Newrelic-Ignore: true" \
      http://www.somehost.com> /dev/null

New Relicのコードはほぼ上記のリクエストをエミュレートします。ただし、各々の環境の違いにより、このコマンドが成功した場合でもPingerのリクエストが失敗することがあります。

この問題が発生したときは、support.newrelic.com からサポートを受けてください。。New Relicは、より互換性のあるリクエストを作る事ができるかを持たせることができるかもしれません。

200レスポンスを持つダウンタイムイベント

New Relic の Pinger はタイムアウトしたり DNS の名前解決の問題が発生したときレスポンスを受信しません。このアラートの Response Content 領域は、次の正常なレスポンスをキャプチャします。ダウンタイムイベント内にレスポンスコード200が表示されるのはこれが理由です。

関連情報

関連する情報は以下のとおりです。