ヘルスマップの紹介

ヘルスマップは、アカウントで管理している全アプリとアプリ利用しているホストの状態を視覚的確認できるビューを提供してます。健康状態で順位付けして並べられています。 ビュー、フィルター、表示の切り替えスイッチを使って、ページを見たい内容のみにカスタマイズできます。そうすることで、自身に関係する内容のみにマップを整理できます。ヘルスマップを使うと、アプリケーションとホストの両方をリアルタイムで監視でき、問題が発生した際にすばやく把握できるようになります。

要件

ヘルスマップを利用するには、最低限、以下の要件を満たす必要があります。

ベストプラクティス

ヘルスマップは、New Relic 製品で集めたデータを使って表示しています。ヘルスマップを最大限に活用するために、New Relic では、以下の製品と機能を使うことを推奨しています。

  • New Relic Infrastructure: ホストを適切に分類するために強力なフィルターセットを作成してください。
  • APM エージェント: アプリケーションを適切に分類するために、ラベルを設定してください。
  • New Relic Alerts: すべてのアプリケーションホスト、アラートのパターンをカバーできるアラートポリシーを作成してください。

ヘルスマップは、ホスト上でコンテナを使って、アプリを稼働している場合(ホストごとに多くのアプリのインスタンスがある場合)にも役に立つ機能です。

機能

health-map-demo-ss.png
maps.newrelic.com: ヘルスマップは、New Relic APM、Infrastructure、Alerts のデータを組み合わせて、アプリケーションとホストを表示します。その表示は、健康状態によって優先順位付けされています。そのため、すべてのシステムが正常かどうかを一つビューで確認できます。

ヘルスマップでは以下のことができます。

健康状態で順位付けされたエンティティ
ヘルスマップは、プライマリエンティティボックスでページを構成しています。プライマリエンティティボックスには、以下の情報が表示されます。現在の(2分ごとにリフレッシュ)健康状態とパフォーマンスデータ、セカンダリエンティティ、詳細なパフォーマンスデータを確認できる APM、Infrastructure のページへのリンク。

health map entity box
ヘルスマップにおけるセカンダリエンティティのあるプライマリエンティティボックスの例。ヘルスマップは、プライマリエンティティとセカンダリエンティティの健康状態に基づいてエンティティを優先順位付けします。

健康状態は、New Relic Alerts のデータを元に決定されます。ヘルスマップは、最初に健康状態によってプライマリエンティティをソートし、第2のソート条件として、セカンダリエンティティ(関連するアプリもしくはホスト)の健康状態を使います。

ヘルスマップは、アプリの状態を、赤、黄、緑、ライトグリーン(アラート条件が未設定)、グレー(アプリからのデータ送信が停止している)で表します。
ホストの状態は、赤、黄、緑のいづれかで表します。

条件によって、対象と見なされないホストがある場合、ヘルスマップでそのホストは緑色で表示されます。ホストが New Relic にデータを送信していない場合、Infrastructure 対象のホストがデータを送信していないアラート条件を設定していないかぎり、ヘルスマップには表示されないことに注意してください。

エンティティは、以下のルールに基づいて優先順位が付けられます。

エンティティの並び順の基準
  1. プライマリエンティティがクリティカル(赤)の健康状態である場合、以下の順に並びます。

    1. 致命的(赤色)の健康状態であるセカンダリエンティティの多い順
    2. 警告(黄色)の健康状態であるセカンダリエンティティの多い順
    3. 正常(緑)の健康状態であるセカンダリエンティティの多い順
    4. ライトグリーン(ホストビューのみ)の健康状態であるセカンダリエンティティの多い順
  2. プライマリエンティティが警告(黄色)の健康状態である場合、以下の順に並びます。

    1. 致命的(赤色)の健康状態であるセカンダリエンティティの多い順
    2. 警告(黄色)の健康状態であるセカンダリエンティティの多い順
    3. 正常(緑)の健康状態であるセカンダリエンティティの多い順
    4. ライトグリーン(ホストビューのみ)の健康状態であるセカンダリエンティティの多い順
  3. プライマリエンティティが正常(緑)の健康状態である場合、以下の順に並びます。

    1. 致命的(赤色)の健康状態であるセカンダリエンティティの多い順
    2. 警告(黄色)の健康状態であるセカンダリエンティティの多い順
    3. 正常(緑)の健康状態であるセカンダリエンティティの多い順
    4. ライトグリーン(ホストビューのみ)の健康状態であるセカンダリエンティティの多い順
  4. セカンダリエンティティの多い順
  5. エンティティの名前順
ビュー、フィルター、切り替えスイッチ
ビュー切り替えのドロップダウンから、アプリやホストを軸に構成されたシステムが正常かどうかを確認できます。

これらのビューをラベル(アプリ)で表示したり、フィルタセット(ホスト)を使って絞り込むことで、関心のあるデータのみを確認できます。

Show metrics/hosts スイッチを押すと、エンティティボックスに情報に詳細な情報を表示したり、非表示にしたりと情報の量を切り替えられます。

ビュー 説明
Applications and related hosts (アプリケーションと関連するホスト)

アプリ単位のアプリケーションエンティティを並べたマップを表示します。以下の情報が表示されます。

  • 健康状態を示す色
  • (存在する場合)条件違反の情報
  • 主要なメトリクスの概要
  • New Relic Infrastructure によって報告された、アプリを稼働しているホストの健康状態

マップには、アプリをラベルで絞り込めるフィルターのドロップダウンがあります。

Hosts and related applications (ホストと関連するアプリケーション)

ホスト単位のホストエンティティを並べたマップを表示します。

  • 健康状態を示す色
  • (存在する場合)条件違反の情報
  • 主要なメトリクスの概要
  • New Relic APM によって報告された、ホスト上で稼働しているアプリの健康状態

マップには、ホストを絞り込めるフィルターのドロップダウンがあります。

Filter sets and related hosts (フィルターセットと関連するホスト)

New Relic Infrastructure がレポートするデータを使って以下の情報を表示します。

  • New Relic Infrastructure における各フィルタセット内にあるホストの健康状態

ヘルスマップの表示と利用

ヘルスマップを最大限に活用するには、ヘルスマップのベストプラクティスをご覧ください。

ヘルスマップは、システムの現在の状態を表します。マップは2分ごとに更新されます。ヘルスマップを表示する手順は以下の通りです。

  1. ヘルスマップにアクセスできるかどうか、必要要件を満たしているか確認する。
  2. New Relic のメニューバーから、Maps を選択します。
  3. アプリケーション、ホスト、Infrastructure のフィルタセットのどの軸で確認するかを、SELECT A VIEW ドロップダウンから、ビューを選択して決定します。
  4. Applications and related hosts (アプリと関連するホスト)や Hosts and related applications (ホストと関連するアプリ)のビューを使う場合は、Filter のドロップダウンが表示されます。それを使って、見たいエンティティのみに絞り込むことができます。
  5. オプション: Show metricsShow hosts のトグルスイッチを切り替えることで、エンティティに表示する情報量を変更できます。
  6. オプション: システムの健康状態をひとめで確認したい場合は、運用センターのテレビやウォールボードにヘルスマップを常に表示するようにしましょう。
  7. エンティティがクリティカル(赤色)や警告(黄色)の状態を表示し始めた場合は、エンティティや関連するホスト/アプリのタイル(シカクの升)にマウスオーバーすると、違反情報をポップアップします。よって、問題の範囲規模を簡単に確認できます。
  8. 関連する APM や Infrastructure のページへのリンクをクリックすると、トラブルシューティングを開始するのに役立つ詳細情報が表示されます。

ヘルスマップの利用ケース

ヘルスマップは、大規模で複雑な環境の運用に責任を持つ運用チームや DevOps チームをサポートすることを目的に作られた機能です。

システムの健全さをひとめで表示する
システム全部の健全さを表示するネットワーク・オペレーション・センター(NOC)の 壁掛け TV (ウォールボード)を眺めるのが好きかもしれません。しかし、アラートが届いたときは、作業に集中しており、そのアラートに気づかないかもしれません。

ウォールボードがあれば、何か問題が発生しているかどうか、常にひとめで確認できます。一方、アラートが発生している時でも、アプリやホストの健康状態を遠くから眺めているのが好きかもしれません。

問題の範囲:他にどこで問題が発生してる?
あなたは会社の多くのアプリを担当しているとします。常に何かしらのアラートが発生していますが、多くのホストに多数のアプリケーションがデプロイされているため、すべてを追跡して何が問題になっているかを知ることは困難な状況です。

ヘルスマップは、全アプリと全ホストの間の健康状態と関係を確認できる一つのビューを提供します。このビューを見れば、アラートが発生しているホストとそのホストにデプロイされているアプリを簡単に関連付けることができ、「他に今、どこで問題が発生しているか」といった簡単に質問にも答えることができます。

問題の規模: コンテキストを使って、noisy-neighbor 問題を見つける
noisy-neighbor 問題: 物理リソースを共有している他ユーザーが負荷の高い処理を行うと悪影響を受ける可能性のあるという問題。
コンテナのオーケストレーションでコンテナ化されたアプリを多数のホストでデプロイした場合、ホストやホストグループに対してアラートを受け取ったとしても、問題の規模を把握することが難しくなります。

ヘルスマップのアプリケーションビューを見れば、アプリケを動かしている全ホストの情報やアラートが起きているホストも把握できます。

問題が単一のホストでのみ発生している場合は、ヘルスマップのビューをホストビューに切り替えて、そのホスト上に他のアプリがデプロイされているか確認できます。このビューでは、例えば、あるホストで4つのアプリが実行しており、そのうちの1つがアラートで設定した閾値を超えるスループットでありアラートが発生しているといったことがわかります。