ネットワーク・パフォーマンスを向上するための 4 つのステップ|NetScout

ネットワーク・パフォーマンスを向上するための 4 つのステップ

 

はじめに
IT ネットワークは、ほとんどの企業において、ビジネス・クリティカルなアプリケーションを支え、ビジネス上の意思決定の根拠となるデータを提供し、顧客、パートナー、サプライヤー、および同僚とのコミュニケーションを円滑にする心臓部と言えます。ビジネスにとってかつてないほど戦略的な資産になっており、ネットワークおよびアプリケーションのダウンタイムやパフォーマンスの低下は、組織の最終損益に直接影響を与えることになります。合意されたサービス・レベルを提供するには、ユーザーが必要とするものをネットワークを通じて提供できるようにパフォーマンスを積極的に改善し最適化すること、および問題が発生した場合に可能な限り迅速に解決してダウンタイムを最短化するという二重の課題があります。このホワイト・ペーパーはネットワークおよびアプリケーション・パフォーマンスの問題を解決する方法を取り上げ、根本的な原因をすばやく明らかにするための新しいアプローチについて説明します。

  • 目次
  • はじめに
  • ステップ 1:モニター/アラート
  • ステップ 2:調査
  • ステップ 3:切り分け
  • ステップ 4:根本原因の分析と問題解決

はじめに

今日の企業ネットワークにおいて、ネットワークやアプリケーションの問題の根本原因を突き止めることは、ますます困難かつ時間がかかるものになってきています。データセンターからデスクトップへと広がる仮想化、クラウド・サービスの人気上昇、BYOD(個人機器の持ち込み)の普及は、労働形態や文化的な変化を反映しています。

WiFi デバイスの普及、不正アプリケーションによる帯域幅の過剰消費、構成エラー、不十分なアプリケーション配信インフラのほか、さまざまな原因によって問題が生じる可能性があります。これに、音声とビデオがネットワークに加わることで、複雑性が増し、帯域幅が限界にまで達してしまいます。

パフォーマンス問題の責任の所在が誰にあるのか、特にどのグループも良好な KPI を報告している場合に、それを究明する難しさにより、問題解決がより困難になり、より多くの時間がかかることになります。


ネットワーク・パフォーマンス問題への取り組みプロセス

ネットワーク・パフォーマンス問題の根本原因を突き止めるには、次の 4 ステップから成るトラブルシューティング・プロセスに従います。

図 1:問題解決のワークフロー

 

問題解決に役立つツールは、ネットワーク管理システム(NMS)とパケット・キャプチャーおよび解析ツールの 2 つのカテゴリーに分類されます。

NMS は、会社のルーターやサーバーの監視、予想通りに動作および応答しているかの確認など、主にモニター/アラート・フェーズで役割を果たしています。しかし、NMS の中には、複雑すぎて、レイヤー 3 のデバイスまでしか管理できないようにセットアップされ、レイヤー 2 のスイッチを監視していない場合があります。ポーリング・データは、数分単位で集約され平坦化されるため、使用の急増がもたらす影響は見えなくなります。さらに、NMS は中央に位置しているため、エンドユーザーの応答時間を把握するために行われる測定において、調査対象となるデバイスにアクセスするのに異なるネットワークの部分がテストされ、不正確な結果を生み出すことがあります。

ネットワーク・エンジニアがトラブルシューティング・プロセスを進めるに従って、NMS の有用性は減り、パフォーマンス問題を徹底的に調査するために必要な詳細情報が提供されません。

 

約 3,000 人のネットワーク担当者を対象として実施された最近の NETSCOUT® の調査によると、回答者の 82% がネットワークおよびアプリケーション・パフォーマンスを懸案事項または重大な問題であると位置付け、52% が根本原因を突き止めるにはネットワーク管理システムの機能はほとんどの場合または常に不十分であると回答しています。また、回答者の 51% は、問題をトラブルシューティングする際に、時には、またはほとんどの場合、自分のデスクを離れる必要があるとのことです。

 

より詳細な情報を入手するためには、エンジニアはフリーウェアの、または商用のパケット・キャプチャーおよび解析ツールに頼るほかありません。これらのツールは、ネットワークに対して単一の視点しか持たないため、アラート・ステージでは役割が限定されますが、根本原因の解析ステージでは本領を発揮します。複雑さを伴うパケット解析ツールには、スキルのある経験豊かなエンジニアが必要とされ、さまざまなユーザー・インターフェイスに表示される数百万パケットもの大量のデータをかき分けていかなければならないため、時間がかかってしまいます。これにより、トラブルシューティング・プロセスが一層難しくなり、多大な時間を必要としてしまいます。


ネットワーク内のどこに問題が潜むのか

包括的な情報を提供しない NMS と複雑なパケット・キャプチャー・ツールのギャップが、MTTR を増加させます。しつこい断続的な問題は、ネットワークの中に「隠れ」、IT 部門の生産性と信頼性を低下させる可能性があります。

パフォーマンス問題を迅速に調査・解決するためには、ネットワーク全体を見渡せるエンドツーエンドの可視性、従来の NMS とパケット・キャプチャー・ツールのギャップを埋める自動化されたネットワークおよびアプリケーション解析用の専用ソリューションをエンジニアは必要とします。

次に対応するニーズがあります。

  • 管理されていない機器 - 安価であるために購入されたものかもしれませんが、各ネットワーク・セグメントの正常性に対する可視性はなく、使用率も監視できないため、問題が発生した時に、トラブルシューティングするコストが上がります。そレに対して、管理されているスイッチであれば、ネットワーク・エンジニアはスイッチ・ポートにアクセスし、発生しているエラー、使用率、誰がそのポートに接続されているのかを確認できます。

  • 文書化されていないネットワーク - ネットワークの頻繁な変更により、文書の完成後すぐに古くなってしまうという継続的な問題があります。経路を物理的に追跡するには多くの時間がかかり、また正確な文書がなければ、エンジニアはどんなパケットがどこに流れているのかを知ることができません。必要とされるのは、ネットワークのリアルタイムなパスを見つける手段です。

  • 多すぎるデータ - 問題がたった数パケットの中に潜んでいるかもしれません。キャプチャーされたパケットをふるいにかけ、問題のあるパケットを突き止める自動化された方法、つまりトップダウン・アプローチを取るアプリケーション中心の解析により、問題解決がより迅速になります。

  • 過去に起きた問題 - エンジニアは、発生してから数時間経過してから問題に気付くということがあります。必要とされるのは、長期間にわたる(例えば、24 時間)大量の粒度の高いデータをキャプチャーし、分析できる過去に遡って断続的な問題を見つける手段です。

  • 監視されていない新しいテクノロジー - 10Gb Ethernet や 802.11n Wi-Fi など。組織の多くは、どんな問題も大幅な容量拡張で克服できると信じているため、これらテクノロジー用の計装に投資していません。

  • 無線デバイス - エンジニアには、BYOD も含め、Wi-Fi デバイスを特定・監視し、スペクトラム解析を使用して Wi-Fi および非 Wi-Fi 干渉源(Bluetooth デバイス、コードレス電話、電子レンジなど)を識別する方法を必要とします。

  • ネットワーク外部の問題 - エンジニアはこれらを特定して、より徹底した調査と迅速な解決を可能にする十分な情報とともに、パフォーマンス問題およびそれを裏付ける証拠を他の IT チームや外部のサービス・プロバイダーに提供できなければなりません。


  •  

問題解決の新たなアプローチ

ネットワーク内のすべてのデータをキャプチャーし、根本原因のより迅速な切り分け、また本当の問題がネットワークの外部にあるのかを特定できるインテリジェントな解析を提供する包括的なネットワークおよびアプリケーション・パフォーマンスのソリューションが必要とされます。フロー、SNMP データ、他のデバイスから収集された情報を含め、すべての情報を最大 1 ミリ秒単位の粒度で収集、集約、相関付け、伝達できなければなりません。データは、ユーザーによってカスタマイズできるダッシュボードに一元的に表示され、問題の根本原因を迅速に突き止めるために、ガイド付きのワークフローを適用できなければなりません。臆測を立てる必要性を無くし、ユーザーに問題を特定・解決するまでの論理的なプロセスを踏んでもらうことで、MTTR を短縮し、ネットワーク・エンジニアはより効果的になれます。

ネットワークおよびアプリケーション・パフォーマンスのソリューションは、トラブルシューティング・プロセスの全ステージを円滑にし、ネットワークの最適化をサポートするために必要な可視性を提供します。
 

ステップ 1:モニター/アラート

ネットワークの問題に取り組み・解決するための第一の条件は、問題が発生したことをタイムリーにアラートするシステムです。最悪のシナリオは、ユーザーからの電話で問題を知ることです。この場合、エンジニアは問題の主導権を握ることができません。ネットワーク管理ツールのアラートの多くは、ネットワークごとに手動で設定する必要があり、システムに ping を打たせたり、各ブロードキャスト・ドメイン内のすべてのデバイスを検出するように設定しなければなりません。常時オンのネットワークおよびアプリケーション・パフォーマンス・ソリューションであれば、自動検出とガイド付きワークフローでどのデバイスが接続されている簡単かつ迅速に分かるようになります。これは、セットアップやモニタリングにかかる時間を大幅に減らします。

パフォーマンス・データは絶えず収集されてデータベースに保存され、ユーザーが独自の要件でカスタマイズできるパフォーマンス・ダッシュボードの GUI に表示されます。パフォーマンスは、ユーザー定義のベースライン(例:SLA)に照らし合わせてモニタリングされ、これに外れるものはアラームとしてすぐに表示されます。ユーザーは、さまざまな詳細の度合いで問題を確認し、調査ステージを開始できます。

ネットワークおよびアプリケーション・パフォーマンス・ソリューションは、HP OpenView や Tivoli Netcool などの既存のネットワーク管理システムと統合し、サービス管理や運用ダッシュボード・ソリューションなどに情報やアラームを渡すことができます。
 


ステップ 2:調査

ネットワーク・エンジニアは、次に問題の範囲を調査する必要があります。迅速かつ正確な調査を促進するためには、SNMP、フロー、パケット、エンドユーザーの応答時間などのすべての重要データを収集し、今後の解析のためにこれらを保存するソリューションが必要です。ネットワークおよびアプリケーション・パフォーマンス・ソリューションは、クライアントからサービスまたはアプリケーションまでをリアルタイムに検出する方法を提供するため、これにかかる時間を大幅に短縮できます。2 つのデバイス間のパスを検出し、内部および外部ネットワーク全体にわたって、またパス内のデバイスをモニタリングできます。結果はグラフィカルな形式で表示されるため、分かりやすく、迅速な根本原因の解析を可能にします。

最高の効果を発揮するには、システムが 1Gbps と 10Gbps をサポートするインターフェイスを備え、ライン・スピードでデータをキャプチャーできなければなりません。ソリューションによっては、クライアントからサーバーへのネットワーク・パスをトレースし、パス内のレイヤー 2 およびレイヤー 3 デバイスを特定し、問題の原因を特定するのに必要な粒度が提供されています。

クライアントまたはクライアント・グループに問題が存在する場合、エンジニアはパフォーマンスまたはアプリケーションのレスポンス・テストを実施し、問題が有線または無線ネットワークの問題かどうかを特定する必要があります。有線・無線の統合ツールを提供し、同じユーザー・インターフェイスを使用することで、単一のテストで問題の原因を特定できます。

このプロセスの一環で、発生元の IP アドレスも含め、マルウエアの発生を特定することもでき、エンジニアは他のツールでは見逃してしまう根本原因を突き止められます。
 


ステップ 3:切り分け

この段階では、問題は一つのネットワーク・セグメント、スイッチ、ルーター、サーバー、またはアプリケーションに切り分けされ、パス、パス内のデバイスとポートが特定されています。次は、パスを解析する必要があります。これには、問題が故障したデバイス、リンク・メディア、ノイズ、干渉、またはトラフィック過負荷によるものなのか判断するために、各リンクのトラフィック統計情報が必要です。

SNMP(Simple Network Management Protocol)の最大の利点は、問題領域の切り分けを助けることです。SNMP を使用して各接続ポイントにクエリーすることで、トラフィックのボトルネックが遅延の原因かが分かります。これは、パス内のデバイスが管理されていて、エンジニアがデバイスに問い合わせするパスワードまたはコミュニティ文字列を持っている場合は簡単です。そうでない場合、ネットワークを中断させることなく、各リンクにツールを接続して、パケットやトラフィックの統計情報を見る必要があります。これは、広い地理的なエリアにリンクがたくさんある場合や異なる場所で複数のツールが必要になる場合には、非常に時間がかかります。

ネットワークおよびアプリケーション・パフォーマンス・ツールを使用する自動化されたネットワーク・インフラのヘルス・チェックにより、すべての SNMP 対応デバイスをモニターすることができ、ルーターの SNMP MIB を定期的にクエリーし、パケット・ロスや高い使用率を示すアプリケーション・フローを見ることができます。ネットワークにスイッチが数十台または数百台あっても、プロセスは簡単で速いです。

一部の問題は、問題が発生した場所でしか見れないことがあります。この場合、適切なテスト機能のほか、クライアントの目前またはデータセンター内の 10G リンクであるかにかかわらず、問題点に接続できる適切なインターフェースを備えたポータブル・デバイスが必要になります。リモートから働く人が増える中、このような可視性を提供するツールは必要不可欠であり、その重要性も BYOD の普及とともに一層高まります。

ポータブル・ツールは、ネットワーク内の管理されていない機器を調査するにも役立ち、エンジニアを出向くことなく、現地に送るだけで済みます。理想的には、パス解析、アプリケーション・インフラの健全性とアプリケーション・フローの測定、WLAN パフォーマンスの解析のほか、ローミングと再試行のレビュー、外部デバイスからの干渉の調査を実施できることが望ましいです。

過剰に使用されているリンクやフレーム・エラーがあるリンクがない場合、問題の原因がネットワークにはない可能性が高いです。ただし、これはエンジニアが妥当な時間内にリンクを分析し、直そうとしている問題がまだ存在する場合のみに確認できます。これには、ネットワークおよびアプリケーション・パフォーマンス・システムによってキャプチャーされた履歴データが必要になります。
 


ステップ 4:根本原因の分析と問題解決

この段階では、エンジニアは問題の原因を確認し、解決策を練って実施し、その結果を検証します。問題の場所がネットワーク内になく、またサーバーの応答やリソースの過剰使用が原因ではない場合、パケットをキャプチャーおよび解析し、より詳細な情報が必要になります。パケット解析は非常に時間がかかり、かなりのスキルと経験を必要とするため、最初にリンクを切り分けているか、サーバー、ネットワーク、アプリケーションで問題をトリアージ(優先順位付け)していることが重要です。

より迅速に根本原因を突き止めるためには、アプリケーション・レベルから始まるトップダウン方式の解析が最善の方法です。例えば、パスに問題が無いが、応答時間が遅い場合、問題は仮想サーバー、複数のティアで実行されるアプリケーション、またはアプリケーションのバグが原因であると考えられます。

アプリケーション・レベルとパケットのラダー図を簡単に表示できるパケット・アナライザーの使用が一つの選択肢です。スパン/ミラー・タップ接続は簡単に構成できますが、トラフィックの負荷が高いとパケットを見逃す可能性があり、スパンを提供するレイヤー 2 スイッチによってブロックされるレイヤー 1 エラーが表示されません。パッシブ・タップが最善ですが、接続するには、リンクが切断され、そのリンクがユーザーに提供するサービスを中断することなります。リンクがパフォーマンスの影響を受けている場合、通常これ自体は問題を引き起こしませんが、このリンクを使用して他のサービスに接続するユーザーに悪影響を及ぼす可能性があります。

より良い解決策は、サーバー・ファーム、データセンター、外部リンクへのルーター、ネットワークのコア内に戦略的に配置された既存のタップを使用してネットワークを構築することです。これにより、ネットワークを壊すことなく、キャプチャーを取得することができます。これが可能でない場合、エンジニアは、スパンまたはポート・ミラーリングを(これに伴う問題や不正確さを考慮した上で)用いる以外にないかもしれません。

ネットワークおよびアプリケーション・パフォーマンス・ソリューションは、キャプチャーされたパケットをふるいにかけ、問題のあるパケットを突き止める自動化された方法を提供します。アプリケーション中心のアプローチが取られ、各データ・フローと問題を GUI で視覚的に示してくれます。エンジニアは、これをクリックしてドリルダウンするだけで、どのパケットに問題があるか正確に把握できます。さらに、インフラ内の複数のポイントでパケットをキャプチャーすることで、どこに問題があるのか特定することができます。マルチセグメント解析、同時に複数ポイントでデータ・キャプチャーをトリガー、そして結果を統合して全体像を提供する能力が必要なります。

効果的な根本原因の解析は、データセンターまたはリモート・サイトで実施でき、問題がサーバーまたはアプリケーションに関係しているかどうかを確かめられます。一部のツールには、物理サーバーまたは仮想サーバーから管理情報を引き出し、パフォーマンスやリソースの問題を明らかにできるものもあります。

履歴的な粒度の高いデータの収集・解析により、エンジニアは過去にさかのぼって問題が当初発生した時の症状を見直し、断続的な問題の特定・解決できるようになります。
 


ネットワークの最適化

ネットワークおよびアプリケーションのパフォーマンス・ソリューションは、企業ネットワークの健全性を文書化および監査するのに必要な可視性をエンジニアに提供します。悪いパフォーマンスを発見し、アプリケーションやサーバーのパスのどこで遅延が発生しているかを特定し、最も遅い・最も重要なパスに注意を向けられる能力を与えてくれます。取得した情報は、サーバーのアップグレードなどのプロジェクトを優先させたり、承認用のビジネスケースを作成するために使用できます。また、新しい機器やアプリケーションのインストールをサポートし、インストール後に他のどこにもパフォーマンスの悪影響を与えていないことを検証するのに使えます。データは、仮想化、WAN 最適化、データセンター統合などのネットワークへの変更の影響を証明するのにも使えます。




 

Netscout について
NETSCOUT SYSTEMS, INC.(NASDAQ: NTCT) は、今日の最も要求が厳しいサービス・プロバイダー、企業、および政府機関向けにリアルタイムなサービス・アシュアランスおよびサイバーセキュリティ・ソリューションを提供する市場リーダーです。NETSCOUT の Adaptive Service Intelligence (ASI) テクノロジーは、パフォーマンス問題を発見するためにサービス・デリバリー環境を常時監視し、ネットワークベースのセキュリティ脅威に対する洞察を提供して、事業の中断やユーザー体験に影響を及ぼす問題を迅速に解決できるようにします。NETSCOUT は、サービスに対する比類なき可視性を実現し、私たちのつながった世界を支えるデジタル・インフラストラクチャを守ります。

 
 
Powered By OneLink