Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

システムエージェント

デバイスシステムエージェントは、設定管理、デバイスとサーバー間の通信、テレメトリ収集を処理します。デバイスのブートストラップにZTPを使用していない場合(または、1回限りのインストールを使用しているか、コンピューティングエージェントを使用している場合)、このデバイスインストーラーを使用してデバイスを自動的にインストールして検証できます。デバイスNOS(またはコンピューティングエージェントの場合はOS)に応じて、デバイスエージェントをオンボックス(エージェントがデバイスにインストールされている)またはオフボックス(エージェントがサーバーにインストールされ、API経由でデバイスと通信)にインストールできます。オンボックスエージェントとオフボックスエージェントをサポートするプラットフォームについては、6.1.0 Juniper Apstra機能マトリクスデバイス管理セクションを参照してください。

デバイスの管理の詳細については、 管理対象デバイスを参照してください。

エージェントには、以下のパラメーターが含まれます。

表1:デバイスシステムエージェントパラメーター
パラメータ の説明
デバイスアドレス デバイスの管理IP
プラットフォーム(オフボックスのみ) オフボックスエージェントのみ:ドロップダウンリストにはサポートされているプラットフォームが含まれます。
ユーザー名/パスワード 資格情報付きのエージェントプロファイルを使用していない場合は、これらのボックスをチェックして資格情報を追加します。
エージェントプロファイル 資格情報とパッケージを手動で入力しない場合は、以前に定義したエージェントプロファイルを使用します。
作成後に実行するジョブ
  • インストール(デフォルト) - デバイスにエージェントをインストールします
  • チェック - エージェントを作成しますが、インストールは行いません。後でインストールできるリストビューに表示されます。
インストール要件(サーバーのみ) サーバーのみ: サーバーがインターネットに接続できない場合は、チェックボックスのチェックを外します。
パッケージ エージェントを作成する前に、必要なパッケージをインストールして使用できるようにします。選択したエージェントプロファイルに関連付けられたパッケージもここに一覧表示されます。
オープンオプション(オフボックスのみ) 設定されたパラメーターをオフボックスエージェントに渡します。例えば、オフボックスエージェントからデバイスへのAPI接続としてHTTPSを使用するには、キーと値のペアproto-https - port-443を使用します。以下のデフォルト値は、オープンオプションで上書きできます。
  • commit_timeout - 60(整数:秒)
  • テレメトリ_タイムアウト - 100(整数:秒)
  • probe_timeout:5(整数:秒)
  • log_config_diff - True(ブール値)

GUIのシステムエージェント

左側のナビゲーションメニューから、 デバイス>管理対象デバイス に移動し、管理対象デバイステーブルに移動します。

1つ以上のデバイスでエージェントに関連するタスクを実行するには、エージェントのチェックボックス(テーブルの最初の列)を選択します。テーブルの上にエージェント メニュー が表示され、選択したエージェントで使用可能なタスク(確認、インストール、アンインストール、OSイメージのアップグレード、プロファイルの割り当て、削除)が表示されます。

単一のデバイスでエージェントに関連するタスクを実行するには、デバイスの アクション ボタンをクリックします。 エージェントメニュー が垂直方向に表示され、利用可能なタスク(確認、インストール、アンインストール、OSアップグレード、元に戻す、元の設定の収集、ログの表示、アクティブなジョブのキャンセル、編集、削除)が表示されます。

エージェントに関連するタスクの実行の詳細については、次のページを参照してください。

NVIDIA コンピューティング エージェント

注意:

sudo 権限と GPU サーバーへのパスワードレス アクセスがあることを確認しない限り、コンピューティング エージェントのインストールは失敗します。

注:ZTPは、コンピューティングエージェントではサポートされていません。また、元の設定はコンピューティングエージェントには適用されません。

コンピューティングエージェントはオンボックスエージェントであり、NVIDIA DGX A100およびDGX H100 GPUサーバーにロードされます。これらのGPUサーバーにはUbuntu 22.0.4がインストールされています。

各GPUサーバーには8つのGPUがあり、各GPUはConnectX-6/7 RDMAインターフェイスに割り当てられています。各インターフェイスはレールのメンバーであり、インターフェイスはレールグループの一部です。この番号付けスキームに従って、インターフェイスをレールグループに割り当てることができます。例えば、インデックスが0のインターフェイスがある場合、そのインターフェイスをレール1と呼ばれるグループに追加できます。インデックスが 1 の場合、そのインターフェイスをレール 2 というグループに追加できます。レール 8 に到達するまで、以下のように追加できます。デフォルトでは、すべてのレールは異なるリーフデバイスに接続されていますが、リーフごとに複数のレールを使用して最適化されたテンプレートを設計できます。

コンピューティングエージェントのインストールは手動プロセスであるため、ゼロタッチプロビジョニングはサポートされていません。また、元の設定はサポートされていません。コンピューティングエージェントの作成はまだ比較的簡単です。このプロセスは、スイッチ上でシステムエージェントを作成するのと非常によく似ています。ただし、コンピュートエージェントはテレメトリ専用であり、設定がGPUサーバーにプッシュされることはありません。GPUサーバーの論理デバイス、デバイスプロファイル、インターフェイスマップは、製品の一部として含まれています。作成する必要はありませんが、必要に応じて変更できます。

NVIDIA Compute Agents

コンピューティングエージェントを使用して、受信したCNPパケット数と受信したGPUアウトオブシーケンス(OOS)パケット数を監視できます。その後、分析エンジンがこのデータを使用し、このリアルタイムデータを使用して、ネットワークパフォーマンス、トラフィックパターン、潜在的な輻輳ポイント、影響を受けるエンドポイントに関するインサイトを提供できます。この情報は、パフォーマンスのボトルネックや異常を特定するのに役立ちます。

カスタマイズ可能なダッシュボードを作成して、収集しているデータに関するリアルタイムおよび履歴のインサイトを提供することもできます。この機能は、情報に基づいたデータ主導型の意思決定を行うのに役立ちます。

コンピューティングエージェントの一部として、GPU_Hardware_CountersとGpu_Infiniband_Dev_To_Interfaceの2つの新しいテレメトリサービスを利用できます。詳細については、「 GPUハードウェアカウンター」を参照してください。

また、次のサービスがコンピューティングエージェントで実行するように拡張されました。

  • LLDP

    ホスト名

    インターフェース

    Interface_Counters

    Resource_Util

    Disk_Util

NVIDIAコンピュートエージェントのオンボーディングを開始するには、 オンボックスエージェントの作成 を参照してください。

AMDコンピューティングエージェント

Apstra 6.1は、BroadcomやIonicを含むさまざまなNICドライバー用のAMDサーバー用コンピューティングエージェントをサポートしています。

コンピューティングエージェントは、AMDサーバーにインストールされるオンボックスエージェントです。

コンピューティングエージェントのインストールは手動プロセスであるため、ゼロタッチプロビジョニングはサポートされていません。また、元の設定はサポートされていません。コンピューティングエージェントの作成はまだ比較的単純で、プロセスはスイッチ上にシステムエージェントを作成することと非常によく似ています。ただし、コンピューティングエージェントはテレメトリ専用であり、設定がGPUサーバーにプッシュされることはありません。テレメトリモードのみなのでそのため、この種のデバイスには、手付かずの設定やZTPは必要ありません。GPUサーバーの論理デバイス、デバイスプロファイル、インターフェイスマップは、製品の一部として含まれています。作成する必要はありませんが、必要に応じて変更できます。この新しい追加機能は主に、ApstraがNVIDIAサーバーに対して行うのと同じテレメトリをAMDサーバーに提供することを目的としています。

コンピュート・エージェントのインストールの詳細は、 オンボックス・エージェントの作成を参照してください。

AMD GPUサーバー上のテレメトリ収集

  • GPU固有のカウンター: コンピュート・エージェントは、RMDAドライバー・パスからGPUハードウェア・カウンターを収集します。これらのカウンターはベンダーに依存しません。AMDサーバーの場合、これらのカウンターは/sys/class/infiniband/<driver>/ports/1/hw_countersにあります。Apstraは、AMD GPUサーバーに対してもNVIDIA GPUサーバーと同じカウンターをサポートします。AMD GPUハードウェアカウンターとテレメトリサービスの詳細については、 AMD GPUハードウェアトラフィックカウンターを参照してください。
  • NIC固有のカウンター(BroadcomやIonicなど):コンピュートエージェントは、スループット、パケットレート、FCSエラーなどのNICインターフェイスデータをethtool経由で収集します。デバイステレメトリの詳細については、「 デバイステレメトリサービス」を参照してください。
  • GPUからNICへのマッピング: コンピューティングエージェントは、GPUインデックスを対応するネットワークインターフェイス(GPU0からgpu0_ethなど)に自動的にマッピングします。AMDサーバーでは、このマッピングは「rdma link show」コマンドから派生します。このコマンドは、RMDA デバイスをネットワーク インターフェイスに関連付けます。

検証

  • サーバー側とApstra側からコンピューティングエージェントが正しくインストールされたことを確認するにはどうすればよいですか?

    GUIでジョブを確認するか、サーバーで sudo service aos status コマンドを実行できます。

  • エージェントが正常に動作しており、Apstraコントローラに接続されていることを確認するにはどうすればよいですか?

    エージェントをブループリントに追加している場合、Apstraは監視し、問題があればライブネスの異常を発生させます。

  • Apstraサーバーを再起動した後、動作が正常に行われていることを確認するにはどうすればよいですか?

    service aos statusまたはsystemctl status aosコマンドを実行します。

  • GPUサーバーが別の環境に再デプロイされ、GPUサーバーのプラグを抜く前にエージェントが削除されなかった場合はどうすればよいですか?

    dpkg --purge --force-all aos-device-agentコマンドを実行します

    その後に rm -fr /etc/aos /var/log/aos コマンドが続きます。

  • a)Apstraがアップグレードされた、b)Apstraが順不同でアップグレードされた、c)エージェントに問題がある場合、エージェントはどのようにアップグレードされますか?

    https://www.juniper.net/documentation/us/en/software/apstra5.1/apstra-install-upgrade/topics/topic-map/apstra-server-upgrade-diff.html#installation-guide_upgrading_on-box_agents_vm-vm

  • エージェントがApstraコントローラに接続されていることを確認するにはどうすればよいですか?エージェントはApstraコントローラとの通信にどのポートを使用し、どのプロトコルを使用しますか?

    https://www.juniper.net/documentation/us/en/software/apstra5.1/apstra-install-upgrade/topics/topic-map/apstra-server-upgrade-diff.html#installation-guide_upgrading_on-box_agents_vm-vm
  • エージェントに問題が発生した場合、GPUサーバー上のエージェントを再起動するにはどうすればよいですか?

    sudo service aos restartコマンドを実行します。