gpu-operator&network-operator部署及验证

gpu-operator是nvidia用来在k8s集群中管理节点gpu驱动容器、runtime以及dcgm监控的operator

network-operator是nvidia用来在k8s集群中管理pod的第二网络ip分配以及IB驱动的部署

环境

版本
OS ubuntu 22.04
Kubernetes 1.31
gpu-operator v25.3.0
GPU H200
network-operator 25.1.0

Kubernetes测试nvidia nccl(IB+GPU)

后续会验证gpu-operator和network-operator的使用 环境kubernetes:1.30 IB驱动版本:MLNX_OFED_LINUX-24.10-1.1.4.0 驱动查看 $ ofed_info -s MLNX_OFED_LINUX-24.10-1.1.4.0 rdma-share-device-plugin安装目前使用的版本应该1.5.2,我直接使用的master分...



正在载入...
PoweredHexo
HostedAliyun
DNSAliyun
ThemeVolantis
UV
PV
BY-NC-SA 4.0