Kubernetes 支持对节点上的 AMD 和 NVIDIA 的 GPU 进行管理,目前处于实验状态。

用户如何在不同的 Kubernetes 版本中使用 GPU,以及当前存在的一些限制。

Kubernetes 实现了 Device Plugins 以允许 Pod 访问类似 GPU 这类特殊的硬件功能特性。作为运维管理人员,你要在节点上安装来自对应硬件厂商的 GPU 驱动程序,并运行来自 GPU 厂商的对应的设备插件。

节点需要使用 NVIDIA 的 GPU 资源的话,需要先安装 k8s-device-plugin 这个插件,并且需要事先满足下面的条件:

Docker 的默认运行时必须设置为 nvidia-container-runtime,而不是 runc

--cap-drop=ALL --network=none \

显卡插件,就是在我们通过在配置文件里面指定如下字段之后,启动 pod 的时候,系统给为我们的服务分配对应需要数量的显卡数量,让我们的程序可以使用显卡资源。

需要注意的是,第一次安装显卡驱动的话,是不用重启服务器的,后续更新驱动版本的话,则是需要的。但是建议第一次安装驱动之后,最好还是重启下,防止意外情况的出现和发生。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!