Ollama突然无法识别GPU问题
问题描述#
在 Docker 容器中运行 Ollama 时, GPU 最初可用,但运行一段时间后会突然失效,无法被 Ollama 识别到。

原因分析#
Docker 默认使用 systemd 作为 cgroup 驱动(native.cgroupdriver=systemd),而 NVIDIA 容器运行时(nvidia-container-runtime)在某些情况下与 systemd 不兼容,导致:
GPU 设备权限丢失:/dev/nvidia* 设备节点在运行过程中被 systemd 动态调整,导致容器无法访问
GPU 无法识别:nvidia-container-runtime 无法正确挂载 GPU 设备