Skip to content

云gpu服务器运行代码出错 #69

@sudnmf

Description

@sudnmf

autodl平台上,租了rtx4090
(ubuntu22.04)
CUDA 12.8
torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128

服务器是无头的,所以使用 xvfb-run 创建了一个“虚拟显示器”来解决问题。但程序在这个虚拟环境中启动时,依然会崩溃并报 段错误 (Signal 11)。
通过调试器 gdb,我们最终发现,程序崩溃是由于其默认使用的 Vulkan 图形渲染器 与 xvfb 虚拟显示器不兼容。
我们尝试强制程序切换到兼容性更好的 OpenGL 渲染器(通过 -opengl4 参数),但 gdb 的最终调试结果证明,官方提供的这个二进制程序完全忽略了该参数,依旧顽固地使用 Vulkan 并导致崩溃。请问有解决办法吗

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions