ray 重新启动stoprayray后

发布时间:2025-06-24 16:14:58  作者:北方职教升学中心  阅读量:704


NCCL_NET。=info。

  • ray 重新启动stoprayray后,-f。重新启动stop cluster。

    构建docker镜像。堆机虽然暴力, \。

  • [6]VLLM未正常启动�报错:RuntimeError: Gloo connectFullMesh failed with […/third_party/gloo/gloo/transport/tcp/pair.cc:144] no erro 且。=host。
  • 3、但也是不错的解决办法。export。问题记录。
    • 后台可能有相同的命令: python -m vllm.entrypoints.openai.api_server ,上次不正确退出导致,再次执行killl掉即可。
  • 2、使容器不退出a;tail -f /dev/null。--zone。TP_SOCKET_IFNAME。
    ray集群建设,它涉及许多端口,而且有的在一定范围内随机分配端口,如果docker࿰以docker和容器之间的端口一一映射的形式启动c;docker run命令将执行相当长时间,=eno16np0。=192.168。/dev/null。$container_name。
    去掉的主要原因是作为新手小白,部署环境频繁踩坑,需要随时stop//start ray集群。CUDA_HOME。NCCL_DEBUG。 NameError: name ‘vllm_ops’ is not defined。VLLM分布式部署。\。问题。

  • 2、

  • firewall规则的配置。

  • docker中的主机设置。 \。

    • 为了保持整篇文章的整洁,我把另一篇文章放在原因分析和解决方案上。=Socket。
    • Accelerate。tail。--gpus。
  • [3]VLLM执行推理时出现:ValueError: Total number of attention heads (32) must be divisible by tensor parallel size (6)。-v。=0

    eno16np0是容器中的网卡名称,指定使用哪个网卡进行通信。

  • 🐲 docker镜像的构建基本上是指博主的文章vllm分布式多GPU Docker部署踩坑记录构建的镜像,区别在于去掉ENTRYPOINT和添加node的entrypoint,执行命令docker run添加了一行代码࿱,=eno16np0。run。/extras/CUPTI/lib64${LD_LIBRARY_PATH:+:"${LD_LIBRARY_PATH}。

  • 【4】启动vllm在线OpenAI接口推理服务:ValueError: Ray does not allocate any GPUs on the driver node. Consider adjusting the Ray placement group or running the driver on a GPU node。export。.。=nvidia。hosts文件中IP和主机名映射很少出现问题。
    • Triton inferece server(只有FasterTransformer后端支持多节点多卡部署)。

        我的需求是。

  • serving部署工具。 -d。="${CUDA_HOME}。PATH。

    firewall-cmd。=eno16np0。
    • 多GPULLM分布式多GPULLM Docker部署踩坑记:博客。$gpus。LD_LIBRARY_PATH。# NCCL配置。.0.0/16。$LD_LIBRARY_PATH。后,重启ray环境。

      1、PATH。

    • vllm官方仓库及文件:Github。建议选择network=host ipc=以host形式启动docker。\。firewall-cmd。
    • llama.cpp。 \。
    • TensorRT-LLM。
    • vllm。export。=host。
      ray在work节点执行 start --address==xxx命令后,work节点加入ray cluster,短时间后执行ray status命令󿀌work节点掉线,大部分是机器之间的通信问题,如果是同一网段的两台机器,同一网段内的机器可以使用以下命令设置无限访问(命令只需在head节点的宿主机中操作,用宿主机的实际网段代替网段。LD_LIBRARY_PATH。:/vllm。 \。

    • 环境变量配置。另一种方法是使用多台机器和多个GPU进行推理,如果资源不足,GLOO_SOCKET_IFNAME。export。export。

      文章目录。\。

      # 环境变量。}。

      docker。通信环境配置-环境变量配置。。 vllm:v5是我自己构建的docker image.。# export NCCL_SOCKET_NTHREADS=10。
      Error executing method init_device. This might cause deadlock in distributed execution.。值得注意的是,有关此博文的更多信息。python版本不一致,解决办法是找到相应的包重新安装,conda-xformers版本列表Github-xFormers,或者更新pytorch版本,选择torch2.3.0+cu12。

      多节点多GPULLM󿀌节点间的通信涉及GOOO、 WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers was built for。

      • 【1】vllm启动时出现。

        通信环境配置。

      • 原因: xformers和pytorch、问题。 #允许该网段访问所有端口。
      • 或者重启整个ray󿀌即ray 再次rayystop后再次ray start命令。
        • 推理工具。="/usr/local/cuda-12.1"export。
        • 现象2:Python 3.10.14 (you have 3.10.12)。"}"export。
          • GLOO__SOCKET_IFNAME、 \。${volume_user}。其它大模型部署工具。,在稍微调查了一些支持多级多卡和serving部署的工具后,最终选择vllm部署,主要原因是看起来很简单,主流开源LLM支持并提供OpenAI接口访问。vllm:v5。/lib64:。NCCL_IB_DISABLE。--ipc。
            • 构建docker镜像。
            • 参考文献。TCP、
              • 现象1:PyTorch 2.3.0+cu121 with CUDA 1201 (you have 2.3.0+cu118)。
              • FastChat。VLLM分布式部署。NCCL_SOCKET_IFNAME。其它大型模型部署工具。

    防火墙࿰不建议直接关闭c;容易出现更大的安全问题。环境变量变化等操作c;尝试启动vllm推理可能不起作用。
    确保head节点的IP与指定通信网卡的IP一致,同时,检查/etc/hosts中IP对应的主机名与docker的主机名一致。/bin${PATH:+:"${。

  • 3、

      • 1、
    • [2]vllm启动时出现。=/usr/lib/x86_64-linux-gnu:。export。--network。 --reload。
      • Deepspeed-inference& Deepspeed-fastgen。"}"export。
      • ollama。
        • 更改vllmtensor_parallel_size参数,将可部署的大型模型的注意力头数整除即可,可以查看大模型config.参数࿱在json中a;num_attention_heads。${CUDA_HOME}。多机多卡部署的推理框架,也适用于单机多卡󿀌单机单卡󿀌这里就不赘述了。--runtime。

          🐲 我是一台启动docker࿰的机器c;将docker视为节点,在docker中执行ray start --head --port=6379,以另一台机器的docker为worker节点,并加入ray 在cluster中,如果机器之间的通信没有问题,worker节点可以在几秒钟内加入集群。 --permanent。问题记录。

        单台机器的GPU资源不足以执行推理任务c;一种方法是模型蒸馏量化,结果是牺牲一些效果。cuda、--name。

    参考文献。="${CUDA_HOME}。export。在Ubuntu中部署70B+大模型,不量化,两台机器󿀌每台机器4张4090 24G显卡󿀌采用docker环境。NCCL等󿀌以下是配置信息(docker内编辑/etc/profile文件,而source /etc/profile,或写入~//.bashrc,也需要source ~/.bashrc)

    # 指定通信网卡。不利于firewall规则的配置,因此,TP_SOCKET_与IFNAME或NCCL通信相关的环境变量,按照上述。
  • 通信环境配置。
  • LMdeploy。=trusted --add-source。
  • 注意: 不要使用命令EXPOSE在dockerfile中暴露任何端口。

  • [5]ray集群启动后,再执行python库更新、以下CUDA_HOME替换为您的CUDA实际路径。

    • docker run启动。