-v $(pwd):/data--workdir /data \

发布时间:2025-06-24 19:25:09  作者:北方职教升学中心  阅读量:927


镜像包括Tensort-LLM和Tensort-LLMTensorRT,

  -v $(pwd):/data--workdir /data \。

2、 Huggingface 下载hf模型并保存 ,

最近准备用Triton Inference Server部署了三个大型llama模型,

1、

  nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3。

镜像包括Tensort-LLM和Tensort-LLMTenso。终于取得了巨大的成功。 保存在本地,

docker run --rm -it --net host --gpus all \。单独创建docker,安装tensortter-LLM,

 docker pull nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3。

环境: RHEL9    NVIDIA Tesla V100。查阅了很多中英文资料,

  --shm-size=2g --ulimit memlock=-1 --ulimit stack=67108864 \。假设保存在/data下。听了很多NVIDIA课程,

3、 $(pwd)=/data, 以下操作均在/data下进行。 进入Docker,不需要。以后每次启动都不需要pull。因为数据很少。下载triton inference server镜像,经过多次尝试,比如:。