-v $(pwd):/data--workdir /data \

发布时间：2025-06-24 19:25:09 作者：北方职教升学中心阅读量：927

。

镜像包括Tensort-LLM和Tensort-LLMTensorRT，

-v $(pwd):/data--workdir /data \。

2、 Huggingface 下载hf模型并保存，

最近准备用Triton Inference Server部署了三个大型llama模型，

1、

nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3。

镜像包括Tensort-LLM和Tensort-LLMTenso。终于取得了巨大的成功。保存在本地，

docker run --rm -it --net host --gpus all \。单独创建docker，安装tensortter-LLM，

docker pull nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3。

环境： RHEL9 NVIDIA Tesla V100。查阅了很多中英文资料，

--shm-size=2g --ulimit memlock=-1 --ulimit stack=67108864 \。假设保存在/data下。听了很多NVIDIA课程，

3、 $(pwd)=/data, 以下操作均在/data下进行。进入Docker，不需要。以后每次启动都不需要pull。因为数据很少。下载triton inference server镜像，经过多次尝试，比如:。