DeepSeek 是目前性能最强、开放程度最高的国产大语言模型之一。将 DeepSeek 部署在企业内网，可以获得接近顶级云 API 的推理能力，同时确保所有业务数据不离开企业边界。本文从硬件选型到服务上线，完整记录企业本地化部署 DeepSeek 的全过程，适合有一定 Linux 运维基础的技术团队参考。

一、理解 DeepSeek 模型家族

在动手之前，先搞清楚 DeepSeek 的模型体系。DeepSeek 当前主要有两个系列：

DeepSeek-V 系列（通用推理）：最新版为 DeepSeek-V3，参数量 671B（Mixture-of-Experts 架构，实际激活参数约 37B），是当前开源模型中综合性能最强的选手之一，在代码、数学、中英文理解上表现突出。
DeepSeek-R 系列（深度思考）：最新版为 DeepSeek-R1，在复杂推理、数学证明类任务上超越 GPT-4o，适合需要”慢想”的高价值判断场景。

此外，DeepSeek 提供多种量化蒸馏版本，如 DeepSeek-V3-0324 的 Q4_K_M 量化版、以及基于 Qwen2.5/Llama3 基座的 1.5B、7B、14B、32B、70B 蒸馏版本（DeepSeek-R1-Distill 系列）。

企业选型建议：

高性能要求、有充足 GPU 预算：部署 DeepSeek-V3 或 DeepSeek-R1 满血版（需要多卡 A100/H100）
平衡性能与成本：DeepSeek-R1-Distill-Qwen-32B 或 DeepSeek-V3 量化版（需要 2-4 张 A100）
快速验证、测试环境：DeepSeek-R1-Distill-Qwen-14B 或 7B（单张 A100 或消费级 RTX 4090 可运行）

二、硬件选型详解

2.1 GPU 选型

GPU 是运行大模型推理最核心的硬件。选型时主要考虑三个指标：显存容量（决定能否装载模型）、显存带宽（决定推理速度）、FP16 算力（决定每秒 Token 生成速度）。

GPU 型号	显存	显存带宽	适合模型规模	参考价格（国内）
NVIDIA RTX 4090	24 GB	1,008 GB/s	7B-14B（INT4量化）	~1.8 万元/张
NVIDIA A100 40G	40 GB	1,555 GB/s	7B-34B（FP16）	~8 万元/张
NVIDIA A100 80G	80 GB	2,000 GB/s	最大70B（FP16）	~15 万元/张
NVIDIA H100 80G	80 GB	3,350 GB/s	最大70B（FP16）	~25 万元/张
4× A100 80G NVLink	320 GB	聚合 8 TB/s	DeepSeek-V3 量化版	~65 万元
8× H100 80G NVLink	640 GB	聚合 26.8 TB/s	DeepSeek-V3/R1 满血版	~220 万元

对于大多数中型企业的 PoC 或生产环境，推荐以下两个档位：

入门方案（10-20 万元）：2 × RTX 4090 + 高端工作站，部署 DeepSeek-R1-Distill-Qwen-14B，适合日均 1-5 万次请求
标准方案（60-80 万元）：4 × A100 80G NVLink 服务器，部署 DeepSeek-V3 Q4 量化版，适合日均 10-50 万次请求

2.2 CPU 与内存

CPU 在推理时承担的工作较少（主要负责 Tokenization 和数据预处理），但内存容量很重要——模型权重会从存储先加载到内存再转移到显存，内存不足会导致加载极慢。建议：

服务器 CPU：AMD EPYC 或 Intel Xeon，64 核以上
内存：至少 256 GB DDR5，有多卡时建议 512 GB

2.3 存储

DeepSeek-V3 满血版模型文件约 670 GB（FP16 格式），Q4 量化版约 400 GB。推荐配置：

系统盘：2× 1TB NVMe SSD（RAID 1）
模型盘：4× 2TB NVMe SSD（RAID 0）或企业级 SAN 存储，确保足够的顺序读带宽（>10 GB/s）

2.4 网络

推理服务器对内部网络要求不高，标准万兆以太网即可。如果是多机多卡（超过8卡），则需要 InfiniBand 网络用于卡间通信，成本较高，建议咨询专业厂商。

三、服务器系统准备

3.1 操作系统

推荐 Ubuntu 22.04 LTS Server。CUDA 驱动在 Ubuntu 上的兼容性最好，社区支持最完善。

# 安装完系统后先更新
sudo apt update && sudo apt upgrade -y

# 安装必要工具
sudo apt install -y build-essential git wget curl vim htop nvtop

3.2 安装 NVIDIA 驱动与 CUDA

# 检查 GPU 是否被识别
lspci | grep -i nvidia

# 安装 NVIDIA 驱动（推荐使用官方安装包，版本 ≥ 535）
# 先移除旧驱动
sudo apt purge nvidia* -y
sudo apt autoremove -y

# 添加 NVIDIA 官方 apt 源
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt update
sudo apt install -y nvidia-driver-535

# 重启以加载驱动
sudo reboot

# 重启后验证
nvidia-smi

正常输出示例：

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06   Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|=========================================+========================+======================|
|   0  NVIDIA A100 80GB PCIe          Off |   00000000:01:00.0 Off |                    0 |
| N/A   34C    P0              66W / 300W |       1MiB /  81920MiB |      0%      Default |
+-----------------------------------------------------------------------------------------+

# 安装 CUDA Toolkit 12.2（与驱动版本匹配）
wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
sudo sh cuda_12.2.0_535.54.03_linux.run --toolkit --silent

# 添加 CUDA 到 PATH
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 验证
nvcc --version

3.3 安装 Python 环境

# 安装 Miniconda（推荐，便于隔离环境）
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
echo 'export PATH=$HOME/miniconda3/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

# 创建 Python 3.11 环境（vLLM 推荐版本）
conda create -n deepseek python=3.11 -y
conda activate deepseek

# 安装 PyTorch（CUDA 12.1 版本）
pip install torch==2.3.0 torchvision==0.18.0 --index-url https://download.pytorch.org/whl/cu121

四、模型下载

4.1 从 HuggingFace 下载

# 安装 huggingface_hub
pip install huggingface_hub hf_transfer

# 设置 HF 镜像（国内用户强烈推荐，速度提升 10x）
export HF_ENDPOINT=https://hf-mirror.com

# 下载 DeepSeek-R1-Distill-Qwen-32B（约 65 GB）
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --local-dir /data/models/DeepSeek-R1-Distill-Qwen-32B \
    --local-dir-use-symlinks False

4.2 验证模型文件完整性

# 检查模型文件总大小
du -sh /data/models/DeepSeek-R1-Distill-Qwen-32B/

# 验证 safetensors 文件
python3 -c "
from safetensors import safe_open
import os
model_dir = '/data/models/DeepSeek-R1-Distill-Qwen-32B'
files = [f for f in os.listdir(model_dir) if f.endswith('.safetensors')]
print(f'共 {len(files)} 个模型分片')
for f in files[:3]:
    with safe_open(os.path.join(model_dir, f), framework='pt') as t:
        keys = list(t.keys())
        print(f'{f}: {len(keys)} 个张量')
"

五、推理框架选择与部署

企业场景下，推荐以下两个推理框架：

方案 A：vLLM（推荐生产环境）

vLLM 是目前性能最强的开源 LLM 推理引擎，特点是高吞吐量（通过 PagedAttention 技术）、低延迟、支持连续批处理，兼容 OpenAI API 格式，与现有 AI 应用无缝集成。

# 安装 vLLM（确保在 deepseek conda 环境中）
conda activate deepseek
pip install vllm==0.5.5

# 启动 DeepSeek-R1-Distill-Qwen-32B 服务
# 单卡 A100 80G：
python -m vllm.entrypoints.openai.api_server \
    --model /data/models/DeepSeek-R1-Distill-Qwen-32B \
    --served-model-name deepseek-r1-32b \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.92

# 双卡或四卡张量并行（显存合并）
python -m vllm.entrypoints.openai.api_server \
    --model /data/models/DeepSeek-V3 \
    --served-model-name deepseek-v3 \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 65536 \
    --dtype bfloat16 \
    --tensor-parallel-size 4 \     # 4 张 GPU
    --gpu-memory-utilization 0.90

验证服务是否正常：

# 测试 API 连通性
curl http://localhost:8000/v1/models

# 发送推理请求
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1-32b",
    "messages": [{"role": "user", "content": "用一句话解释什么是 Agentic AI"}],
    "temperature": 0.7,
    "max_tokens": 200
  }'

方案 B：Ollama（推荐开发/测试环境）

Ollama 部署更简单，一行命令即可运行，适合开发测试和快速验证，但在高并发场景下性能不如 vLLM。

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行 DeepSeek-R1:32B
ollama run deepseek-r1:32b

# 或拉取 7B 轻量版用于测试
ollama run deepseek-r1:7b

# Ollama 默认监听 127.0.0.1:11434，允许局域网访问需设置环境变量
OLLAMA_HOST=0.0.0.0:11434 ollama serve

六、配置系统服务（vLLM 生产方案）

将 vLLM 配置为 systemd 服务，确保服务器重启后自动恢复：

# 创建启动脚本
cat > /opt/deepseek/start_vllm.sh << 'EOF'
#!/bin/bash
source /root/miniconda3/etc/profile.d/conda.sh
conda activate deepseek
exec python -m vllm.entrypoints.openai.api_server \
    --model /data/models/DeepSeek-R1-Distill-Qwen-32B \
    --served-model-name deepseek-r1-32b \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.92
EOF
chmod +x /opt/deepseek/start_vllm.sh

# 创建 systemd service 文件
cat > /etc/systemd/system/deepseek-vllm.service << 'EOF'
[Unit]
Description=DeepSeek vLLM Inference Server
After=network.target

[Service]
Type=simple
User=root
WorkingDirectory=/opt/deepseek
ExecStart=/opt/deepseek/start_vllm.sh
Restart=on-failure
RestartSec=10
StandardOutput=journal
StandardError=journal
Environment=CUDA_VISIBLE_DEVICES=0
Environment=NCCL_P2P_DISABLE=1

[Install]
WantedBy=multi-user.target
EOF

# 启用并启动服务
systemctl daemon-reload
systemctl enable deepseek-vllm
systemctl start deepseek-vllm
systemctl status deepseek-vllm

七、Nginx 反向代理与访问控制

不建议直接暴露 vLLM 的 8000 端口到内网，而是通过 Nginx 做反向代理，添加认证和限流控制：

sudo apt install -y nginx apache2-utils

# 创建访问密码文件
sudo htpasswd -c /etc/nginx/.deepseek_passwd api_user

# Nginx 配置
cat > /etc/nginx/sites-available/deepseek << 'EOF'
upstream deepseek_backend {
    server 127.0.0.1:8000;
    keepalive 32;
}

server {
    listen 443 ssl;
    server_name ai.yourcompany.internal;

    ssl_certificate     /etc/ssl/internal/cert.pem;
    ssl_certificate_key /etc/ssl/internal/key.pem;

    # 基本认证（API Key 替代方案）
    auth_basic "DeepSeek API";
    auth_basic_user_file /etc/nginx/.deepseek_passwd;

    # 限流：每个 IP 每秒最多 10 个请求
    limit_req_zone $binary_remote_addr zone=api:10m rate=10r/s;
    limit_req zone=api burst=20 nodelay;

    location / {
        proxy_pass http://deepseek_backend;
        proxy_http_version 1.1;
        proxy_set_header Connection "";
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_read_timeout 300s;   # 长推理任务需要更长超时
        proxy_send_timeout 300s;
        client_max_body_size 10M;
    }
}
EOF

sudo ln -sf /etc/nginx/sites-available/deepseek /etc/nginx/sites-enabled/
sudo nginx -t && sudo systemctl reload nginx

八、性能调优

8.1 显存优化

# 如果显存不足，尝试以下参数组合
python -m vllm.entrypoints.openai.api_server \
    --model /data/models/DeepSeek-R1-Distill-Qwen-32B \
    --max-model-len 16384 \           # 降低最大序列长度
    --quantization awq \              # 使用 AWQ 量化（需要量化版模型）
    --gpu-memory-utilization 0.85 \   # 保留更多显存余量
    --swap-space 16                   # 使用 16 GB 内存作为 KV Cache 换页

8.2 吞吐量优化

# 启用推测解码（Speculative Decoding），在长文本生成场景下可提速 20-40%
python -m vllm.entrypoints.openai.api_server \
    --model /data/models/DeepSeek-R1-Distill-Qwen-32B \
    --speculative-model /data/models/DeepSeek-R1-Distill-Qwen-7B \
    --num-speculative-tokens 5 \
    ...

# 设置合理的批处理大小
--max-num-seqs 256 \          # 最大并发请求数
--max-num-batched-tokens 32768  # 批处理最大 token 数

8.3 监控指标

vLLM 内置 Prometheus 指标端点，可配合 Grafana 构建监控看板：

# 访问 metrics 接口
curl http://localhost:8000/metrics

# 关键指标
# vllm:num_requests_running       - 当前运行中的请求数
# vllm:gpu_cache_usage_perc       - KV Cache 使用率（应 < 90%）
# vllm:generation_tokens_total    - 累计生成 Token 数
# vllm:time_to_first_token_seconds - 首 Token 延迟（企业场景目标 < 2s）

九、与企业应用集成

vLLM 完整兼容 OpenAI API 格式，现有使用 OpenAI SDK 的应用，只需修改 base_url 和 api_key 即可无缝切换到本地 DeepSeek：

# Python 示例
from openai import OpenAI

client = OpenAI(
    api_key="your-internal-api-key",  # Nginx 认证密码
    base_url="https://ai.yourcompany.internal/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1-32b",
    messages=[
        {"role": "system", "content": "你是元帆科技的企业 AI 助手。"},
        {"role": "user", "content": "帮我分析一下这份合同中的风险条款。"}
    ],
    temperature=0.3,
    max_tokens=2048
)

print(response.choices[0].message.content)

十、安全加固清单

生产环境上线前，确认以下安全措施已落实：

✅ GPU 服务器不直接暴露公网，仅在内网可访问
✅ vLLM 端口（8000）仅监听 127.0.0.1，通过 Nginx 代理
✅ Nginx 已配置 HTTPS（自签名证书或内网 CA 签发）
✅ API 访问有认证机制（Basic Auth 或自定义 API Key 中间件）
✅ 限流规则已配置，防止内网用户误操作耗尽 GPU 资源
✅ 访问日志已开启，便于审计和故障排查
✅ 服务器开启防火墙，仅开放必要端口（22、443）
✅ 定期备份模型文件（或记录 HuggingFace 模型版本 hash，确保可重现）

十一、常见问题排查

Q：启动时报 CUDA out of memory？
降低 --gpu-memory-utilization 参数（如从 0.92 降至 0.85），或减少 --max-model-len。如果显存仍不够，考虑使用量化版模型或增加 GPU。

Q：模型加载速度很慢？
检查存储读速：hdparm -t /dev/nvme0n1。如果低于 2 GB/s，建议升级到 NVMe SSD。也可以预先将模型加载到内存中：设置 --preemption-mode recompute 并确保内存充裕。

Q：推理速度比预期慢？
运行 nvidia-smi 检查 GPU 利用率是否持续 >80%。如果偏低，可能是批处理参数未调优，尝试增大 --max-num-seqs。

Q：中文输出乱码？
确保服务器 locale 设置为 UTF-8：localectl set-locale LANG=zh_CN.UTF-8，重启服务。

结语

企业本地部署 DeepSeek 并不是一件遥不可及的事情。一台配置合理的服务器、一套标准化的部署流程，就能让企业拥有完全自主可控的大模型推理能力。随着 DeepSeek 模型性能的持续提升和量化技术的成熟，"私有化部署顶级大模型"的硬件门槛正在以每年 30-50% 的速度下降。

元帆科技提供企业大模型私有化部署的全套服务，包括硬件采购咨询、推理集群搭建、模型精调微调以及上层应用开发，帮助企业在 4-8 周内完成从零到生产就绪的私有化 AI 平台。如需了解详情，欢迎通过官网联系我们。

企业内部本地部署 DeepSeek：从硬件选型到服务上线全过程