DeepSeek-R1-32B 本地部署笔记
八雲寺幽幽子
2025年02月02日 20:04
deepseek

记录DeepSeek-R1-32B本地部署过程,日期:2025年1月31日

环境配置

1、硬件配置

  • GPU:Tesla P40 (24GB VRAM)

  • 系统内存:16GB DDR4

  • 存储:至少 60GB 剩余空间

  • CPU:AMD Ryzen 7 1700 (3.0GHz)

  • CUDA版本:12.4

2、软件环境

  • LM Studio 0.3.9(Build5)(持GGUF格式)

  • Windows 11 Pro 24H2

  • NVIDIA Driver 551.78

部署流程

1. 模型获取

  • 下载地址:https://hf-mirror.com/

  • 模型版本:DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf(速度与质量平衡)

2.M Studio配置

1.修改模型目录:在“我的模型”中更改默认路径,(注意修改后的模型路径必须为两层文件夹嵌套)。

2.硬件参数调整:1、上下文长度,根据内存大小进行调整,推荐4096。2、GPU卸载(用于GPU加载模型的数量),根据GPU性能调整,我这里为64。3、评估批处理大小,根据内存大小进行调整,推荐512。4、CPU核心数,建议拉满。

尝试运行

成功运行。

性能指标

参数 数值

Tokens/s 12-15

内存占用 13.2GB

显存占用 19.8GB

首次加载时间 2m15s

ps:模型加载过程中内存持续满载,加载完毕后,内存持续占用大约在2.5GB左右。

ps:模型加载完成后显存持续占用19.8GB。

ps:实测这套硬件配置无法运行32B-Q5_K_M(显存不足),更无法运行70B的任何量化版本。所以32B-Q4_K_M已经是极限。

ps:实际用下来感觉32B-Q4与Deepseek官方差距比较大,不论是模型参数还是生成速度都无法相提并论,毕竟官方是原版的671B大模型。

这次本地部署DeepSeek-R1主要意义在于证实了家用机硬件配置本地部署运行R1的可行性。以及便于后期对该模型的调整和优化。