1、硬件配置
GPU:Tesla P40 (24GB VRAM)
系统内存:16GB DDR4
存储:至少 60GB 剩余空间
CPU:AMD Ryzen 7 1700 (3.0GHz)
CUDA版本:12.4
2、软件环境
LM Studio 0.3.9(Build5)(持GGUF格式)
Windows 11 Pro 24H2
NVIDIA Driver 551.78
1. 模型获取
下载地址:https://hf-mirror.com/
模型版本:DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf(速度与质量平衡)
2.M Studio配置
1.修改模型目录:在“我的模型”中更改默认路径,(注意修改后的模型路径必须为两层文件夹嵌套)。

2.硬件参数调整:1、上下文长度,根据内存大小进行调整,推荐4096。2、GPU卸载(用于GPU加载模型的数量),根据GPU性能调整,我这里为64。3、评估批处理大小,根据内存大小进行调整,推荐512。4、CPU核心数,建议拉满。


成功运行。
参数 数值
Tokens/s 12-15
内存占用 13.2GB
显存占用 19.8GB
首次加载时间 2m15s
ps:模型加载过程中内存持续满载,加载完毕后,内存持续占用大约在2.5GB左右。

ps:模型加载完成后显存持续占用19.8GB。

ps:实测这套硬件配置无法运行32B-Q5_K_M(显存不足),更无法运行70B的任何量化版本。所以32B-Q4_K_M已经是极限。
ps:实际用下来感觉32B-Q4与Deepseek官方差距比较大,不论是模型参数还是生成速度都无法相提并论,毕竟官方是原版的671B大模型。