今年更新的工作站配置,刚好看到有EPYC本地运行DEEPSEEK R1全量模型的文章,正好我这边配置勉强够就Q5量化就试了一下,实际上Q6应该也能勉强运行,不过内存空间比较极限,后面再试试吧;
这里做个简单分享;
配置 ADM EPYC 9575f 单路 技嘉 MZ33-CP1 12*48G DDR5 6400MT/S RECC(工作在6000MT/S) RTX4090 win11 24h2;
几乎没有调用显卡,显卡负载主要是录制屏幕;
运行的模型是unsloth Q5_K_M量化的Deepseek R1,模型文件大小为475GB;
在没有上下文的时候速度可以达到6+ tok/S,有上下文的时候吐字速度会降低,只有4-5tok/S;
在吐字的时候目测瓶颈主要还是内存带宽,CPU占用只有1/3,理论上双路提升不少,富佬有条件可以试下;