本地模型的参数量直接决定了模型的智商水平,大海在视频里测试过Qwen2.5-Coder-7b和qwen3.5-4b,对于简单的数学推理题都没办法做出正确答案。
随着量化和专家模型的出现,使得低配置电脑也可以跑高参数量模型,当然一个高性能的框架也非常重要,llama.cpp是一众可视化引擎如ollama,lmstudio等的底层框架,直接由c++开发,性能上要超过可视化引擎,不过配置过程略复杂,今天咱们来拆解下。
1、github下载llama.cpp源码
不同的系统和不同的配置要下载不同的版本
windows系统下的版本对应关系如表
| 版本名称 | 核心对应硬件 | 性能表现 |
| Windows x64 (CPU) | 纯 CPU,不分显卡 | 慢!全靠内存,读题 0.x t/s |
| Windows arm64 (CPU) | 骁龙 X Elite / 苹果 M 系列 | 移动平台专用 |
| Windows x64 (CUDA 12/13) | NVIDIA 显卡 (RTX系列) | 最快! 满血加速 |
| Windows x64 (Vulkan) | 所有的显卡(Intel/核显/老AMD) | 通用性强,但不如 CUDA |
| Windows x64 (SYCL) | Intel 显卡 (Arc系列) | Intel 专门优化 |
| Windows x64 (HIP) | AMD 显卡 (RX系列) | AMD 专门优化 |
以大海为例,我是RTX2080super,那我就选cuda平台的,cuda平台的要下载两个文件,务必注意,将下载的源码解压到一个文件夹,最好解压到固态硬盘以提升速度,文件路径最好是全英文。

2、下载模型
可以去抱脸或者魔搭社区下载模型,注意模型格式直接下载GGUF格式,没找到就搜索下,眼下这个节点大海这个电脑可以跑qwen3.5-35b-a3b-UD-IQ4_XS
意思就是qwen3.5这个模型,35b的参数量,a3b的专家模型一次只读取3b的参数,IQ4的量化,IQ是新的重要性矩阵量化模式,IQ4几乎持平传统的Q5量化,但体积却更小了。
你会发现即使是这样量化再压缩,模型的体积也达到了17.49GB,8g显存是完全放不下的,还好llama.cpp支持内存cpu和gpu混合计算,也就是用内存替代显存,虽然速度慢点,但能跑呀,理论上只要你的内存+显存>模型体积,那就是能跑的,当然实际上还得考虑操作系统对内存和显存的占用,还有上下文长度也需要占用存储。
ps:如果你只是用文字,那你只需要主模型就可以,但假如你要图片相关的交互,那还需要下载mmproj(多模态投影器)的视觉模型文件,这个文件一般不大。

3、powershell启动模型
在llama.ccp文件夹打开powershell窗口,用命令启动模型
.\llama-server.exe ` --model "D:\AI\models\Qwen3.5-35B-A3B-UD-IQ4_XS.gguf" ` --ctx-size 16384 ` --batch-size 1024 ` --ubatch-size 512 ` --n-gpu-layers 99 ` --threads 12 ` --cache-type-k q4_1 ` --cache-type-v q4_1 ` --flash-attn on ` --mlock ` --temp 0.7 ` --top-p 0.8 ` --top-k 20 ` --min-p 0.05 ` --reasoning off ` --port 8080 ` --host 0.0.0.0
这里有必要对里面的一些参数做出注释,方便大家对照修改
ctx-size:上下文长度,长文本输入或者openclaw调用需要较长的上下文长度,但越长输出的速度越慢
batch-size:批处理,影响读取速度,决定了 AI 在“思考”之前,一次性能够“吞下”并处理多少个 Token,增加可以提升长文本处理速度,太大会噎着
ubatch-size:显卡实际执行时的物理分片量,防止噎着,所以ubatch-size需要小于等于batch-size
n-gpu-layers:加载到GPU的模型层数,层数越多生成的越快,99就是全量加,显存不够就会内存凑,有时需要平衡和上下文长度的数值,保证读取和生成速度都不慢
threads:cpu线程数,当 GPU 塞不下模型时,CPU 调用 线程来处理剩下的计算任务。
cache-type-k和v:它们决定了 AI 在对话过程中,用来存储“记忆”的内存空间被压缩到了什么程度,有四个档可选f16(无压缩),q8_0(压缩50%智力损失小),q4_1(压缩75%智力损失轻微),q4_0(智力损失大不适合高智力模型)
flash-attn:显存节省神器。开启后能显著降低长文本时的显存占用,提高效率。
mlock:强制锁死内存,禁止系统把 AI 模型的数据交换(Swap)到硬盘上
temp:随机性/创造力,越高越天马行空(适合写文案),越低越严谨(适合写代码)。
top-p:过滤掉低概率的词。0.8 表示只从前 80% 概率的词里选,防止胡言乱语。
top-k:每次 AI 准备蹦出下一个字时,只从概率最高的前 20个候选词里选。
min-p:比 top-p 更好的筛选方式,去除无关痛痒的干扰词,提高逻辑性。
reasoning off:关闭显示思考过程,缩短结果输出时间
port:调用端口
host:谁能调用
模型调用成功,就会在命令窗口看到访问端口

这时所有的能使用openai范式端口的客户端都可以调用该模型,比如openclaw,cherry-studio,LobeChat,NextChat,Page Assist,AnythingLLM等等
调用地址:http://127.0.0.1:8080/v1


评论(0)