llama.cpp本地部署gemma-4-26B-A4B-it-UD-IQ3_S.gguf模型全过程-大海资源网

大海视频教程：

bilibili：https://www.bilibili.com/video/BV1nGSSBwEEr/

本地模型的参数量直接决定了模型的智商水平，大海在视频里测试过Qwen2.5-Coder-7b和qwen3.5-4b，对于简单的数学推理题都没办法做出正确答案。

随着量化和专家模型的出现，使得低配置电脑也可以跑高参数量模型，当然一个高性能的框架也非常重要，llama.cpp是一众可视化引擎如ollama，lmstudio等的底层框架，直接由c++开发，性能上要超过可视化引擎，不过配置过程略复杂，今天咱们来拆解下。

1、github下载llama.cpp源码

不同的系统和不同的配置要下载不同的版本

windows系统下的版本对应关系如表

版本名称	核心对应硬件	性能表现
Windows x64 (CPU)	纯 CPU，不分显卡	慢！全靠内存，读题 0.x t/s
Windows arm64 (CPU)	骁龙 X Elite / 苹果 M 系列	移动平台专用
Windows x64 (CUDA 12/13)	NVIDIA 显卡 (RTX系列)	最快！满血加速
Windows x64 (Vulkan)	所有的显卡（Intel/核显/老AMD）	通用性强，但不如 CUDA
Windows x64 (SYCL)	Intel 显卡 (Arc系列)	Intel 专门优化
Windows x64 (HIP)	AMD 显卡 (RX系列)	AMD 专门优化

以大海为例，我是RTX2080super，那我就选cuda平台的，cuda平台的要下载两个文件，务必注意，将下载的源码解压到一个文件夹，最好解压到固态硬盘以提升速度，文件路径最好是全英文。

2、下载模型

可以去抱脸或者魔搭社区下载模型，注意模型格式直接下载GGUF格式，没找到就搜索下，眼下这个节点大海这个电脑可以跑qwen3.5-35b-a3b-UD-IQ4_XS或者gemma-4-26B-A4B-it-UD-IQ3_S.gguf

意思就是gemma4这个模型，26b的参数量，a4b的专家模型一次只读取4b的参数，IQ3的量化，IQ是新的重要性矩阵量化模式，IQ3几乎持平传统的Q4量化，但体积却更小了。

你会发现即使是这样量化再压缩，模型的体积也达到了13GB，8g显存是完全放不下的，还好llama.cpp支持内存cpu和gpu混合计算，也就是用内存替代显存，虽然速度慢点，但能跑呀，理论上只要你的内存+显存>模型体积，那就是能跑的，当然实际上还得考虑操作系统对内存和显存的占用，还有上下文长度也需要占用存储。

ps:如果你只是用文字，那你只需要主模型就可以，但假如你要图片相关的交互，那还需要下载mmproj（多模态投影器）的视觉模型文件，这个文件一般不大。

3、powershell启动模型

在llama.ccp文件夹打开powershell窗口，用命令启动模型

.\llama-server.exe `
  --model "D:\AI\models\Qwen3.5-35B-A3B-UD-IQ4_XS.gguf" `
  --ctx-size 16384 `
  --batch-size 1024 `
  --ubatch-size 512 `
  --n-gpu-layers 99 `
  --threads 12 `
  --cache-type-k q4_1 `
  --cache-type-v q4_1 `
  --flash-attn on `
  --mlock `
  --temp 0.7 `
  --top-p 0.8 `
  --top-k 20 `
  --min-p 0.05 `
  --reasoning off `
  --port 8080 `
  --host 0.0.0.0

这里有必要对里面的一些参数做出注释，方便大家对照修改

ctx-size：上下文长度，长文本输入或者openclaw调用需要较长的上下文长度，但越长输出的速度越慢

batch-size：批处理，影响读取速度，决定了 AI 在“思考”之前，一次性能够“吞下”并处理多少个 Token，增加可以提升长文本处理速度，太大会噎着

ubatch-size：显卡实际执行时的物理分片量，防止噎着，所以ubatch-size需要小于等于batch-size

n-gpu-layers：加载到GPU的模型层数，层数越多生成的越快，99就是全量加，显存不够就会内存凑，有时需要平衡和上下文长度的数值，保证读取和生成速度都不慢

threads：cpu线程数，当 GPU 塞不下模型时，CPU 调用线程来处理剩下的计算任务。

cache-type-k和v：它们决定了 AI 在对话过程中，用来存储“记忆”的内存空间被压缩到了什么程度，有四个档可选f16（无压缩），q8_0（压缩50%智力损失小），q4_1（压缩75%智力损失轻微），q4_0（智力损失大不适合高智力模型）

flash-attn：显存节省神器。开启后能显著降低长文本时的显存占用，提高效率。

mlock：强制锁死内存，禁止系统把 AI 模型的数据交换（Swap）到硬盘上

temp：随机性/创造力，越高越天马行空（适合写文案），越低越严谨（适合写代码）。

top-p：过滤掉低概率的词。0.8 表示只从前 80% 概率的词里选，防止胡言乱语。

top-k：每次 AI 准备蹦出下一个字时，只从概率最高的前 20个候选词里选。

min-p：比 top-p 更好的筛选方式，去除无关痛痒的干扰词，提高逻辑性。

reasoning off：关闭显示思考过程，缩短结果输出时间

port：调用端口

host：谁能调用

模型调用成功，就会在命令窗口看到访问端口

这时所有的能使用openai范式端口的客户端都可以调用该模型，比如openclaw，cherry-studio，LobeChat，NextChat，Page Assist，AnythingLLM等等

调用地址：http://127.0.0.1:8080/v1

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

llama.cpp本地部署gemma-4-26B-A4B-it-UD-IQ3_S.gguf模型全过程

大海视频教程：

1、github下载llama.cpp源码

2、下载模型

3、powershell启动模型

评论(0)

提示：请文明发言取消回复

精选好文

腾讯本地小龙虾qclaw内测邀请码申请链接

2026本地小龙虾避坑指南：OpenClaw + Ollama 加固部署全流程

中美AI对局逆转，deepseek大模型打脸微软，让川普发声

2026ollama安装包网盘下载（长期更新）

LM Studio本地模型对接openclaw教程

openclaw直连微信教程，无需内网穿透

Deepseek+Ollama+AnythingLLM搭建本地私人知识库助理

deepseek本地部署教程—deepseek+ollama+chatbox—windows电脑deepseek本地私有化运行

llama.cpp本地部署gemma-4-26B-A4B-it-UD-IQ3_S.gguf模型全过程

大海视频教程：

1、github下载llama.cpp源码

2、下载模型

3、powershell启动模型

相关文章

评论(0)

提示：请文明发言 取消回复

精选好文

标签云

提示：请文明发言取消回复