2026-04-05 · 阿爪出品

Gemma 4 本地部署
硬件选购指南

从手机到旗舰工作站,找到最适合你的本地 AI 配置

🧬 Gemma 4 模型家族(2026-04-02 发布)

模型 架构 总参数 上下文 支持模态 定位
E2B Dense (PLE) ~5.1B 128K 文/图/音/视频 手机端
E4B Dense (PLE) ~5.1B 128K 文/图/音/视频 手机/轻量
26B A4B MoE 26B(激活4B) 256K 文/图/视频 ⭐ 主力推荐
31B Dense 31B 256K 文/图/视频 旗舰
💡 E 系列的秘密:E2B/E4B 使用 Per-Layer Embeddings(PLE)技术,推理深度远超同参数量模型——用"小身体装了大脑",是手机端的最优选择。

💾 显存/内存需求一览表

模型 Q4 量化 Q8 量化 BF16 全精度
E2B ~2 GB ~5 GB ~15 GB
E4B ~5 GB ~8 GB ~15 GB
26B A4B ~18 GB ~28 GB ~52 GB
31B ~20 GB ~34 GB ~62 GB

📱 按设备推荐配置

📱 手机端(iPhone 17 Pro / 高端安卓)

12GB 统一内存 · A19 Pro / 骁龙旗舰 · Neural Engine 加持
✅ 推荐:E4B Q4(~5GB)或 E2B Q8(~5GB)
支持:文字 + 图片 + 音频 + 视频多模态输入

💻 Mac M4 / M5(32GB 统一内存)

统一内存架构 · 约 120-150 GB/s 带宽 · 超低功耗
✅ 推荐:26B A4B Q4(~18GB)
速度约 30-50 t/s,支持 256K 超长上下文

🖥️ Win + RTX 4080 Super(16GB VRAM)

16GB GDDR6X · 736 GB/s 带宽 · 32GB 系统内存
✅ 推荐:26B A4B Q4(溢出约 2GB 到内存)约 40-50 t/s
✅ 也可跑:Qwen3-14B Q8(完全在 VRAM 内,极速)

🚀 Win + RTX 4090(24GB VRAM)推荐升级

24GB GDDR6X · ~1008 GB/s 带宽 · 顶级本地推理
✅ 推荐:31B Q4(全速,约 80-120 t/s)
✅ 26B A4B Q8(完整精度,约 60-80 t/s)
可跑任意 70B 以下模型

🏆 Mac M5 Pro(64GB 统一内存)2026年6月发布

64GB 统一内存 · 预计 ~200 GB/s 带宽 · macOS 生态
✅ 推荐:31B Q8(高精度,约 40-60 t/s)
✅ 还可跑:Qwen3-30B、Llama 3.3 70B Q4
256K 超长上下文不成问题

⚡ 26B A4B Q4 生成速度横向对比

硬件生成速度上下文支持
iPhone 17 Pro
~7 t/s
128K
Mac M4 32GB
~35 t/s
256K
RTX 4080S 16GB
~45 t/s
128K(溢出)
RTX 4090 24GB
~119 t/s
256K
RTX 5090 32GB
~180 t/s
256K

🚀 5 分钟跑起来(Ollama)

# macOS / Linux
brew install ollama

# 日常对话(手机/轻量Mac)
ollama run gemma4:e4b

# 主力模型(Mac 32GB / Win 4080S+)
ollama run gemma4:26b-a4b

# 旗舰(Mac 64GB / Win 4090)
ollama run gemma4:31b

# 中文专用(Win 4080S,完全在 VRAM 内)
ollama run qwen3:14b
💡 骚操作:Win 电脑跑 Ollama 开启远程访问,Mac / 手机通过局域网调用,实现"Win 当 GPU 服务器,Mac/手机当客户端"的家庭 AI 局域网。

🌟 其他值得跑的本地模型

模型VRAM(Q4)最强项推荐硬件
Qwen3-8B ~6 GB 中文日常,极速 任何 8GB+
Qwen3-14B ~10 GB 中文推理强 16GB VRAM
Qwen3-Coder 30B ~20 GB 写代码专用 24GB VRAM
Llama 3.3 70B ~40 GB 英文质量最高 48GB+ 或多卡
DeepSeek-R2-Lite ~14 GB 推理/数学 16GB VRAM