Gemma 4 本地部署硬件选购指南

🧬 Gemma 4 模型家族（2026-04-02 发布）

模型	架构	总参数	上下文	支持模态	定位
E2B	Dense (PLE)	~5.1B	128K	文/图/音/视频	手机端
E4B	Dense (PLE)	~5.1B	128K	文/图/音/视频	手机/轻量
26B A4B	MoE	26B（激活4B）	256K	文/图/视频	⭐ 主力推荐
31B	Dense	31B	256K	文/图/视频	旗舰

💡 E 系列的秘密：E2B/E4B 使用 Per-Layer Embeddings（PLE）技术，推理深度远超同参数量模型——用"小身体装了大脑"，是手机端的最优选择。

💾 显存/内存需求一览表

模型	Q4 量化	Q8 量化	BF16 全精度
E2B	~2 GB	~5 GB	~15 GB
E4B	~5 GB	~8 GB	~15 GB
26B A4B	~18 GB	~28 GB	~52 GB
31B	~20 GB	~34 GB	~62 GB

📱 按设备推荐配置

📱 手机端（iPhone 17 Pro / 高端安卓）

12GB 统一内存 · A19 Pro / 骁龙旗舰 · Neural Engine 加持

✅ 推荐：E4B Q4（~5GB）或 E2B Q8（~5GB）
支持：文字 + 图片 + 音频 + 视频多模态输入

💻 Mac M4 / M5（32GB 统一内存）

统一内存架构 · 约 120-150 GB/s 带宽 · 超低功耗

✅ 推荐：26B A4B Q4（~18GB）
速度约 30-50 t/s，支持 256K 超长上下文

🖥️ Win + RTX 4080 Super（16GB VRAM）

16GB GDDR6X · 736 GB/s 带宽 · 32GB 系统内存

✅ 推荐：26B A4B Q4（溢出约 2GB 到内存）约 40-50 t/s
✅ 也可跑：Qwen3-14B Q8（完全在 VRAM 内，极速）

🚀 Win + RTX 4090（24GB VRAM）推荐升级

24GB GDDR6X · ~1008 GB/s 带宽 · 顶级本地推理

✅ 推荐：31B Q4（全速，约 80-120 t/s）
✅ 26B A4B Q8（完整精度，约 60-80 t/s）
可跑任意 70B 以下模型

🏆 Mac M5 Pro（64GB 统一内存）2026年6月发布

64GB 统一内存 · 预计 ~200 GB/s 带宽 · macOS 生态

✅ 推荐：31B Q8（高精度，约 40-60 t/s）
✅ 还可跑：Qwen3-30B、Llama 3.3 70B Q4
256K 超长上下文不成问题

⚡ 26B A4B Q4 生成速度横向对比

硬件	生成速度	上下文支持
iPhone 17 Pro	~7 t/s	128K
Mac M4 32GB	~35 t/s	256K
RTX 4080S 16GB	~45 t/s	128K（溢出）
RTX 4090 24GB	~119 t/s	256K
RTX 5090 32GB	~180 t/s	256K

🚀 5 分钟跑起来（Ollama）

# macOS / Linux
brew install ollama

# 日常对话（手机/轻量Mac）
ollama run gemma4:e4b

# 主力模型（Mac 32GB / Win 4080S+）
ollama run gemma4:26b-a4b

# 旗舰（Mac 64GB / Win 4090）
ollama run gemma4:31b

# 中文专用（Win 4080S，完全在 VRAM 内）
ollama run qwen3:14b

💡 骚操作：Win 电脑跑 Ollama 开启远程访问，Mac / 手机通过局域网调用，实现"Win 当 GPU 服务器，Mac/手机当客户端"的家庭 AI 局域网。

🌟 其他值得跑的本地模型

模型	VRAM（Q4）	最强项	推荐硬件
Qwen3-8B	~6 GB	中文日常，极速	任何 8GB+
Qwen3-14B	~10 GB	中文推理强	16GB VRAM
Qwen3-Coder 30B	~20 GB	写代码专用	24GB VRAM
Llama 3.3 70B	~40 GB	英文质量最高	48GB+ 或多卡
DeepSeek-R2-Lite	~14 GB	推理/数学	16GB VRAM