9B 参数干翻 80B？阿里开源四款 Qwen3.5 系列小模型

3 月 2 日深夜，阿里通义千问团队在 X 平台正式宣布开源 Qwen3.5 小尺寸模型系列，覆盖 0.8B、2B、4B 和 9B 四个参数规格，专为笔记本电脑、手机等端侧设备设计，一经发布便在海内外开发者圈引发强烈反响。

仅发布三小时后，马斯克便出现在评论区，留下了他的评价：

"Impressive intelligence density"（令人惊艳的智能密度）

四个尺寸，一套架构

四款模型用的是同一套 Gated DeltaNet 混合架构，按 3:1 的比例混合了线性注意力和标准注意力模块：

75% 的层使用 Gated DeltaNet（线性注意力）
25% 的层保留 Gated Attention（标准注意力）

线性注意力的核心优势：内存消耗恒定，不会因为输入文本变长就爆显存。

传统 Transformer 的注意力计算量与序列长度的平方成正比，Gated DeltaNet 把这个关系拉成线性。处理一个 10 分钟的视频，传统方式可能需要 64G 显存，用 Gated DeltaNet 只需 16G 就够了。

此外，四款模型全部支持：

原生多模态（早期融合训练，文本 + 图像 + 视频统一处理）
26 万 Token 超长上下文窗口
思考 / 非思考双模式（深度推理与快速响应自由切换）
Apache 2.0 开源协议，可商用，支持 LoRA / 全量微调

四款模型详解

Qwen3.5-0.8B：不到 10 亿参数，手机都能跑

层数：24 层，隐藏维度 1024
定位：极致轻量，端侧首选
场景：移动设备、IoT 边缘设备、低延时实时交互
亮点：尽管 MMLU-Pro 得分 29.7 较为平平，但受益于早期融合多模态架构，视觉任务 MathVista 达到 62.2，OCRBench 74.5，展现出与参数量不相称的视觉理解能力

Qwen3.5-2B：轻量级多面手，OCR 识别准确率达到 84.5

层数：24 层，隐藏维度 2048
定位：极致轻量，端侧首选
场景：移动终端、物联网边缘设备、实时交互
亮点：OCRBench 达到 84.5，文字识别能力亮眼；有开发者已在 iPhone 17 Pro 上通过 MLX 框架本地运行，实现实时视觉理解与问答

Qwen3.5-4B：多模态能力扎实，定位轻量级 AI Agent 开发

层数：32 层，隐藏维度 2560
定位：轻量级 Agent 的强劲基座
场景：轻量级智能体核心大脑，智能客服、个人助理等多轮对话场景
亮点：在多语言知识、视觉推理、文档理解等任务上媲美更大模型；官方将其定性为"出乎意料强大的多模态轻量智能体底座"

Qwen3.5-9B：这次的明星选手，性能直逼大模型

层数：32 层，隐藏维度 4096，FFN 维度 12288
定位：紧凑尺寸，越级性能
场景：需要较高智力水平但显存资源受限的服务器端部署
亮点：
- MMLU-Pro 得分 82.5，超越参数量为其三倍的上一代 Qwen3-30B
- MMMU-Pro 得分 70.1，在该项测试中以 13 分优势击败 GPT-5-Nano
- MathVision 达到 78.9，证明复杂物理和数学图像解析能力
- 性能媲美 GPT-OSS-120B，体积却只有其十三分之一
- 可在 Mac 上流畅运行，完全免费

性能评测：9B 打赢了谁？

在 GPQA Diamond、MMMU-Pro、ERQA、Video-MME 等多项评测中，Qwen3.5-9B 大幅领先：

| 模型 | MMMU-Pro | 参数量 | |------|----------|--------| | Qwen3.5-9B | 70.1 | 9B | | GPT-5-Nano | 57.1 | 未知 | | GPT-OSS-20B | - | 20B | | Gemini 2.5 Flash-Lite | - | - | | Qwen3-Next-80B-A3B | - | 80B |

一个可以在笔记本电脑上运行的模型，性能却超越了云端旗舰级的 Nano 模型，架构优势远胜于参数数量。—— 开发者评论

qianwen3

开发者圈的真实反应

Mac mini 搭建 AI 员工站：有开发者在 Mac mini 上部署 Qwen3.5-9B 配合 OpenClaw 系统，构建出成本低于初级员工月薪的 AI 工作站。

256k 上下文实测：另一位开发者使用 AMD Ryzen AI Max+395 处理器配合 Q4_K_XL 量化算法，在 256k 上下文窗口下实现每秒 30 个 token 的处理速度，且显存占用不足 16GB。

iPhone 本地运行：有网友演示了在 iPhone 17 Pro 上通过 MLX 框架本地运行 Qwen3.5-2B 6-bit 版本，模型可实时完成视觉理解与问答任务。

Ollama 支持：知名开源推理工具 Ollama 迅速跟进官宣支持 Qwen3.5 全系四个尺寸，只需一行命令即可拉取运行：

ollama run qwen3.5:9b

客观看待：小模型的边界

当然，也有开发者给出了更客观的评价：

4B 模型只是一个智能自动补全工具，而不是一个思考伙伴。GPQA Diamond（研究生水平推理）的正确率约为 45%，HMMT 数学测试的正确率约为 15%。这意味着它在难题上超过一半的概率都会出错。

小型模型的能力固然有限，但其在特定能力维度评测上已达到 Gemini 3 Flash 等云端部署模型的水平，意味着其已经能在很多端边侧场景发挥实际效用。

Qwen3.5 完整家族

至此，千问 3.5 家族已全部开源（共 8 款）：

| 规格 | 模型 | |------|------| | 大尺寸 | Qwen3.5-397B-A17B | | 中型 | Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B | | 小尺寸 | Qwen3.5-9B、Qwen3.5-4B、Qwen3.5-2B、Qwen3.5-0.8B |

所有模型均已在以下平台开源，开发者可立即下载体验：

Hugging Face：https://huggingface.co/collections/Qwen/qwen35
魔搭社区（ModelScope）：https://modelscope.cn/collections/Qwen/Qwen35
Ollama：https://ollama.com/library/qwen3.5

写在最后

Qwen3.5 小模型系列的发布，填补了从 0.8B 到 397B 完整产品矩阵的最后一块拼图。马斯克的"智能密度"评价并非溢美之词——用 9B 的体积实现 120B 的性能，这正是架构创新超越参数堆砌的最好注脚。

对于开发者而言，真正有价值的，是与正确硬件深度绑定、以正确量化格式部署的小模型。端侧 AI 的时代，已经到来。

原文来源：XiaoHu.AI 学院 — 9B 参数干翻 80B？阿里开源四款Qwen3.5系列小模型