GPT-OSS 开源模型信息汇总

发布背景

2025 年 8 月 5 日，OpenAI 正式发布两款开源权重语言模型 ——gpt-oss-120b 与 gpt-oss-20b，这是自 2019 年 GPT-2 以来 OpenAI 首次开源权重模型。此次发布标志着 OpenAI 在开源战略上的重大转变，CEO Sam Altman 曾表示公司此前在开源技术方面 "站在了历史的错误一边"。

发布时机选择在 AI 开源生态竞争激烈的背景下，特别是在中国 DeepSeek、Qwen 等开源模型崛起之后，OpenAI 希望通过此次开源重新夺回在开源社区的话语权。

模型参数规格

gpt-oss-120b

总参数：1170 亿（117B）
激活参数 / Token：51 亿
层数：36 层
专家总数：128 个
激活专家 / Token：4 个
上下文长度：128k tokens
最低硬件要求：单张 80GB GPU（如 NVIDIA H100 或 AMD MI300X）
性能对标：接近 OpenAI o4-mini 模型

gpt-oss-20b

总参数：210 亿（21B）
激活参数 / Token：3.6 亿
层数：24 层
专家总数：32 个
激活专家 / Token：4 个
上下文长度：128k tokens
最低硬件要求：16GB GPU 显存或统一内存
性能对标：接近 OpenAI o3-mini 模型

技术架构亮点

混合专家（MoE）架构

两款模型均采用 MoE 架构，每层包含多个专家模块，仅激活部分专家处理每个 token，大幅降低计算资源消耗：

gpt-oss-120b：128 个专家，每次激活 4 个
gpt-oss-20b：32 个专家，每次激活 4 个

量化优化

采用 MXFP4 4-bit 量化技术，在保持性能的同时显著降低显存占用：

gpt-oss-120b 压缩至可在单张 80GB GPU 运行
gpt-oss-20b 压缩至仅需 16GB 内存即可运行

注意力机制创新

分组多查询注意力（GQA）：每 8 个头共享 KV 缓存，提高显存效率
旋转位置嵌入（RoPE）：支持 128k 长上下文处理
交替密集与带状稀疏注意力：结合全局上下文与滑动窗口机制

性能评测结果

学术基准测试

测试集	gpt-oss-120b	o4-mini	gpt-oss-20b	o3-mini
MMLU	86.7	87.2	74.3	74.0
HealthBench（困难）	88.9	88.3	75.6	74.2
AIME 2024	37.1	37.4	21.3	20.9

专项能力测试

编程能力：Codeforces 竞赛中 gpt-oss-120b 获得 2622 Elo 分，接近 o4-mini 的 2719 分
数学推理：AIME 数学竞赛中 gpt-oss-120b 准确率达 96.6%（o4-mini 为 98.7%）
医疗问答：HealthBench 测试中表现超越 GPT-4o 和 o1 等专有模型
工具调用：TauBench 智能体评估套件中表现优异

开源许可证与使用政策

模型采用Apache 2.0 许可证发布，这是一种宽松的开源许可协议，允许：

免费用于商业用途
修改模型代码和权重
重新分发修改后的版本
无需公开修改后的源代码

使用限制：

需遵守 OpenAI 的使用政策
禁止用于危害安全、隐私或违反法律法规的用途
模型输出可能包含错误，需谨慎使用于关键应用

部署与生态支持

硬件支持

云端部署：AWS、Azure、Google Cloud 等主流云服务商均已支持
本地部署：
- gpt-oss-120b：需 80GB GPU（如 H100、A100）
- gpt-oss-20b：16GB GPU 或高端消费级硬件
移动设备：部分高端手机可通过量化压缩运行 gpt-oss-20b 轻量版

软件生态

推理框架：支持 vLLM、Ollama、llama.cpp、LM Studio 等
开发工具：Hugging Face Transformers 库、OpenAI Harmony 格式
API 支持：兼容 OpenAI Responses API，易于集成到现有系统

业界反应与应用案例

积极评价

开发者社区：GitHub 仓库 10 分钟内获星 5000+，Hugging Face 下载量迅速突破百万
企业采用：AI Sweden、Orange、Snowflake 等企业已开始测试部署
硬件厂商：NVIDIA、AMD 迅速更新驱动支持，优化模型性能

应用案例

金融服务：某电商平台使用 gpt-oss-20b 构建智能导购系统，响应速度提升 40%，月省 API 成本 200 万元
医疗健康：医疗 AI 公司将 gpt-oss-120b 集成到本地医疗系统，诊断准确率接近专业医生
教育领域：印尼开发者将 gpt-oss 部署到偏远学校，提供离线 AI 教学助手
编程辅助：开发者使用 gpt-oss-20b 作为本地代码助手，响应速度比云端 API 快 3 倍

批评声音

知识水平不足：MMLU-Pro 测试中表现不如 Qwen3 等竞品
幻觉问题：PersonQA 基准测试中，120b 和 20b 模型幻觉率分别为 49% 和 53%
中文支持：对中文语境和文化理解能力相对薄弱

安全措施与风险

安全机制

数据过滤：预训练阶段移除化学、生物、放射和核相关有害数据
对抗性测试：对模型进行恶意微调测试，确保未达到 "高风险" 能力阈值
外部审核：安全方法经过第三方专家评审

潜在风险

模型滥用：开源性质可能被用于生成误导性信息或垃圾内容
安全绕过：攻击者可能通过微调绕过安全限制
依赖风险：企业过度依赖可能导致技术锁定

未来展望

OpenAI 计划每半年推出一版 gpt-oss 系列升级版，并开放部分微调工具链。下一步可能推出：

多模态版本，支持图像和语音输入
中等规模模型（如 30B 参数版本），平衡性能与资源消耗
针对特定领域的优化版本（医疗、法律、教育等）

行业专家预测，gpt-oss 的发布将加速开源大模型的技术迭代，推动 AI 技术向更开放、更普惠的方向发展。

Openai发布GPT-OSS 开源模型