A5sh.com - 全球挚爱极客社区

标题: 腾讯混元2.0开启内测,推理性能自称“国内第一梯队” [打印本页]

作者: 天使羽毛1    时间: 昨天 21:25
标题: 腾讯混元2.0开启内测,推理性能自称“国内第一梯队”
  406B参数空降!腾讯混元2.0开启内测,推理性能自称“国内第一梯队”

  12月5日,腾讯正式发布新一代自研大模型——混元2.0(Tencent HY2.0),包括Think(推理增强版)与Instruct(指令遵循版)两个版本,总参数406B、激活32B,支持256K上下文窗口,官方宣称数学、科学、代码等复杂推理任务“稳居国内第一梯队”。模型已同步上线腾讯云API,并在元宝、ima等原生应用中灰度放量。

  MoE架构+长窗口RL,推理成绩刷新公开榜单

  - 采用混合专家(MoE)架构,实测单卡A100推理速度较Dense结构提升40%

  - 在国际数学奥林匹克(IMO)2025公开题、哈佛-MIT数学竞赛中,HY2.0Think版准确率分别达83.1%与81.7%,超过GPT-4o78.9%的成绩

  -256K长窗口通过“分段采样修正”解决训练-推理不一致问题,10万Token文档QA任务F1提升6.8%

  指令遵循多轮对话优化

  - 引入可验证任务+评分式强化学习,Instruct版在Multi-Round MT-Bench上得分8.42,超过同规模模型0.3分

  - 支持Function Call、Json Mode与Tool Use,官方实测100轮工具调用成功率97.2%

  落地加速:元宝、ima、腾讯云三线并进

  - 元宝App已灰度上线“HY2.0Think”切换键,提供数学推导与代码解释两种场景

  - ima会议助手接入256K长文本总结,5万Token会议纪要生成耗时<15秒

  - 腾讯云API定价0.8元/百万Token输入、2元/百万Token输出,约为GPT-4o的45%,支持企业私有化部署

  开源计划:模型+数据+工具链三箭齐发

  腾讯透露,2026Q1将开源HY2.0Base权重、200GB中文预训练数据及长窗口RL工具链,继续推动国产大模型生态。

  行业观察:参数竞赛进入“400B+”时代

  随着混元2.0、Llama3.1-405B、Moonshot400B相继发布,国产大模型正式跨入400B参数俱乐部。腾讯强调“不与开源社区抢参数,而是把推理与工具能力做深”,能否凭借MoE架构+RL策略在成本侧胜出,仍需观察开发者生态与实际落地规模。AIbase将持续跟踪后续开源进展与性能评测。






欢迎光临 A5sh.com - 全球挚爱极客社区 (https://www.a5sh.com/) Powered by Discuz! X3.5