腾讯,大动作!价格为DeepSeek-R1的1/4

熊猫在线娱乐平台官网下载

熊猫在线娱乐平台官网下载
你的位置:熊猫在线娱乐平台官网下载 > 新闻动态 > 腾讯,大动作!价格为DeepSeek-R1的1/4
腾讯,大动作!价格为DeepSeek-R1的1/4
发布日期:2025-04-13 13:39    点击次数:200

作 者丨白杨

编 辑丨张伟贤

3 月 21 日深夜,腾讯宣布推出自研深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。

一个有意思的现象是,无论是前几天阿里发布推理模型 QwQ-32B,还是这次腾讯发布混元 T1,都选在了国内的深夜时段。据记者了解,他们这样做的目的,是因为这些模型都会面向海外开发者,这也进一步说明中国大模型已真正走向海外。

据腾讯介绍,混元 T1 正式版通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,推理能力得到进一步提升。与此前已上线腾讯元宝的混元 T1-preview 模型相比,综合效果也有了明显提升。

在一些常见的基准测试上,比如大语言模型评估增强数据集 MMLU-PRO 中,混元 T1 的评分仅次于 OpenAI-o1,优于 DeepSeek-R1。

在评估逻辑推理能力的 DROP F1 测试中,混元 T1 的评分也优于 DeepSeek-R1 和 OpenAI-o1。不过在数学和代码能力测试中,混元 T1 的评分都低于 DeepSeek-R1。在中文语言理解能力方面,混元 T1 与 DeepSeek-R1 的评分齐平。

整体来看,混元 T1 正式版的成绩已经达到了业界领先推理模型的水平。但腾讯官方此次并未披露混元 T1 的参数量级,所以并不清楚其是用多少训练数据实现这一性能。

另外值得一提的是,混元 T1 是以腾讯快思考模型混元 Turbo S 为基座打造。

混元 Turbo S 于今年 2 月底发布,腾讯混元团队当时就表示,Turbo S 将作为旗舰模型,成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。

与 DeepSeek R1 等慢思考模型不同,混元 Turbo S 更强调"秒回、吐字快",并且更善于超长文本处理。

这是因为混元 Turbo S 在架构方面创新性地采用了 Hybrid-Mamba-Transformer 融合模式。通过这种融合,混元 Turbo S 一方面可以发挥 Mamba 高效处理长序列的能力,另一方面也能保留 Transformer 擅于捕捉复杂上下文的优势。

因此,该架构有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 吐字速度达到最快 80 tokens/s。

据了解,混元 Turbo S 是工业界首次成功将 Mamba 架构无损地应用在超大型 MoE 模型上,而混元 T1 则是工业界首次将混合 Mamba 架构无损应用于超大型推理模型上。

价格方面,混元 T1 的输入价格为每百万 tokens 1 元,输出价格为每百万 tokens 4 元。这与 DeepSeek-R1 目前夜间时段(00:30-08:30)的价格相同,但在标准时段,混元 T1 的价格则是 DeepSeek-R1 的四分之一。



上一篇:萧敬腾带老婆参加公司年会!林有慧放不开,他全程搂着吃饭也牵手
下一篇:3月27日基金净值:招商丰盛稳定增长混合A最新净值1.327,跌0.15%