蚂蚁集团百灵大模型 Ling-2.6-flash 发布

时间:2026-04-23 09:01作者:

IT之家4月22日消息,蚂蚁集团旗下的百灵大模型今日宣布,推出一款总参数量104B、激活参数7.4B的Instruct模型Ling-2.6-flash

一周前,代号为ElephantAlpha的匿名模型登陆OpenRouter。上线以来,其调用量持续增长,连续多日位列Trending榜首,日均tokens调用量达100B级别。百灵大模型今日宣布ElephantAlpha正是百灵模型Ling-2.6-flash的匿名测试版本。

官方表示,面对持续攀升的Token压力,Ling-2.6-flash选择了一条不同的技术路径:不是单纯依赖更长输出换取更高分数,而是围绕推理效率、Token效率与Agent场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能做到更快、更省和更适合真实业务场景。

Ling-2.6-flash的核心能力体现在三个方面:

混合线性架构,释放推理效率:通过引入混合线性架构,模型从底层优化计算效率,在4卡H20条件下推理速度最快可达到340tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍

Token效率优化,提升智效比:在训练过程中对Token效率进行了针对性校准,力求以更精简的输出完成既定目标。在ArtificialAnalysis的完整评测中,Ling-2.6-flash仅消耗15Mtokens,约为Nemotron-3-Super等模型的1/10

面向Agent场景进行定向增强:针对当前需求最旺盛的Agent应用,在工具调用、多步规划与任务执行能力上持续打磨,使模型在BFCL-V4、TAU2-bench、SWE-benchVerified、Claw-Eval、PinchBench等评测中,即使面对激活参数更大的模型,依然能够取得相近甚至SOTA级别的表现

▲Ling-2.6-flash在Agent相关基准上达到同尺寸SOTA水平

为方便更多开发者快速体验Ling-2.6-flash,百灵大模型将在OpenRouter与官方平台同步提供一周免费API调用。

免费期结束后,将按使用量计费:输入0.1美元/百万tokens,输出0.3美元/百万tokens,缓存命中0.02美元/百万tokens(按20%计费)。

Ling-2.6-flash官方API服务也已正式开放,官方免费期结束后,平台仍将提供每日50万tokens免费额度;超出部分按量计费:输入0.6元/百万tokens,输出1.8元/百万tokens。

IT之家注意到,官方表示,模型的BF16、FP8、INT4等版本也将于近期正式开源。

展开全部内容
最新文章
推荐文章
本类排行