全站搜索 产品中心 新闻中心

美团发布高效推理模型 LongCat-Flash-Thinking,达到 SOTA 水平

公司新闻 294

【导语】9月22日,美团LongCat团队推出全新高效推理模型LongCat-Flash-Thinking,该模型在逻辑、数学、代码、智能体等多领域推理任务中达全球开源模型顶尖水平,成为国内首个融合“深度思考+工具调用”与“非形式化+形式化”推理能力的大语言模型,在多项权威评测中持续领先。

美团发布高效推理模型 LongCat-Flash-Thinking,达到 SOTA 水平

  9 月 22 日消息,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。

  官方介绍称,在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)

  同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考 + 工具调用」与「非形式化 + 形式化」推理能力相结合的大语言模型。团队发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上,LongCat-Flash-Thinking 具备更显著的优势。

  创新架构,实现高效推理与稳定训练:

  领域并行强化学习训练方法:为了解决强化学习领域混合训练的稳定性问题,团队设计了一种领域并行方案,将 STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-Optimal)。

  异步弹性共卡系统:异步弹性共卡系统(DORA)是整个训练的基石。该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步 RL 训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。值得一提的是,在大规模异步强化学习(RL)训练阶段,FLOPs(Floating Point Operations)的投入约为预训练阶段的 20%,为模型性能提升提供了坚实的算力保障。

  智能体推理框架:为进一步提升模型的智能体推理能力,团队提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API 等),从而高效解决复杂任务。基于 AIME25 实测数据,LongCat-Flash-Thinking 在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保 90% 准确率的前提下,相较于不使用工具调用节省了 64.5% 的 Tokens(从 19653 到 6965),显著优化了推理过程的资源利用率。

  形式化推理框架:为了克服当前开源通用大型语言模型在形式化证明任务中的不足,团队针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。

  LongCat-Flash-Thinking 在多项权威评测中刷新纪录,在各类推理任务中均展现出持续领先的性能:

  通用推理能力:LongCat-Flash-Thinking 具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型。

  数学能力:LongCat-Flash-Thinking 在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显 —— 在 HMMT 和 AIME 相关基准上取得突破性成绩,超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。

  代码能力:在编程领域,LongCat-Flash-Thinking 展现出开源模型最先进的性能(SOTA)与综合实力。在 LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型,并与顶级闭源模型 GPT-5 表现相当,证明其解决高难度编程竞赛问题的卓越能力。在 OJBench 基准测试中也以 40.7 的得分保持极强竞争力,并接近领先模型 Gemini2.5-Pro 的水平。

  智能体能力:LongCat-Flash-Thinking 在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在 τ2-Bench-Airline 上以 67.5 分刷新开源 SOTA 成绩,并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基准测试中展现出超强竞争力。

  ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得 67.6 的超高分数,大幅领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。


上一篇: 下一篇:

相关推荐

  • 2025深圳安博会:大公博创揽三奖 低空安防技术引国内外媒体聚焦

    254

    【导语】2025年10月28日至31日,第二十届中国国际社会公共安全博览会在深圳启幕。成都大公博创信息技术有限公司携全系列低空安防设备参展,凭借三项权威大奖、全栈产品矩阵及高层权威发声,成为焦点,尽显中国低空安防企业的全球竞争力,引领产业迈向新高度。 2025年10月28日-31日,第二十届中国国际社会公共安全博览会(CPSE安博会)在深圳会展中心盛大启幕。作为全球三大安防展之一、国...

    查看全文
  • 业内首家:中国电信实现北斗语音消息服务

    254

    【导语】中国电信率先公开展示业内首个“北斗语音消息”服务,首创 AI 算法实现语音极速传输;与此同时,华为也在第四届北斗峰会上发布相关功能,其手表成首款支持终端,北斗应用再掀新篇。 据“中国电信”机构号,其已率先公开展示“北斗语音消息”服务,成为业内首家实现北斗语音消息的运营商。据介绍,中国电信在业内首创“声纹与语义分离 AI 算法”,为语音极速瘦身,省去用户短信文字输入的繁琐,实现...

    查看全文
  • IoT Analytics:全球在用物联网设备持续增长 到年底将达211亿台

    255

    【导语】研究公司IoT Analytics预测,至2025年底全球在用物联网设备将达211亿台,年增14%,Wi-Fi、蓝牙及蜂窝网络成增长主驱动力,且预计2035年设备数将超500亿台,数据激增还将为AI发展及智能系统构建提供有力支撑。 研究公司IoT Analytics预计,2025年期间,全球在用的物联网设备数量将持续增长,其中Wi-Fi、蓝牙以及蜂窝网络技术将成为推动这一增长...

    查看全文
  • 融资概率超82%!这家厦企完成新一轮融资,加速毫米波雷达生态布局

    253

    【导语】近日,矽杰微电子(厦门)有限公司宣布完成C1轮融资,由中信建投资本领投,资金将用于车规级芯片研发及多领域市场拓展。作为毫米波雷达芯片研发的高科技企业,矽杰微电子已获资本市场高度认可,并入选专精特新“小巨人”企业名单,未来将携手伙伴打造毫米波雷达感知生态体系。 近日,矽杰微电子(厦门)有限公司(以下简称“矽杰微电子”)宣布完成C1轮融资,本轮由中信建投资本领投,元科创投、启泰资...

    查看全文
展开更多

00