(文/陈济深 编辑/张广凯)
5月29日,基础大模型创业公司阶跃星辰(StepFun)发布并开源新一代Flash模型Step 3.7 Flash。这是一款专为生产级Agent打造的模型,官方称其目标是在速度、成本、可靠执行和复杂任务处理能力之间取得更好的平衡。
随着Agent从演示阶段走向企业真实的生产环境,对基础模型的要求也在发生变化。模型不仅要能回答问题,还要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮长程任务中保持执行的一致性。阶跃星辰表示,模型能力的评价标准正从单纯追求智能水平,转向兼顾效率、可靠性与规模化部署能力,Step 3.7 Flash正是面向这一需求设计。
根据官方介绍,Step 3.7 Flash采用稀疏MoE架构,总参数为196B加上1.8B的ViT,每次推理激活参数约11B,最高生成速度可达每秒400个token,支持256k上下文,并提供低、中、高三档推理级别,便于开发者在响应速度、token成本和能力之间按需平衡。较低的激活参数和较高的生成速度,使其适合高频、多轮的Agent调用场景。
在能力上,模型针对生产级Agent的需求做了多项优化。它支持原生多模态理解,能够直接处理UI界面、图表、文档、图片以及各类应用界面,并将复杂的视觉信息转化为结构化结果和可执行任务;在信息不确定时,还能主动发起联网与视觉搜索进行交叉验证。在生产级Agent最看重的工具调用可靠性上,Step 3.7 Flash做了针对性优化,可在长程多轮工作流中稳定调用API、浏览器、终端、Office工具等,降低跑偏和执行失败的风险。
官方公布的基准测试显示,Step 3.7 Flash在SimpleVQA (with Tool)、V* (with Python)等复杂视觉任务上的表现接近规模更大的旗舰模型;在考察多工具协同的Toolathlon上得分49.5%,在考察真实环境下日常自主任务执行的ClawEval-1.1上达到67.1%,在横跨44种职业的GDPval上达到45.8%,在τ²-bench Telecom的低、中、高三档推理难度下通过率均超过98%。
阶跃还对主流Agent框架和工具调用协议做了兼容优化,可稳定接入Claude Code、OpenClaw、Hermes Agent、KiloCode、RooCode、OpenCode等主流Coding与Agent工具,并支持MCP、Skills等协议,云端部署与本地部署均可使用,以降低开发者的接入和工作流编排成本。观察者网实测阶跃模型发现,输入"做一份美伊局势的分析PPT"这样一句话,系统便并行生成了四个不同风格、不同配色的版本,每个版本都是六到八页的完整成稿,单个版本的生成耗时在数十秒量级,直观体现了高生成速度在批量、连续出活场景下的作用。
这是阶跃在Flash系列上的延续。今年2月开源的上一代Step 3.5 Flash,将预训练权重、中训练权重以及配套的Steptron训练框架全链路开源,上线一个月即登顶OpenRouter平台OpenClaw(被开发者称作"小龙虾")调用量月榜全球第一,在HuggingFace上的下载量超过30万。
面向Agent的高效模型正在成为各厂商竞争的新焦点。本月19日的Google I/O上,谷歌发布Gemini 3.5 Flash,称其在编程和Agent基准上超过上一代旗舰Gemini 3.1 Pro,输出速度为同级前沿模型的四倍。与谷歌Gemini 3.5 Flash、Anthropic Claude Haiku等走闭源API路线的同类模型不同,阶跃将Step 3.7 Flash连同模型权重一并开源,开发者可以自行部署和调整。业内人士认为,Flash类模型的角色正在转变,从单纯的轻量替代品,逐步成为支撑生产级Agent规模化落地的基础设施。
阶跃星辰表示,后续将围绕Step 3.7 Flash推出生态共建计划和生态伙伴限时体验活动,与开发者共同探索Agent效率的评估方式、工程实践和生产化路径。
公开资料显示,阶跃星辰成立于2023年,CEO为姜大昕,董事长为旷视科技联合创始人印奇。印奇去年加入后,公司将战略锚定在"AI+终端"上,收入采取端侧按License收费、云侧按消耗计费的模式。其模型已作为系统级能力预装进OPPO、荣耀等手机厂商的设备,总装机量超过4200万台,目前公司正推进港股上市。