新闻资讯 NEWS

WAIC现场:当AI不再“聊天”——智能体开始自己写Rap、做风控、拆产线
来源: | 作者:点动科技 | 发布时间: 2025-08-18 | 16 次浏览 | 分享到:

“今天,AI第一次不靠人类点击,就独立完成了一首Rap并同步生成MV。“7月26日下午,上海世博中心主论坛,阶跃星辰CEO姜大昕按下启动键后,Agent在40秒内写完歌词、匹配鼓点并推送至大屏。台下掌声响起,不是因为歌词押韵,而是因为这意味着大模型从“对话”跃迁到“执行”——2025世界人工智能大会(WAIC 2025)用一整天的议程,把“Agent”确立为年度关键词。

如果把2023年的大模型比作会说话的百科全书,2025年的Agent就是拿着工具箱、能进办公室的“超级员工”。在阶跃星辰的展台,终端Agent接入Mac Studio,调用本地GPU云主机(8×A100 80G显存,峰值算力5 PFLOPS)实时推理,把用户哼出的三小节旋律扩展成完整编曲;MiniMax则在隔壁展厅演示“全栈通用智能体”,对着一段“帮我做一款记账App”的自然语言需求,Agent自动完成需求拆解、代码生成、单元测试、Docker镜像打包,全程耗时11分27秒——这背后是一套“思维链-行动链”双循环架构:大模型先输出任务图(planning),再调用沙箱里的代码解释器、浏览器、数据库工具依次执行(acting),失败即回溯重试,直至通过CI/CD流水线。MiniMax技术副总裁曾国洋在媒体群访中解释:“我们把工具的API schema当作'外语'教给模型,让它学会像程序员一样阅读文档、写调用。”

行业级Agent的落地更早也更重。蚂蚁数科联合意言科技首发的“金融合规Agent”已在三家股份行试运行:读取新监管条文后,Agent在2小时内遍历银行全部存量产品合约,标出143处潜在违规条款并给出修订模板,准确率达96.4%(来源:蚂蚁数科《2025Q2金融Agent评估报告》,2025-07-15)。工业场景里,某头部汽车厂把产线质检Agent部署在边缘GPU云主机(NVIDIA L40 48G显存×4),Agent通过视觉-语言模型实时解析工人语音指令“检查车门缝隙”,自动调取3D相机点云,将误差大于0.2毫米的部件打上红框,单件检测时间从45秒压缩到3秒。

算力是Agent“自主”的前提。WAIC发布的《中国AI算力发展指数》显示,2025年上半年国内GPU云主机租赁量同比增长312%,其中65%用于Agent推理与微调(国家信息中心&IDC,2025-07)。阶跃星辰工程负责人透露,其音乐Agent单次创作需并行跑通歌词、旋律、混音三条扩散模型,显存峰值占用74 GB,“如果按一年前的H800卡,用户得等三分钟;现在A100×8的云集群把延迟压到12秒,体验才像'实时'。”

技术原理上,Agent的核心是“大模型+工具调用+记忆系统”。MiniMax在模型侧引入“混合专家-工具路由”机制:每一层Transformer中插入轻量级门控网络,决定当前token是否需要调用外部工具,从而把工具API的调用延迟从230 ms降到41 ms。记忆系统则借鉴了操作系统分页思想,把长期记忆(用户历史、行业知识)分页存储在分布式KV数据库,短期记忆(当前任务上下文)留在GPU显存,换页由模型自主触发,避免显存溢出。姜大昕比喻:“Agent的内存管理就像程序员手动开换,只是现在由模型自己决定何时换入换出。”

走出世博中心,夜幕下的上海依旧车流如织。只是此刻,一部分红绿灯的配时决策已由交通Agent接管;而在看不见的云端,更多Agent正排队领取下一块GPU——它们不再等待人类提问,而是在寻找下一个需要被解决的问题。