腾讯、阿里、字节为何同月发布“世界模型”？-热门资讯-资讯-融宝网

一、AI开始学“看世界”了

说到AI大模型，多数人的第一反应还是聊天窗口——你提问，它回答，始终停留在二维屏幕里。

但从四月中旬开始，情况正在起变化。

腾讯和阿里巴巴几乎同时在同一天发布了“世界模型”。腾讯发布混元3D世界模型2.0，能高效理解文本、图片、视频，快速生成3D空间并发给游戏引擎直接使用。阿里则拿出了名为“快乐生蚝”的世界模拟器，支持生成高保真、可实时交互的动态场景。

没隔一周，字节跳动的Seed团队又发布了新一代3D生成大模型Seed3D 2.0，API同步上线火山引擎，几何生成和纹理材质两项核心指标到达行业领先水平。二十多天里，三家公司相继登场，撞上了同一条新赛道——空间智能。所谓空间智能，简单说就是让AI能够理解、生成甚至操作物理世界中的三维空间和物体。一句话概括：把AI的能力从“会聊天”推进到“看得见摸得着”的层面。

二、资本的下注方向悄悄变了

技术焦点的转向，往往伴随着资金的流向变化。

过去不到一百天里，具身智能领域的风头格外猛。截至4月10日的数据，这个赛道至少发生了269起融资事件，其中122起披露总金额在345亿元左右。国家队、产业资本、顶级VC同时下场，多个明星公司的估值突破百亿。银河通用单笔拿到的融资就有25亿元，刷新了领域纪录。

红杉中国一季度参与了至少10起具身智能相关投资。有意思的是，投资机构的重心已经从前两年追逐大模型参数，转向了能“动手”、能“感知”、能“进产线”的软硬件一体化实体。资金流向了物理世界，逻辑很明显——云端的语言模型已经不再是资本追逐的稀缺品，谁能把AI嵌入现实场景，谁才是下一个增长点。

三、AI真的能干活了

赛道的转向不只是概念热闹，真实的场景正在铺开。

刚刚闭幕的2026年汉诺威工业博览会上，AI不再是展厅里的“独立展区”，而是化作分布式毛细血管嵌入了整场展会。从物理AI到工业智能体，AI正从展示性技术转向实际生产线。德国倍福公司在展会期间直接用文本指令驱动机器人，真实地在物理空间中拼出了“Bom dia Brasil”。SAP展示的AI智能体可以监测包装设备运行状态，还能在出现问题时自主干预、自动安排维修，把“只看不干”变成了“能看能干”。

大众生活中，AI也在悄然渗透。国内多家零售企业已将AI接入经营中枢，从会员运营到营销投放的智能工具链都在快速成熟。

空间的另一端，即使在大模型赛道上最兴奋的OpenAI，也在4月23日发布了GPT-5.5，明确落点放在“代理编程、知识工作、科学研究”中，而不是继续堆参数或追求语言能力本身。

写在最后

把这几件事连在一起看，脉络便清晰了。

AI行业的叙事逻辑正在经历一次不小的转身。从语言和知识的对垒，推到了物理世界中的操作和理解；资本的流向、技术的布局、政策的关注点，都在同步转向。

语言模型让AI“听懂话”了，空间智能正在让AI“看懂世界”。接下来，或许还需要让AI真正“动得了手”。

这才是新赛道真正的想象力所在。