后台回复“十大趋势”,即可下载PDF版报告全文
我们曾习惯于将AI视为一个无所不知的“工具箱”。当我们想知道答案,会打开搜索框;当我们想完成任务,会发出一连串精准的指令。它强大、高效,却也总是隔着一块冷冰冰的屏幕,静静地等待着我们的下一个问题。它认识我们输入的文字,却不理解我们输入时的心情。
但现在,这一切正在悄然改变。
想象一下,那个曾经只能理解命令的系统,如今开始听懂你语气中的疲惫。在你深夜加班后,它不再是机械地播报日程,而是用一句温暖的声音提醒你:“看起来你很累了,要不要来点舒缓的音乐,帮你放松一下?”它第一次真正拥有了“五感”,能像我们一样,同时看到视频里人物的表情、听懂他的语调、理解他话语的深意,并作出有温度的回应。这,就是AI正在经历的深刻跃迁。
这场跃迁的核心,是AI的角色正在从“工具”向“伙伴”演进。在工作场景中,不断融入工作流,成为一名高效的“数字员工”。当它走进生活,不仅我们记忆的延伸、灵感的火花、更可能成为一位真正懂你的“人生合伙人”。它了解你的生活习惯,记得你对咖啡的偏好,甚至能从你杂乱无章的语音笔记中,为你整理出一份条理清晰的行动计划。它不再需要你“手把手”地教,而是通过理解你的世界,与你一同成长。
展开剩余85%而这,还不是终点。
这位伙伴,正准备走出屏幕,进入我们生活的物理世界。那个曾经只存在于比特世界的“数字大脑”,正长出“手-脚”,成为能在现实世界中行动的“代理人”。它将化身为更灵巧的机器人,在产线上完成超越人类精度的操作;它将融入自动驾驶系统,以近乎全局的视野感知和预测路况;它甚至能成为养老院里那位细心的看护,在老人需要时,稳稳地递上一杯水。AI正从“会聊天”进化到“懂世界”,再到“能行动”。
这不再是遥远的科幻想象,而是正在发生的未来。我们正共同站在一个伟大时代的开端,见证AI从高效的工具,蜕变为与我们协同思考、共同创造的共生伙伴。这篇报告所要描绘的,正是这一演化新篇章的宏伟蓝图。它关乎技术,但更关乎我们每一个人——关乎我们将如何与下一代AI建立信任、展开合作,共同书写一个更富想象力、也更具温度的未来。
今天,在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业趋势的长期观察,通过10个关键趋势勾勒出2025人工智能发展的三大主题 基础模型的跃迁、智能行动者的崛起以及AI走向物理世界,深入剖析了 AI从“智能工具”迈向“共生伙伴”的关键跃迁。
推荐序
从智能工具到共生伙伴: AI演化的新篇章
司晓腾讯副总裁 腾讯研究院院长
随着技术的快速演进,基础模型正迎来一场深层次的跃迁。2025 年,大模型的训练重点从“数据+规模”转向“后训练+多模态”。这场变革的核心在于,强化学习开始在大模型后训练中发挥关键作用,并有望赋予模型自我优化与持续进化能力。例如,DeepSeek-R1-Zero通过纯强化学习展现出推理能力,这不仅为DeepSeek R1的训练提供了关键支撑,更全面地将大模型应用推向了推理时代。想象一下,未来在诸多场景下AI都不再需要人类工程师“手把手”教学,而是能像围棋大师AlphaGo那样,通过可验证的奖励信号,在工业机器人路径优化、复杂物流网络调度等领域自主找到最优解,甚至发现超越人类经验的全新策略,从而在未知环境中展现出卓越的适应性。同时,原生多模态生成技术实现了从底层结构上对图像、语音、文本等多模态数据的统一建模,使AI能够在同一上下文中理解和生成跨模态信息。例如,一段视频中人物的表情、语调与语义内容可以被同时感知并融合处理,从而推动了 AI从“看懂”、“听懂”到“合成表达”的一体化跃迁。此外,声音模型的突破,为其带来了更加拟人化的语音能力,使其能够跨越语言和文化的障碍,实现全球范围的情感交流。我们不再只是与冷冰冰的机器对话,而是与一个能理解你语气中的疲惫、并用温暖声音回应的智能系统交流,这显著提升了人机交互的自然度和沉浸感,为构建拟人化、实时反应的智能系统奠定了坚实基础。
进入智能行动构建者(Agent)的领域,AI的角色正在发生深刻的变化—— 从传统的“工具”角色,逐步演变为每个人的“共生伙伴”。端到端Agent模型的崛起进一步推动了智能助手的进化,从单纯的执行任务转向成为更加可信的合作伙伴,能在多个场景下为用户提供更具深度的智能支持。借助大模型的推理与决策能力,这类智能体已能够主动感知用户意图、调度任务和协调资源,实现如行程安排、信息筛选和跨平台事务处理等日常操作的智能自主完成。智能助理将有望从小众工具走向大众应用,实现“人手一个”,进一步提升生活和工作效率。更有甚者,AI有望成为用户生活的个性化操作系统 LifeOS。通过对用户日常生活相关的多模态数据(如语音、文本、行为轨迹、健康参数等)的长期整合与理解,构建起一个持续进化的“人生合伙人”。根据用户的习惯、偏好与情绪状态主动提供建议与支持,全面优化工作与生活的体验。
在行业应用方面,垂直行业智能体的出现正推动各个行业的智能化升级。AI不再仅仅提供通用模型或技术接口,而是以 智能化工作流的形式深度嵌入医疗、金融、制造、零售和政务等关键行业。通过行业语料训练、场景逻辑建模和工作流集成,这些智能体能够承担风控审查、设备运维和客户服务等具体职能,显著提升业务效率与决策质量,推动从数字化到智能化的关键跃迁。 而游戏智能体的沉浸式进化则为虚拟世界带来了全新的体验,AI不仅仅在游戏中扮演角色,更能通过高度自适应的行为与玩家进行深度互动,推动虚拟世界向着更加动态和不可预测的方向演进。
另一方面,智能的应用正在从语言智能走向空间智能。空间智能的兴起意味着AI从处理词元(Token)进化到理解体素(Voxel),初步具备了理解和处理三维世界的核心能力,包括3D环境的感知、推理、交互和生成。这一技术突破让AI能够像预测下一个词元一样去预测下一个体素,并再次基础上实现能力的涌现。空间智能正在重塑自动驾驶、机器人制造、XR混合现实、医疗手术、建筑设计和智慧城市等领域的工作方式,为AI迈向通用人工智能(AGI)补全了关键的物理常识和因果推理能力, 推动AI从"会聊天"到真正"懂世界"的跨越式发展。
与此同时,具身智能的崛起,标志着图灵测试正从抽象的语言推理,迈向真实世界的感知—行动协同。 AI不仅能“想得明白”,更能“动得精准”。通过与机器人平台、自动驾驶系统、智能穿戴设备等硬件深度整合,AI开始具备类人感知与灵活执行力,在复杂、多变的物理环境中完成导航、操控、交互等任务。从配送机器人在城市街区的自主行动,到养老机器人在特定情境中提供主动服务,具身智能正在重塑人机交互的边界,推动AI从“数字大脑”走向“现实代理人”,深刻改变人类的生活方式与生产模式。
综合来看,2025年强化学习和多模态融合让大模型真正“长出五官”,Agent在工作与生活各个领域的应用,逐步使其成为人类真正的“共生伙伴”,空间智能与具身智能有望让它走出比特世界,进入原子世界。大模型产业将真正跨入“技术-产品-社会”三位一体的深水区,我们不仅将见证效率的飞跃,更将共同探索如何与下一代AI建立更深层次的信任与合作,共同书写人类与AI和谐共存、持续发展的未来篇章。
▶
01 强化学习:引领大模型推理和行动能力新突破
强化学习 (Reinforcement Learning, RL)正在大语言模型领域引发一场深刻的范式变革。当前,强化学习在大语言模型中的应用正从最初的人类反馈强化学习 (RLHF)——主要旨在使模型输出符合人类偏好——向基于可验证奖励的强化学习(RLVR)大规模演进。RLVR将奖励信号直接绑定到客观、可验证的结果上(例如编程或数学问题的正确答案),从而将优化目标从“听起来正确”转向“确实正确”,显著提升了大模型的核心推理能力。这种转变正推动大模型超越简单的内容生成,向解决实际问题、实现复杂目标的高级智能迈进。
02 原生多模态生成:统一感知与生成的新时代
人工智能的早期发展主要聚焦于单一模态,如计算机视觉专注于图像理解,自然语言处理专注于文本分析。进入深度学习时代,特别是随着Transformer架构的突破性成功,为彻底的多模态整合铺平了道路。这催生了“原生多模态模型”(Natively Multimodal Models),其核心理念在于从架构设计之初就将多种模态(如文本、图像、音频、视频)视为一个统一的输入空间。通过共享或紧密耦合的表示层,模型能够实现跨模态信息的深度交互、对齐与融合。这种“原生”设计让模型能在单一框架内同时完成多模态的联合感知,并基于模态间深度关联的理解进行多模态生成。从 OpenAI 的 GPT-4o 实现文本、图像、音频的无缝交互,到 Sora、Veo3 等模型在视频生成领域的突破,这些标志性成果无不预示着统一感知与生成新时代的全面到来,即将改变多个行业的范式。
03 声音模型广进化:迈向通情达义的情感智能
声音模型正快速迈向具备情感智能的新阶段,成为推动人机交互自然化、个性化的核心技术力量。从早期的机械朗读发展到具备语境理解和情感表达能力的语音合成系统,再到可创作完整音乐作品和驱动视觉内容生成的多模态声音智能,AI声音技术正在实现从“工具”到“伙伴”的跃迁。声音的实时性与情感表达优势,使其在未来的Voice Agent、沉浸式内容创作、教育与医疗辅助等领域具备广阔应用前景。随着模型个性化、低延迟和端侧部署的进步,声音智能将走向更贴近用户、更普惠的交互形态,开启“人人皆可创、处处能互动”的智能新时代。
04 智能体双轨进化:编排类与端到端的分途并进
富灯网提示:文章来自网络,不代表本站观点。