新闻资讯

AI智能体发展历史

2025-08-14

早期发展

关于AI Agent的最早起源,还要从能够启发人类思考的哲学领域开始探寻。公元前350年左右的亚里士多德(Aristotle)时期,当时的一些哲学家就曾在哲学作品描述过一些拥有欲望、信念、意图和采取行动能力的实体。 [12]若从中国古代哲学家的思想著述中寻找Agent踪迹,还可以把时间继续上溯到公元前485年左右的中国春秋时代,老子在其对后世影响深远的思想巨著《道德经》中也可以看到智能体的影子。 [12]
时间再晚一些的庄子,在"庄周梦蝶"的时候,他不知道自己是庄子还是蝴蝶,分不清是梦境还是现实。如果用现代计算科技技术来看,这个梦可以理解为元宇宙,那么梦里的蝴蝶包括所有具备生命的物体,便都如"西部世界小镇"游戏那样的生成智能体。 [12]
18世纪,法国思想启蒙运动时期的丹尼斯·狄德罗(Denis Diderot )也提出了类似的观点:如果鹦鹉可以回答每个问题,它就可以被认为是聪明的。虽然狄德罗在著作中写的是鹦鹉,但谁都能体会到这里的"鹦鹉"并不是指一只鸟,而是突出了一个深刻的概念,即高度智能的有机体可以有着类似于人类的智能。 [12]


现代发展

20世纪50年代,阿兰图灵(Alan Turing)把"高度智能有机体"概念扩展到了人工实体,并提出了著名的图灵测试。这个测试是人工智能的基石,旨在探索机器是否可以显示与人类相当的智能行为。 [12]这些人工智能实体通常被称为"Agent",形成了人工智能系统的基本构建块。至此,人工智能领域提到的Agent,通常是指能够使用传感器感知其周围环境、做出决策、然后使用致动器采取响应行动的人工实体。 [12]随着人工智能的发展,术语"Agent"在人工智能研究中找到了自己的位置,用来描述显示智能行为并具有自主性、反应性、主动性和社交能力等素质的实体。此后,Agent的探索和技术进步成为人工智能领域的焦点。 [12]50年代末到60年代是人工智能的创造时期,所出现的编程语言、书籍及电影到现在还在持续影响更多的人。 [12]
在经历第一次人工智能寒冬后,80年代出现了一股人工智能热潮。这段时间的各项研究都有所突破,来自政府等机构的投资也开始增多,研究者对AI Agent的探索也在逐步增加。1987年,迎来了第二次人工智能寒冬。 [12]
AI Agent在1995年被Wooldridge和Jennings定义为一个计算机系统:它位于某个环境中,能够在这个环境中自主行动,以实现其设计目标。他们还提出AI Agent应具有自主性、反应性、社会能力与主动性等四个基本属性。而在AI Agent正式被经济学接纳后,它也被进一步定义为具备感知其环境并采取行动以最大限度地提高成功机会的系统。 [12]1997年,深蓝(由IBM开发)在一场广为人知的比赛中击败了世界国际象棋冠军加里·卡斯帕罗夫,成为第一个击败人类国际象棋冠军的程序。同年,Windows发布了语音识别软件(由Dragon Systems开发)。 [12]
2000年,Cynthia Breazeal教授开发了第一个可以用面部模拟人类情感的机器人,它拥有眼睛、眉毛、耳朵和嘴巴,被称为Kismet。2002年,第一个Roomba被释放。2003年,美国宇航局将两辆火星车(勇气号和机遇号)降落在火星上,它们在没有人类干预的情况下在火星表面航行。2006年,Twitter,Facebook和Netflix等公司开始利用AI作为其广告和用户体验(UX)算法的一部分。2010年,Microsoft推出了Xbox 360 Kinect,这是第一款旨在跟踪身体运动并将其转化为游戏方向的游戏硬件。2011年,一台名为Watson(由IBM创建)的NLP计算机被编程来回答问题,在电视转播的智力比赛节目《Jeopardy》中战胜了两位前冠军。2011年,苹果发布了Siri,这是第一个流行的虚拟助手。 [12]

在2012年的ImageNet计算机视觉挑战赛中,AlexNet卷积神经网络的深度学习模型取得了第一名,深度学习从此真正在人工智能领域大显身手。2016年,AlphaGO(谷歌专门从事围棋游戏的AI Agent)将击败欧洲冠军(范慧)和世界冠军(李世石),并很快被自己的兄弟(AlphaGo Zero)打败。2017年,谷歌提出transformer。2018年,谷歌发布基于Transformer模型的BERT,拉开了大语言模型序幕。2019年,谷歌AlphaStar在视频游戏《星际争霸2》上达到了Grandmaster,表现优于除0.2%以外的所有人类玩家。2019年,OpenAI发布GPT-2的自然语言处理模型,并分别在2020年和2022年发布了GPT-3、DALL·E 2及GPT-3.5,ChatGPT的火爆为AI Agent在大语言模型时代的发展与应用提供了新的契机。从2023年1月开始,全球厂商发布了多个LLM,其中包括LLaMA、BLOOM、StableLM、ChatGLM等多个开源LLM。 [12]



创新发展

2023年3月14日,OpenAI发布GPT-4。3月底,AutoGPT横空出世,迅速火遍全球。Auto GPT是Github上由OpenAI推出的一个免费开源项目,结合了GPT-4和GPT-3.5技术,通过API创建完整的项目。AutoGPT也是OpenAI的一个实验性项目,用以展示GPT-4语言模型的强大功能。由此开始,更多人在了解与体验AutoGPT的同时,也逐渐认知到了AI Agent。5月,OpenAI拿下新一轮3亿美元融资后,创始人Sam Altman透露更加关注如何使用聊天机器人来创建自主AI Agents,并会将相关功能部署到ChatGPT助手中。6月,扎克伯格在全体员工会议上宣布了一系列处于不同开发阶段的技术,其中一个就是将发布能为用户提供帮助或娱乐功能的具备不同个性和能力的AI Agents。6月底,OpenAI Safety团队负责人Lilian Weng发表了一篇名为《LLM Powered Autonomous Agents》的文章,详细介绍了基于LLM的AI Agent,并认为这将使LLM转为通用问题解决方案的途径之一。至此,人们终于对AI Agent有了全面的了解,AI Agent的神秘面纱终于被揭开。 [12]

AI Agent 发展迅速,出现多款“出圈”级研究成果。 [2]亚马逊推出了Amazon Bedrock Agents,可以自动分解企业AI应用开发任务。在2024年德国消费电子展上,荣耀推出了首个开放生态系统下基于纯视觉的多模态个人化AI Agent,无需应用适配改造,就可以实现对用户复杂意图的理解,并在分析决策后进行跨应用的自动执行,实现智能终端上的“自动驾驶”。例如通过用户的一句话口令,荣耀AI Agent就能自动完成续费功能的检索和取消。CEO赵明同时宣布荣耀AI Agent将在荣耀Magic 7系列上商用。 [3-5]
2024年1月,酷特智能与华为签订《全面合作协议》,双方将在产品研发联合创新、生产智能体集群、酷特AI Agent升级等方面展开合作,双方合作正按计划顺利、有序推进 [8]
2025年3月6日消息,日前,一支来自中国的团队正式对外发布通用型AI Agent产品Manus。据团队介绍,Manus在GAIA基准测试中取得了SOTA(State-of-the-Art)的成绩,显示其性能超越OpenAI的同层次大模型。 [9]同日,OpenAI计划对达到博士水平的AI Agent每月收费2万美元,这些 “博士水平” 的AI Agent能够处理学术研究和软件开发领域中的复杂任务。据悉,OpenAI计划推出三种类型的AI Agent,其每月收费可能在2000美元到2万美元之间。 [10]
2025年3月,2025年全国两会,全国人大代表、东方财富董事长其实表示,随着大模型应用的纵深推进,AI Agent(智能体)正逐渐成为技术演进的新趋势和大模型应用的主流范式。为了更好地释放AI Agent赋能千行百业的巨大潜力,推动大模型应用生态的繁荣,其实建议加快推动大模型应用创新:一是加快推动模型落地服务商的培育;二是加快推进多元场景与数据的开放;三是加快推进关键行业、重点环节的标准供给。 [11]
2025年4月2日,Genspark宣布推出其全新产品“Genspark Super Agent”,号称是一款“快速、准确、可控”的通用AI Agent [17]
2025年5月,中国信息通信研究院联合中国工商银行、百度、腾讯、阿里、华为等二十余家头部企业,正式发布《面向软件工程智能体的技术和应用要求第 1 部分:开发智能体》(标准编号 AIIA / T 0219-2025)。作为国内首个针对开发智能体的技术规范文件,该标准通过“能力建设指导 + 技术选型参考”的双重路径赋能产业生态。一方面帮助厂商快速完成产品功能对标,减少重复性研发投入;另一方面为企业选择合作伙伴时提供客观评估依据,加速技术落地效率。 [18]
2025年6月1日,IT之消息,据外媒 The Decoder 报道,Palisade Research 最近举办的一系列网络安全竞赛表明,AI 智能体已具备与人类黑客正面较量的能力,甚至在部分场合中胜出。 [19]
2025年5月18日,全球首个L4级智能体母体系统MasterAgent在深圳正式发布。这一成果由来自中国科学技术大学的“95后”团队自主研发,标志着中国本土研发的AI应用突破了传统 AI 工具化局限,实现从 "被动执行" 到 "全自主决策" 的技术跨越。 [20]MasterAgent 基于全国产化技术底座,通过自主研发的Master Builder与Agent Group双引擎架构,具备全场景自主任务泛化能力,无需人工干预,便可独立完成跨领域的复杂任务。 [20]