新闻资讯

OpenAI发布新一代o1 AI大模型,强化学习突破AI推理极限

2024-09-13

OpenAI发布新一代o1 AI大模型,强化学习突破AI推理极限

万众期待的“Strawberry”(草莓)终于亮相。北京时间9月13日凌晨,OpenAI宣布推出命名为OpenAI o1(简称:o1)的AI大模型。

对于命名,OpenAI表示:“在复杂推理任务中,这是一项重大突破,代表了人工智能能力的新高度。因此,我们将计数器重置为1,并将这一系列命名为OpenAI o1。”

据悉,经过强化学习(Reinforcement Learning),在o1推理能力方面取得了重大进展。研发团队观察到,随着训练时间(强化学习的增加)和思考时间(测试时的计算)的延长,o1模型的表现逐渐提升。这种方法的扩展所面临的挑战与大型语言模型(LLM)的预训练限制截然不同。

OpenAI表示,o1将在做出反应之前花更多的时间思考问题,就像人一样。通过训练,它们学会了完善思维过程,尝试不同的策略,并认识到自己的错误。

值得注意的是,o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时,o1的表现甚至和该领域的博士生水平不相上下;在国际数学奥林匹克的资格考试(AIME)中,o1的正确率为83%,成功进入了美国前500名学生的行列,而GPT-4o模型的正确率仅为13%。

此次的o1系列共有3个版本,其中preview版本注重深度推理处理,每周可以使用30次;mini版本定位为高效和性价比,适用于编码任务,每周可以使用50次;而面向高级推理模型则暂不对外开放。开发者和研究人员现在可以通过ChatGPT和应用程序编程接口访问这些模型。此外,OpenAI还表示,目前该模型还无法浏览网络信息,也无法上传文件和图像。

有观点用 “深思熟虑”来形容Open o1,也就是,虽然要花更多时间来学习、思考或推理,但效果更出色,甚至可以超越人。相比GPT系列模型来说,o1无疑有了质的飞跃。正如“o1”这一命名,就是“重头开始”,开启新的篇章。