OpenAI发布新一代o1 AI大模型，强化学习突破AI推理极限

2024-09-13

OpenAI发布新一代o1 AI大模型，强化学习突破AI推理极限

万众期待的“Strawberry”（草莓）终于亮相。北京时间9月13日凌晨，OpenAI宣布推出命名为OpenAI o1（简称：o1）的AI大模型。

对于命名，OpenAI表示：“在复杂推理任务中，这是一项重大突破，代表了人工智能能力的新高度。因此，我们将计数器重置为1，并将这一系列命名为OpenAI o1。”

据悉，经过强化学习（Reinforcement Learning），在o1推理能力方面取得了重大进展。研发团队观察到，随着训练时间（强化学习的增加）和思考时间（测试时的计算）的延长，o1模型的表现逐渐提升。这种方法的扩展所面临的挑战与大型语言模型（LLM）的预训练限制截然不同。

OpenAI表示，o1将在做出反应之前花更多的时间思考问题，就像人一样。通过训练，它们学会了完善思维过程，尝试不同的策略，并认识到自己的错误。

值得注意的是，o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时，o1的表现甚至和该领域的博士生水平不相上下；在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83%，成功进入了美国前500名学生的行列，而GPT-4o模型的正确率仅为13%。

此次的o1系列共有3个版本，其中preview版本注重深度推理处理，每周可以使用30次；mini版本定位为高效和性价比，适用于编码任务，每周可以使用50次；而面向高级推理模型则暂不对外开放。开发者和研究人员现在可以通过ChatGPT和应用程序编程接口访问这些模型。此外，OpenAI还表示，目前该模型还无法浏览网络信息，也无法上传文件和图像。

有观点用 “深思熟虑”来形容Open o1，也就是，虽然要花更多时间来学习、思考或推理，但效果更出色，甚至可以超越人。相比GPT系列模型来说，o1无疑有了质的飞跃。正如“o1”这一命名，就是“重头开始”，开启新的篇章。

上一篇：阿里国际推出最新多模态大模型 Ovis，看菜品就能提供烹饪步骤

新闻资讯

OpenAI发布新一代o1 AI大模型，强化学习突破AI推理极限

热线

地址

邮箱