OpenAI重磅发布首款AI代理工具Operator！能控制电脑，像人类一样浏览网页，订餐、网上购物都可代劳

时间：2025-01-24 20:00作者：

OpenAI首个智能体终于亮相了！

美国初创公司OpenAI1月23日突然举行直播活动，发布市场期待已久的首款AI代理工具Operator（意为操作员），能够代理用户执行基于网页的操作。

言简意赅的解释，就是Operator能够像人类一样使用网页浏览器。

与“问一句、答一句”的聊天机器人不同，AI代理能够在人类有限监督的情况下按照设定完成任务，也被普遍视为AI生产力的下一个里程碑。在OpenAI通往通用人工智能（AGI）的五个步骤中，AI代理是继聊天机器人、推理机器人之后的第三步，也是全新的一步。

山姆·奥尔特曼介绍称，从1月23日开始，美国的ChatGPTPro用户（一个月交200美元）将能使用“研究预览版”的Operator。未来将拓展到更多区域的Pro用户，几个月后ChatGPTPlus用户也能用上。同时在未来几周、几个月里，还会发布更多的AI代理。

目前，Operator尚处于研究预览阶段，仅向美国地区的Pro用户开放。

Operator由一个名为CUA（计算机使用代理）的新模型驱动，结合了GPT-4o的视觉能力，以及通过强化学习实现的高级推理。Operator能够“看见”网页（截图），并使用鼠标和键盘允许的所有操作与网页进行互动。在操作中如果碰到困难，模型会调用推理能力进行自我纠正，若依然无法解决问题则会把控制权交还给人类。

如何使用Operator？用户只需简单描述想要完成的任务，Operator即可自动处理后续步骤。用户可以随时接管远程浏览器的控制权。考虑到安全性和隐私性，Operator被训练为在需要登录、输入支付信息或解决CAPTCHA验证码等任务时，主动请求用户接管。

Operator的界面与聊天机器人ChatGPT类似，最大的区别是调用“AI代理”完成用户吩咐的事情。

在演示案例中，Operator被要求预订某家饭店。用户只需要在对话框中输入“给我订一个XX饭店今晚19点的桌子”，然后AI代理就会自己打开网页，进入预订网站，搜索餐厅并完成预订。

Operator可以自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

在另一个案例中，用户上传了一张写有“鸡蛋、菠菜、蘑菇”等杂货的购物清单，要求Operator去买菜网站上进行操作。随后AI就会打开浏览器，顺着清单逐一搜索并加入购物车。

完成任务后，Operator会告诉用户总共需要多少钱，以及骑手送达的时间，然后将浏览器的控制权交还给人类。

与浏览器多标签页功能类似，用户可以通过创建新的对话，让Operator同时运行多个任务，例如在Etsy上订购个性化珐琅杯，同时在Hipcamp上预订露营地。

更令人印象深刻的是，Operator具备一定的自我纠错能力。当遇到挑战或犯错时，它可以利用推理能力进行自我调整。如果遇到无法解决的问题，Operator会将控制权交还给用户，实现人机协作的流畅体验。

虽然CUA模型仍处于早期阶段，存在一些局限性，但在WebArena和WebVoyager这两个关键的浏览器使用基准测试中，它已经取得了最新的领先水平。

Operator的发布标志着AI从被动工具转变为数字生态系统中的积极参与者。它不仅可以简化用户任务，还将为希望提供创新客户体验和提高转化率的企业带来代理的优势。

OpenAI正在与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作，确保Operator能够满足真实世界的需求，并尊重既有规范。除了商业合作，OpenAI还看到了在公共部门应用中提高效率和可访问性的巨大潜力。他们正与斯托克顿市等组织合作，简化市民注册城市服务和计划的流程。

展开全部内容