把大模型「放进电脑里」,会出现一种很奇特的反差: 它能写代码、能推理、能把论文总结得头头是道;但一旦让它去操作 Excel、Word 这种真实桌面软件,却像第一次用电脑的人 -- 点错菜单、来回切换,甚至在同一页里循环点击。 很多人第一反应会觉得是 Agent 没看清按钮,或者没理解任务,不知道界面上各个选项是什么意思。但在真实软件里,更大的问题往往不是「看不见」,而是「不知道点下去会发生什么」。
【新智元导读】GPT-5.4,已经把白领桌面一口吞下!1M上下文,原生Computer Use,Excel直接变身数据分析平台;超越麦肯锡,取代投行律所咨询公司不是梦。白领工作,要被AI彻底颠覆了吗?
就在刚刚,OpenAI 头号竞争对手 Anthropic 推出了 “computer use” 功能,让 Claude 能够像人类一样操作电脑了!看屏幕、动光标、点按钮、打字等。通过 API,开发者可以让 Claude 将指令翻译成计算机指令,从而解放一些枯燥的重复性流程任务。 一、西方的Anthropic 的 ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
Perplexity公司推出了名为"Computer"的新工具,允许用户分配任务并观看由协调多个智能体运行各种模型的系统来完成这些任务。 该公司声称,目前面向Perplexity ...
近期,科技圈被一个名为“原生电脑操控能力”(Native Computer ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
OpenAI最新发布的GPT-5.4模型引发科技圈热议,其内置的"原生电脑操控能力"成为焦点。这项被称作Native Computer Use的技术突破,标志着人工智能开始具备直接操作计算机的物理能力,而不再局限于文字交互层面。