← 返回博客

GPT-5.4能操控你的电脑了,但AI"替你干活"到底靠不靠谱

2026-04-09 23:30

2026年3月5日,OpenAI发布了GPT-5.4。官方博客的标题很直白:"Introducing GPT-5.4"。没什么花哨的,但核心卖点第一次写得这么具体:这是OpenAI首个具备原生Computer Use能力的通用模型。

翻译成大白话:AI可以直接看你的屏幕、操控你的鼠标键盘、帮你操作电脑上的软件。

这听起来像科幻。但它确实已经发生了。问题是,普通人到底能不能用它?靠不靠谱?

Computer Use到底是什么

先说清楚概念。GPT-5.4的Computer Use能力,本质上就是让AI像人一样操作电脑。它通过截取屏幕截图来"看"你在干什么,然后模拟鼠标点击和键盘输入来执行操作。

不是通过API调用,不是通过插件,而是直接在你的桌面环境里干活。

OpenAI公布了一组基准测试数据。在OSWorld-Verified测试中(专门衡量模型通过截图和键鼠操作桌面环境的能力),GPT-5.4达到了75.0%的成功率。作为对比,GPT-5.2只有47.3%,而人类的表现是72.4%。

没错,AI在操作电脑这件事上,已经超过了人类平均水平。

具体能做什么?OpenAI给了几个方向:跨应用的复杂工作流、电子表格建模、演示文稿制作、文档处理。比如你让它在Excel里做一份投资分析报告,它能自动打开Excel、输入数据、创建图表、调整格式,全程不需要你动手。

还有一个值得关注的数字。在模拟投行初级分析师工作的基准测试中,GPT-5.4的平均得分从GPT-5.2的68.4%提升到了87.3%。OpenAI还同步推出了ChatGPT for Excel插件,接入了FactSet、标普全球等金融数据源。

这说明OpenAI的定位很清楚:Computer Use首先面向的是专业办公场景,不是帮你刷网页。

但75%的成功率意味着什么

75%听起来很高。但换一个角度看:每4次操作,就有1次失败。

如果你让AI帮你操作电脑完成一个10步的任务,每步成功率75%,那整个任务一次成功的概率只有5.6%。这还是乐观估计,因为现实中的任务往往步骤更多、情况更复杂。

这就是Computer Use目前最大的问题:容错率太低。

你在电脑上操作,点错了可以撤销。但AI操作时如果点错了按钮、选错了菜单,后果可能很麻烦。尤其是在操作文件管理、系统设置这种敏感场景,一步错就可能导致数据丢失。

实测反馈也印证了这一点。知乎上有人做过深度测评,结论是GPT-5.4在简单任务上表现不错(打开网页、搜索信息、复制粘贴),但在需要多步推理和精确操作的场景下,失败率明显上升。比如让它从一封邮件中提取信息然后填入特定的表格,它可能在第3步就选错了单元格。

所以我的判断是:GPT-5.4的Computer Use是一个"可用但还不可靠"的功能。它适合在容错率高的场景中使用,比如信息收集、简单文档处理、数据查询。但不要把它用于不可逆的操作。

中国AI走了一条不同的路

有意思的是,"让AI替你操作电脑"这件事,中国公司做得比OpenAI早。

2025年9月,月之暗面的Kimi就上线了OK Computer功能,比GPT-5.4早了近半年。但思路完全不同。

GPT-5.4走的是"操控你的电脑"路线。它操作的是你桌面上真实的软件环境,用的是截图加模拟键鼠的方式。相当于AI坐在你的电脑前帮你干活。

Kimi走的是"给AI配一台虚拟电脑"路线。AI在沙盒环境里操作,调度20多种原生工具(浏览器、代码编辑器、文件管理器等),自主拆解任务、写代码、搭网站、做数据分析,最后把成品交给你。

哪个更好?取决于场景。

如果你需要AI在现有的软件环境里完成工作(比如操作公司内部的ERP系统、处理已有的Excel文件),GPT-5.4的桌面操控更直接。

如果你需要AI从零开始创建新东西(比如做一个网站、生成一份报告、搭一个数据分析工具),Kimi的虚拟电脑方案更干净,因为不涉及你的真实系统,也更安全。

还有一点值得注意。在GPT-5.4发布之前,OSWorld排行榜的冠军是Kimi K2.5,得分63.3%。也就是说,在AI操作电脑这个赛道上,中国AI公司不是追赶者。

安全问题:你愿意让AI操控你的电脑吗

这是一个绕不过去的问题。

让AI直接操作你的电脑,意味着它能看到你屏幕上的一切:邮件内容、聊天记录、密码、银行账户。即便OpenAI声称数据不会用于训练,这个信任门槛依然很高。

企业场景更敏感。公司的财务数据、客户信息、商业机密,都可能在AI操作屏幕的过程中被截取。这也是为什么OpenAI把Computer Use主要定位在API和Codex(面向开发者的编程工具)中,而不是直接在ChatGPT的免费版里开放。

相比之下,Kimi的沙盒方案在安全性上天然有优势。AI在虚拟环境里操作,根本接触不到你的真实系统和数据。操作完成后把结果交付给你,过程和结果分离。

但这不意味着沙盒方案就没有风险。如果AI在虚拟环境里生成的内容包含错误或偏见,而你直接采纳了,后果同样严重。只是风险类型不同罢了。

普通人现在能用什么

说了这么多,回到最实际的问题:普通人现在能用Computer Use做什么?

先说门槛。GPT-5.4的Computer Use功能目前主要在API和Codex中提供,不是在ChatGPT里直接可用。要用的话,需要一定的开发能力或者通过第三方工具接入。GPT-5.4 Pro的API定价是输入30美元/百万token、输出180美元/百万token,不便宜。

中国用户的选项反而更多。Kimi的OK Computer对普通用户开放,直接在Kimi网页或App里就能用。你描述需求,它自主完成任务并交付结果。智谱的GLM-5也有类似能力,内置了直接输出Word、PDF、Excel文件的功能。

如果你是普通用户,想体验"AI替你干活",我建议从这几个场景开始尝试。

第一,信息整合。让AI帮你从多个来源收集信息、整理成表格或报告。这个场景容错率高,即使AI犯了小错也容易纠正。

第二,数据分析。上传一个Excel文件,让AI帮你做清洗、分析和可视化。目前多个模型都能做到,效果已经比较稳定。

第三,内容生成。从调研报告到演示文稿,描述需求后让AI自动生成初稿,你做最终调整。

暂时不建议尝试的场景:涉及文件删除或移动的操作、系统设置更改、多步骤的跨应用复杂工作流。这些场景出错成本太高,等AI的可靠性进一步提升再说。

从"对话"到"行动"的关键一步

把视角拉远一点。GPT-5.4的Computer Use不只是一个功能,它代表的是AI发展的一个关键转折点。

过去两年,AI的核心竞争维度是"谁更聪明"。谁的模型推理能力更强、知识面更广、生成质量更高。但从2025年下半年开始,竞争维度明显转向了"谁能真正替你干活"。

这不是偶然。因为用户的需求已经从"帮我想"进化到了"帮我做"。问AI一个问题,它给你一段文字,这已经是基本能力了。现在用户想要的是:我说"帮我做一份季度销售报告",AI直接给我一个做好的Excel文件,里面有数据、有图表、有分析。

OpenAI看到了这个趋势,Anthropic看到了(Claude在Computer Use上持续加码),中国AI公司也看到了。大家的方向一致,只是路径不同。

GPT-5.4走的是"在真实环境中操作"的路,优势是通用性强,劣势是可靠性和安全性有挑战。Kimi走的是"在虚拟环境中创建"的路,优势是安全干净,劣势是对现有软件环境的适配不如前者。

短期内,两条路线会并存。长期看,可能会融合。未来的AI助手应该既能操作你现有的软件环境,又能在虚拟空间里安全地创建新东西。用户不需要关心底层是哪种方式,只关心结果对不对。

写在最后

GPT-5.4的Computer Use是AI从"对话"走向"行动"的关键一步,但它还不是终点。75%的成功率说明技术已经可用,但还远未到可靠的程度。

对普通人来说,现在最务实的做法是:先在低风险场景中尝试,逐步建立对AI"动手能力"的信任。不要一上来就把重要任务全交给AI,也不要因为偶尔的失败就放弃。

AI替你干活的时代确实在到来。只不过,它还需要一些时间从"能干"变成"干得好"。

评论