GPT-5.4能操控你的电脑了，但AI"替你干活"到底靠不靠谱

2026-04-09 23:30

2026年3月5日，OpenAI发布了GPT-5.4。官方博客的标题很直白："Introducing GPT-5.4"。没什么花哨的，但核心卖点第一次写得这么具体：这是OpenAI首个具备原生Computer Use能力的通用模型。

翻译成大白话：AI可以直接看你的屏幕、操控你的鼠标键盘、帮你操作电脑上的软件。

这听起来像科幻。但它确实已经发生了。问题是，普通人到底能不能用它？靠不靠谱？

Computer Use到底是什么

先说清楚概念。GPT-5.4的Computer Use能力，本质上就是让AI像人一样操作电脑。它通过截取屏幕截图来"看"你在干什么，然后模拟鼠标点击和键盘输入来执行操作。

不是通过API调用，不是通过插件，而是直接在你的桌面环境里干活。

OpenAI公布了一组基准测试数据。在OSWorld-Verified测试中（专门衡量模型通过截图和键鼠操作桌面环境的能力），GPT-5.4达到了75.0%的成功率。作为对比，GPT-5.2只有47.3%，而人类的表现是72.4%。

没错，AI在操作电脑这件事上，已经超过了人类平均水平。

具体能做什么？OpenAI给了几个方向：跨应用的复杂工作流、电子表格建模、演示文稿制作、文档处理。比如你让它在Excel里做一份投资分析报告，它能自动打开Excel、输入数据、创建图表、调整格式，全程不需要你动手。

还有一个值得关注的数字。在模拟投行初级分析师工作的基准测试中，GPT-5.4的平均得分从GPT-5.2的68.4%提升到了87.3%。OpenAI还同步推出了ChatGPT for Excel插件，接入了FactSet、标普全球等金融数据源。

这说明OpenAI的定位很清楚：Computer Use首先面向的是专业办公场景，不是帮你刷网页。

但75%的成功率意味着什么

75%听起来很高。但换一个角度看：每4次操作，就有1次失败。

如果你让AI帮你操作电脑完成一个10步的任务，每步成功率75%，那整个任务一次成功的概率只有5.6%。这还是乐观估计，因为现实中的任务往往步骤更多、情况更复杂。

这就是Computer Use目前最大的问题：容错率太低。

你在电脑上操作，点错了可以撤销。但AI操作时如果点错了按钮、选错了菜单，后果可能很麻烦。尤其是在操作文件管理、系统设置这种敏感场景，一步错就可能导致数据丢失。

实测反馈也印证了这一点。知乎上有人做过深度测评，结论是GPT-5.4在简单任务上表现不错（打开网页、搜索信息、复制粘贴），但在需要多步推理和精确操作的场景下，失败率明显上升。比如让它从一封邮件中提取信息然后填入特定的表格，它可能在第3步就选错了单元格。

所以我的判断是：GPT-5.4的Computer Use是一个"可用但还不可靠"的功能。它适合在容错率高的场景中使用，比如信息收集、简单文档处理、数据查询。但不要把它用于不可逆的操作。

中国AI走了一条不同的路

有意思的是，"让AI替你操作电脑"这件事，中国公司做得比OpenAI早。

2025年9月，月之暗面的Kimi就上线了OK Computer功能，比GPT-5.4早了近半年。但思路完全不同。

GPT-5.4走的是"操控你的电脑"路线。它操作的是你桌面上真实的软件环境，用的是截图加模拟键鼠的方式。相当于AI坐在你的电脑前帮你干活。

Kimi走的是"给AI配一台虚拟电脑"路线。AI在沙盒环境里操作，调度20多种原生工具（浏览器、代码编辑器、文件管理器等），自主拆解任务、写代码、搭网站、做数据分析，最后把成品交给你。

哪个更好？取决于场景。

如果你需要AI在现有的软件环境里完成工作（比如操作公司内部的ERP系统、处理已有的Excel文件），GPT-5.4的桌面操控更直接。

如果你需要AI从零开始创建新东西（比如做一个网站、生成一份报告、搭一个数据分析工具），Kimi的虚拟电脑方案更干净，因为不涉及你的真实系统，也更安全。

还有一点值得注意。在GPT-5.4发布之前，OSWorld排行榜的冠军是Kimi K2.5，得分63.3%。也就是说，在AI操作电脑这个赛道上，中国AI公司不是追赶者。

安全问题：你愿意让AI操控你的电脑吗

这是一个绕不过去的问题。

让AI直接操作你的电脑，意味着它能看到你屏幕上的一切：邮件内容、聊天记录、密码、银行账户。即便OpenAI声称数据不会用于训练，这个信任门槛依然很高。

企业场景更敏感。公司的财务数据、客户信息、商业机密，都可能在AI操作屏幕的过程中被截取。这也是为什么OpenAI把Computer Use主要定位在API和Codex（面向开发者的编程工具）中，而不是直接在ChatGPT的免费版里开放。

相比之下，Kimi的沙盒方案在安全性上天然有优势。AI在虚拟环境里操作，根本接触不到你的真实系统和数据。操作完成后把结果交付给你，过程和结果分离。

但这不意味着沙盒方案就没有风险。如果AI在虚拟环境里生成的内容包含错误或偏见，而你直接采纳了，后果同样严重。只是风险类型不同罢了。

普通人现在能用什么

说了这么多，回到最实际的问题：普通人现在能用Computer Use做什么？

先说门槛。GPT-5.4的Computer Use功能目前主要在API和Codex中提供，不是在ChatGPT里直接可用。要用的话，需要一定的开发能力或者通过第三方工具接入。GPT-5.4 Pro的API定价是输入30美元/百万token、输出180美元/百万token，不便宜。

中国用户的选项反而更多。Kimi的OK Computer对普通用户开放，直接在Kimi网页或App里就能用。你描述需求，它自主完成任务并交付结果。智谱的GLM-5也有类似能力，内置了直接输出Word、PDF、Excel文件的功能。

如果你是普通用户，想体验"AI替你干活"，我建议从这几个场景开始尝试。

第一，信息整合。让AI帮你从多个来源收集信息、整理成表格或报告。这个场景容错率高，即使AI犯了小错也容易纠正。

第二，数据分析。上传一个Excel文件，让AI帮你做清洗、分析和可视化。目前多个模型都能做到，效果已经比较稳定。

第三，内容生成。从调研报告到演示文稿，描述需求后让AI自动生成初稿，你做最终调整。

暂时不建议尝试的场景：涉及文件删除或移动的操作、系统设置更改、多步骤的跨应用复杂工作流。这些场景出错成本太高，等AI的可靠性进一步提升再说。

从"对话"到"行动"的关键一步

把视角拉远一点。GPT-5.4的Computer Use不只是一个功能，它代表的是AI发展的一个关键转折点。

过去两年，AI的核心竞争维度是"谁更聪明"。谁的模型推理能力更强、知识面更广、生成质量更高。但从2025年下半年开始，竞争维度明显转向了"谁能真正替你干活"。

这不是偶然。因为用户的需求已经从"帮我想"进化到了"帮我做"。问AI一个问题，它给你一段文字，这已经是基本能力了。现在用户想要的是：我说"帮我做一份季度销售报告"，AI直接给我一个做好的Excel文件，里面有数据、有图表、有分析。

OpenAI看到了这个趋势，Anthropic看到了（Claude在Computer Use上持续加码），中国AI公司也看到了。大家的方向一致，只是路径不同。

GPT-5.4走的是"在真实环境中操作"的路，优势是通用性强，劣势是可靠性和安全性有挑战。Kimi走的是"在虚拟环境中创建"的路，优势是安全干净，劣势是对现有软件环境的适配不如前者。

短期内，两条路线会并存。长期看，可能会融合。未来的AI助手应该既能操作你现有的软件环境，又能在虚拟空间里安全地创建新东西。用户不需要关心底层是哪种方式，只关心结果对不对。

写在最后

GPT-5.4的Computer Use是AI从"对话"走向"行动"的关键一步，但它还不是终点。75%的成功率说明技术已经可用，但还远未到可靠的程度。

对普通人来说，现在最务实的做法是：先在低风险场景中尝试，逐步建立对AI"动手能力"的信任。不要一上来就把重要任务全交给AI，也不要因为偶尔的失败就放弃。

AI替你干活的时代确实在到来。只不过，它还需要一些时间从"能干"变成"干得好"。