「豆包 AI 手机」的电脑版,被 OpenAI 做出来了。
尽管在版本号上,GPT-5.4 只比去年年底发布的 GPT-5.2 多了0.2,但在功能上,GPT-5.4 的升级可以说「颠覆」了整个 PC AI 领域。简单来说,GPT-5.4 打包了GPT-5.3-Codex、高级推理能力和 100 万 Token 的上下文窗口大小,同时还支持原生电脑操作支持(Computer Use)。用更直白的话来说,全新的 GPT-5.4,把豆包 AI 手机那种全自动的 AI 操作,带到了电脑上。
我们先来看看大家最关心的原生电脑操作支持。从技术路线上讲,GPT-5.4 和手机领域的 GUI-Agent 类似,利用视觉识别来看懂屏幕画面上的元素和组件,而非简单读取文字标签。推理、确认操作路径后,GPT-5.4 会基于屏幕显示元素的坐标,生成快速、连续的光标指令,并通过 Windows 或 Linux 的系统端口执行。
由于这种 GUI-Agent 能真正理解屏幕内容,GPT-5.4 这套原生电脑操作可以兼容不同的应用和场景。对于并不熟悉 MCP 协议的小白用户来说,GPT-5.4 这套方案的体验显然要友好得多。
在新闻稿中,OpenAI 也演示了 GPT-5.4 操作用户电脑的流程。虽然GPT-5.4 理解屏幕内容时消耗了不少时间,但即便任务链特别长,GPT-5.4 也能准确执行。可以肯定的是,随着 OpenAI 通用视觉感知能力的提升,这套流程将越来越顺。
既然提到了长任务链,那就不得不提 GPT-5.4 的另一个重点:GPT-5.4 系列模型支持高达 100 万 Tokens 的上下文窗口。上下文窗口越大,AI 的「长期记忆」能力就越强,不会出现「看了后面忘了前面」的情况。
而 100 万 Token 的上下文窗口,意味着开发者现在可以把整个代码仓库打包丢给 GPT-5.4,显著提升「Vibe-Coding」的效率;分析师也可以直接把企业好几年的财务数据喂给 GPT-5.4,让 AI 来找出其中的异常征兆。对中小企业来说,更大的窗口大小也意味着不再需要另外做 RAG,避免数据切片带来的信息遗漏。
更大的窗口大小、更准确的推理能力,再加上原生电脑交互,这些底层能力的提升让 GPT-5.4 的综合能力全面进化。根据 OpenAI 给出的对比成绩,GPT-5.4 的各项性能较 GPT-5.2 均有明显提升;甚至在做投行金融报表时,GPT-5.4 也因「审美提升」获得了更高的分数。
在 AI 领域,模型性能通常与价格挂钩,GPT-5.4 自然也不例外。定价方面,GPT-5.4 的 Token 价格会高于 GPT-5.2。2026 年 3 月 6 日,GPT-5.4 Thinking 已向 ChatGPT 各级付费用户开放。