
{jz:field.toptypename/}大模子的竞争涓滴莫得冷却的迹象,OpenAI日前又甩出一个“王炸”——GPT-5.4。这是OpenAI初度将前沿推理、编码与智能体智力整合于单一模子,官方以为它是“现在面向专科责任推出的智力最强、成果最高的前沿模子之一”,标记着AI时候从对话交互向自主智能体扩充当务迈出重要一步。
GPT-5.4在两个维度上朝上明显:第一、脱手智力,它是OpenAI首个具备原生策画机使用智力的通用模子,在桌面操控测试中初度超越了东谈主类平均水平;第二、它的“情商”有所栽植,该模子在SimpleQA准确率上达到62.5%,较GPT-4o栽植了24%,幻觉率下跌了25%。
与电脑打交谈的白领责任,会被GPT-5.4颠覆吗?
AI白领超越东谈主类白领
GPT-5.4最具冲破性的革命在于其原生策画机使用智力。此前,不管是ChatGPT Atlas照旧AutoGPT类智能体,均摄取外挂插件或独处智能体情状,并非模子原生功能。
OSWorld-Verified是面前最泰斗的“策画机使用”评测基准,它测试AI代理通过截图不雅察、鼠标键盘操作来完成任务,维持369个确切世界任务,掩饰文献处置、网页浏览、办公软件、多哄骗互助等场景。GPT-5.4在该评测中获取了75%的任务到手率,初度相当72.4%的东谈主类平均水平。
在另一款评估器具GDPval上,GPT-5.4的发扬雷同亮眼。GDPval是OpenAI于前年9月推出的评估器具,其专有之处在于评测“明确任务下的录用质地”,而非肤浅的问答智力。评分摄取同作事群众盲评对比——将“模子录用法例”与“东谈主类群众录用法例”并排盲审,由同作事群众评判优劣。法例自大,GPT-5.4在83%的任务中发扬就是或优于东谈主类群众,尤其在投行级电子表格建模、演示文稿生成和法律通知等任务上,启程点上风更为明显。
GPT-5.4带有“小龙虾”立场
“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种嗅觉,每天齐有新变化,应接不暇。”上海东谈主工智能究诘院时候中心主任林圆圆的一句打妙语,谈出了如今AI赛谈上“你追我赶”的近况,每支戎行齐铆足了劲,b体育官方app下载一次更新就能引来业内边幅变动。
行业的范式转变照旧泄露。本年齿首举行的清华大学AGI-Next峰会明确提倡,大模子竞争已从“对话”阶段负责转向“智能体”阶段,扩充智力鄙人半场竞争中至关迫切。本年2月,OpenAI 首席扩充官山姆·奥特曼文告OpenClaw首创东谈主彼得·斯坦伯格加入OpenAI,悉力于鼓动下一代个东谈主智能体的研发。

混名“小龙虾”的OpenClaw是当下最火爆的AI名堂。3月1日,OpenClaw以24.5万颗星登顶GitHub榜首,超越了遥远占据榜首的Linux和React。奥特曼评价谈:“彼得是一位真确的天才,他对往日高度智能的智能体如何互助以就业东谈主类有着好多令东谈主感触的构想。”
这一东谈主事变动对GPT-5.4的发布产生了径直影响。有成立者不雅察到,GPT-5.4的多项中枢功能——原生电脑操控、100万token险阻文、器具搜索带来的47%token资本简易,碰巧踩中了OpenClaw的时候痛点。
大模子进入互异化竞争时间
GPT-5.4虽然庞大,但庞大亦有规模。轮廓来看,它在专科责任场景,尽头是金融分析、办公自动化、常识责任中展现了显耀的智力栽植,但在编程智力上落伍于Claude Opus 4.6,在科学推理上落伍于Gemini 3.1 Pro,在医疗健康鸿沟以致出现了小幅铩羽。另外,尽管GPT-5.4在OSWorld-Verified测试中照实超越了东谈主类基准,但这仅仅在特定的369个任务上,且测试环境是可控的捏造机。在更复杂、更绽放的确切场景中,AI与东谈主类的发扬差距可能判然不同。
若是说三年前的大模子还在合并条跑谈上竞争,那么如今,照旧很难用合并把标尺来臆测“各怀绝技”的大模子了。正如一位业内东谈主士所言:“不再有‘最佳的AI’——想操控电脑、作念PPT、跑常识责任?选GPT-5.4。想写代码、跑智能体、作念复杂成立?选Claude Opus 4.6。想要最强推理、图片视频贯通、最大险阻文、最廉价钱?选Gemini 3.1 Pro。”
价钱亦然不得不探究的身分。GPT-5.4的输入价钱达到了30好意思元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,尽头于对GPT-5.4 Pro说一句“嗨”,模子念念考5分钟就可能花掉80好意思元。
林圆圆以为,大模子的竞争最终将归于算力。东谈主工智能大模子的快速发展对高性能算力提倡空前需求,算力展望还有成百上千倍的增漫空间。本年世界两会提倡在将在包括电网、算力网、新式通讯网等在内的“六张网”等要点鸿沟进入相当7万亿元,这一布局真义真义要紧。
原标题:《OpenAI发布GPT5.4,AI初度比东谈主类更会操作电脑,这些岗亭受冲击》
栏目主编:戎兵
本文作家:文讲演 沈湫莎
题图开端:豆包AI生成