OpenAI发布 o3-pro,奥特曼发长文:温和的奇点
【来源:虎嗅网】
ChatGPT 宕机了一整晚,全球网友已经乱成一锅粥了。
OpenAI 的处理方案也有些另类,一边抓紧时间修 bug,一边突然上线了 o3-pro 模型。
从今天起,o3-pro 率先向 Pro 和 Team 用户开放,在模型选择器里将替代原本的 o1-pro,而 Enterprise 和 Edu 用户还得等到下周。
只能说,Plus 用户的命也是命。
o3-pro 登场,更强大,也更“慢”
作为推理模型 o3 的升级版,o3-pro 在处理复杂问题、给出更精准的回答方面表现更强,尤其在科学研究、编程、教育和写作这些场景下,有着明显优势。
此外,它也支持调用 ChatGPT 的全套工具,比如网页搜索、文件分析、图像推理、Python 编程、记忆个性化等,整体执行力和整合能力都更强。
当然,功能多了,响应速度也稍微慢了下来。
由于任务调度和工具链调用更复杂,o3-pro 的响应速度一般要比 o1-pro 要长一点,所以更适合在你需要认真思考,或者对答案准确性要求较高的场景中使用。
在官方专家评估中,评审人员普遍认为 o3 Pro 在表达清晰度、答案完整性、指令执行能力和逻辑准确性方面都比 o3 模型更进一步,尤其适合用在科学、教育、编程、商业和写作这些需要深度输出的任务中。
学术评估也验证了这一点,o3-pro 的整体表现持续优于 o1-pro 和 o3。
为了更科学评估模型的稳定性,OpenAI 引入了“四次全对”的评估标准——只有模型连续四次给出正确答案,才算成功。
可以说,这套机制大幅提升了对推理一致性的要求。
值得注意的是,o3 Pro 此次并未单独发布系统卡。OpenAI 表示,由于 o3-pro 与 o3 使用相同的底层模型,其完整的安全性说明请参见 o3 系统卡。
但目前 o3 Pro 仍存在一些功能限制,比如不支持临时对话、图像生成和 Canvas 功能。如需生成图像,用户仍需使用 GPT-4o、o3 或 o4-mini 模型。
在正式上线之前,一些开发者已获得 o3 Pro 的早期访问权限。
前 SpaceX 软件工程师及苹果 visionOS 设计师的 Ben Hylak 在过去一周获得了 o3-pro 的早期访问权限,其体验历程也得到了 OpenAI CEO Sam Altman 在社交媒体上的转发。
具体来说,Ben 与其联合创始人 Alexis 花时间整理了 Raindrop 过去所有的规划会议记录、目标、甚至语音备忘录,然后请 o3-pro 尝试生成一个战略性规划文档。
最终模型生成的结果让他们大受震撼:内容清晰、结构完整,不仅覆盖了目标和时间线,还自动梳理出优先级,甚至明确指出了哪些内容应被砍掉。
在 Ben 看来,模型再强,如果无法融入真实的工作环境,也难以成为真正有用的“成员”。
而 o3 Pro 在理解复杂环境、表达工具能力、提出适当问题、合理调度资源方面有明显提升。尽管模型偶尔在缺乏上下文时会出现“过度思考”的问题,但整体表现已明显优于此前版本。
o3 pro(左)vs o3(右):o3 pro 明显更好地理解了自身的限制和能力范围。
在与同类模型对比中,Ben 则是夸奖道,虽然 Claude Opus 体量感十足,但实战表现平平无奇;而 o3-pro 则更实用,属于“完全不同维度的存在”。
在经典升级版的六边形弹跳小球挑战中,博主 @flavioAd 认为 o3-pro 是第一个几乎能完美处理小球与墙面真实碰撞效果的模型。
ARC-AGI 是一种用来评估语言模型是否具备类通用人工智能(AGI)推理能力的基准测试框架。
它旨在测试 AI 系统在面对新问题时的抽象推理和问题解决能力,类似于人类在面对新情况时能够迅速适应并找到解决方案的能力。
最新测试结果如下:
可以看到,o3-pro 在高难任务上表现略好,但提升幅度不大,且成本随难度上升。
企业是第二曲线,o3-pro 是一块新基石
在 o3-pro 发布,OpenAI CEO Sam Altman 还在社交平台公布了一项重磅消息:o3 模型价格直降 80%。
现在,o3 模型每输入百万 tokens 收费 2 美元,每输出百万 tokens 收费 8 美元。
OpenAI 首席产品官 Kevin Weil 发文表示,由于用户反馈强烈,Plus 用户的 o3 模型使用速率限制将提升一倍,该调整正在陆续上线中。
对比之下,o3-pro 每输入百万 tokens 收费 20 美元,每输出百万 tokens 收费 80 美元,比 o1-pro 便宜 87%。
OpenAI 建议在使用 o3-pro 时启用“后台模式”:对于耗时较长的任务,将会异步启动,从而规避请求超时问题。
官方表示,这波大降价的背后,是 OpenAI 对推理服务架构的全面优化。模型没变,但推理更高效,价格也就顺势调了下来。
而另一方面,或许离不开 OpenAI 在算力资源上的新动向。
自 ChatGPT 横空出世以来,算力资源的限制一直是 OpenAI 的“老大难”,受限于微软绑定协议的限制,Azure 云服务曾是 ChatGPT 的唯一数据中心基础设施提供商。
而据路透社凌晨援引三位知情人士消息称,为了缓解算力压力,OpenAI 已于上个月与 Alphabet( Google 母公司)达成合作协议,引入 Google Cloud 作为额外云服务提供商。
这样的合作既在意料之外,也在情理之中。
一方面,ChatGPT 是近年来对 Google 搜索业务最大的威胁之一,而 Google Cloud 现在却成了它的新靠山。
而另一方面,Google Cloud 2024 年销售额达 430 亿美元,占 Alphabet 收入的 12%。因此,为了在云计算市场中超越亚马逊和微软,Google Cloud 一直致力于扮演一个“中立算力供应商”的角色。
此次合作的达成将是对 Google Cloud 的一次重大利好。截至发稿前,OpenAI、Google 和微软均未就此报道置评。
与此同时,OpenAI 还在全球范围内加速部署 AI 基础设施网络。
今年早些时候,OpenAI 还与软银和甲骨文推进了 5000 亿美元规模的星门计划,并与 CoreWeave 签订了价值数十亿美元的算力采购协议。
高投入的前提离不开高回报,本周据外媒报道,去年,OpenAI 的 ARR 约为 55 亿美元,而现在已突破 100 亿美元,增长了近 80%。
需要说明的是,100 亿美元仅包括其面向消费者的产品、ChatGPT 付费商品以及 API 收入,暂不包括微软的授权收入和其他大额交易。
在商业领域,ARR 是指企业从订阅服务或长期合同中获得的年度经常性收入。它反映了一种可预测的、持续的收入流,通常用于衡量订阅模式业务的健康状况和增长潜力。
简单来说,一家提供软件即服务(SaaS)的公司,与客户签订了每年支付 1000 元的订阅合同。如果有 100 个这样的客户,那么该公司的 ARR 就是 1000 元×100=100000 元。
上周,OpenAI COO Brad Lightcap 还透露 OpenAI 目前拥有 300 万付费商业用户,高于 2 月份报告的 200 万,可以说,OpenAI 目前形势一片大好。
一边通过 o3 把基础模型的成本打下来,一边用 o3-pro 把复杂问题的解决能力拔上去,瞄准高价值场景,OpenAI 也正试图在这两端之间,打通一条通往下一个增长曲线的路径:企业服务。
世界上最强的模型轮流发布,OpenAI 也是这波 AI 浪潮中的一个。
而更强的模型,更稳的算力,更丰富的工具调用,ChatGPT 的定位也早已不只是聊天机器人,而是生产力搭子,旨在吃下职场这个最具生产力的应用场景。
o3-pro 则是这条路上的一块新基石。
至于它能不能撑起 OpenAI 的这份野心,还有待时间验证。但至少现在,它已经让人们重新想象了一次。
模型会开源,但不会在 6 月
就在刚刚,Sam Altman 还在社交媒体上表示,OpenAI 预计将在今年夏季晚些时候,发布公开权重的开源模型,而非 6 月份。
此外,Altman 刚刚还发布了个人新博客《The Gentle Singularity(温和的奇点)》,探讨 AI 发展对人类社会的影响。
用他的话来说,这可能是他最后一次在完全没有 AI 帮助下写出的文章,“相对论的角度看,奇点是一点一点发生的,融合则是缓慢进行的。”
附上博客原文地址:
https://blog.samaltman.com/the-gentle-singularity
温和的奇点
我们已经越过了事件视界,腾飞已经开始。人类正接近构建数字超级智能,而至少到目前为止,这一切并没有看起来那么奇怪。
机器人还没在街头随处可见,大多数人也还没整天和 AI 交流。人类仍然会死于疾病,去太空依然困难重重,我们对宇宙的理解仍然非常有限。
尽管如此,我们最近已经构建出在许多方面比人类更聪明的系统,并且这些系统能显著放大人类的产出。最不可能的部分已经完成——那些促成 GPT-4 和 o3 等系统诞生的科学突破来之不易,但它们将带我们走得更远。
AI 将在多个方面为世界带来贡献,但 AI 加速科学进步与提升生产力所带来的生活质量提升将是巨大的;未来有望远比现在更加美好。科学进步是整体进步的最大驱动力;一想到我们有可能获得多少更多的成果,就令人振奋。
从某种意义上说,ChatGPT 已经比历史上任何一个人都更强大。每天有数亿人依赖它,且任务越来越重要;一项小的新增能力可能带来极大的正面影响,而一个微小的不匹配在被数亿人使用时,也可能造成很大的负面影响。
2025 年,我们迎来了能够真正进行认知工作的智能代理;编写计算机代码的方式将彻底改变。2026 年,我们很可能会看到能产生原创见解的系统。2027 年,或许会出现能在现实世界中执行任务的机器人。
将有更多人能够创作软件和艺术。但世界对这两者的需求也将大幅上升。专家们如果拥抱这些新工具,可能仍然比新手强得多。总体来看,2030 年一个人完成的事情将远超 2020 年,这种变化将令人瞩目,也会有许多人学会如何从中受益。
在最重要的方面,2030 年代也许不会有太剧烈的变化。人们依然会爱家人,释放创造力,玩游戏,在湖里游泳。
但在仍然非常重要的其他方面,2030年代很可能与以往任何时代都大不相同。我们不知道人类智能的上限有多高,但我们即将找出答案。
到了 2030 年代,智慧和能源——即想法及实现想法的能力——将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足(加上良好的治理),理论上我们可以实现一切。
现在我们已经与惊人的数字智能共处,并且在最初的震惊之后,大多数人已渐渐习惯。我们很快会从惊叹 AI 能写出优美段落,变成期待它写出完整小说;从惊讶它能诊断疾病,变成期望它能研发治愈方法;从惊讶它能写出小程序,变成希望它能创建整家公司。这就是“奇点”的方式:奇迹变成日常,然后变成起点。
已经有科学家告诉我们,他们的工作效率是过去的两到三倍。高级AI之所以意义重大,其中一个最关键的原因是我们可以用它来加速 AI 研究本身。我们也许能发现新的计算材料、更好的算法,甚至更多未知的可能。如果我们能用一年、甚至一个月完成十年的研究,进步的速度显然会大不一样。
从现在开始,我们已有的工具将帮助我们发现更多科学洞见,并辅助我们创造更先进的 AI 系统。当然,这还不是AI完全自主地更新自身代码,但这确实是“递归自我改进”的初始形态。
还有其他一些自我强化的循环正在发生。AI 带来的经济价值推动了基础设施建设的飞轮,越来越多的资源正用于运行这些强大的 AI 系统。而能够制造其他机器人的机器人(在某种意义上,还有能建造其他数据中心的数据中心)离我们也不远了。
如果我们必须用传统方式制造出最初的一百万个人形机器人,但它们随后能接手整个供应链——开采和提炼矿物、驾驶卡车、运行工厂等——并制造更多机器人、芯片厂和数据中心,那进步的速度就会截然不同。
随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心 ChatGPT 每次查询用多少能量;平均每次查询大约耗电 0.34 瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水 0.000085 加仑,约等于十五分之一茶匙。)
科技进步的速度将持续加快,而人类也有很强的适应能力。虽然会有艰难的挑战,比如整类工作消失,但另一方面,世界的财富增长如此之快,以至于我们将有机会认真考虑以前无法实现的新政策。我们可能不会一次性建立一套新的社会契约,但回顾几十年后,会发现逐步变化的累积带来了巨大转变。
如果历史可以作为参考,我们总能找到新事物去做、新欲望去追求,并迅速适应新工具(工业革命后的职业变迁就是个很好的例子)。人们的期望会提升,但能力也会随之快速提升,我们会拥有更好的生活。我们会为彼此创造越来越美妙的事物。相比 AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。
如果一千年前的自给农民看到我们现在的生活,会觉得我们从事的是“假工作”,仿佛只是在自娱自乐,因为我们食物充足、奢华难以想象。我希望我们未来一千年后也能用同样的眼光看待那些工作——觉得它们“非常假”,但毫无疑问,那些人会认为自己的工作极其重要且充实。
未来将涌现出大量的新奇迹。到 2035 年,我们会取得什么突破现在都难以想象;可能今年我们还在解决高能物理问题,明年就开始太空殖民;或今年在材料科学上取得重大突破,明年就实现真正高带宽的脑机接口。很多人会选择继续以当下的方式生活,但也肯定会有人选择“接入系统”。
展望未来,这些事现在听起来难以想象。但真正经历它时,可能会让人惊叹,却仍在可控范围内。从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想 2020 年,如果那时我们说 2025 年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)
当然,我们还面临许多严峻挑战。我们需要在技术上和社会层面解决安全问题,但在那之后,最重要的是确保超级智能能被广泛获取,因为这关系到经济结构。未来的最好路径可能包括以下几个步骤:
首先解决“对齐问题”,也就是我们能有把握地确保 AI 系统长期学会并实现我们集体真正的意愿(比如社交媒体就是对齐失败的例子:推荐算法非常擅长让你不停刷,但它们是通过利用大脑短期偏好来压制你长期目标的)。
接着,重点让超级智能变得便宜、普及,并避免被某个个人、公司或国家高度集中掌控。社会具有韧性、创造力,也能迅速适应。
如果我们能激发集体的意志和智慧,尽管会犯错、也会有失控,但我们会迅速学习与调整,从而最大化收益、最小化风险。在社会广泛设定的框架下,给予用户更多自由将非常关键。世界越早开始关于这些框架及“集体对齐”如何定义的讨论,就越好。
我们(整个行业,不只是 OpenAI)正在为世界构建一个“大脑”。
这个大脑将高度个性化、人人易用;它的极限将取决于我们的好点子。长期以来,技术圈总爱嘲笑那些“只有想法的人”——他们有个点子,却没法实现。而现在,看起来他们的时代终于要到了。
OpenAI 如今做的事情很多,但最根本的身份仍是一个超级智能研究公司。我们还有大量工作要做,但前路已经被照亮,黑暗正迅速退去。我们对能做这些事情感到无比感激。
“智能几乎免费”已近在眼前。也许听起来疯狂,但如果我们在 2020 年告诉你我们将在 2025 年到达现在这个水平,听起来比我们现在对 2030 年的预测更疯狂。
愿我们顺利、指数级、平稳地迈入超级智能时代。
本文来自微信公众号:APPSO