您现在的位置是:孜孜不怠网 > 焦点

OpenAI终于来了,但是挺让人失望的

孜孜不怠网2026-01-04 18:15:59【焦点】6人已围观

简介OpenAI 在年底的12天里,Devday的连续更新终于结束了。每天蹲着看新闻发布会就像打开巧克力盲盒。我不知道下一个是什么味道。在前11天的新闻发布会上,大部分都很淡,只有三款产品还有一些精彩的“

OpenAI 在年底的终于12天里,Devday的但挺连续更新终于结束了。每天蹲着看新闻发布会就像打开巧克力盲盒。让人我不知道下一个是失望什么味道。

在前11天的终于新闻发布会上,大部分都很淡,但挺只有三款产品还有一些精彩的让人“味道”。

综上所述,失望可以称之为重磅更新包括:o1正式版、终于Sora、但挺Canvas,让人它们主要集中在前4天发布。失望

其中,终于O1的但挺官方版本确实有了很大的改进。Sora为AI生成视频增加了许多产品模式。让人Canvas可以被视为OpenAI挑战AI工作台的第一次产品尝试。

其次,与苹果的深度合作、视频通话功能、o1-mini的强化微调相对有趣。

o1-mini的强化微调在专业领域潜力巨大,微调简单明显。视频通话功能是惊人的“HER“正式上线。与苹果的深度合作对OpenAI来说也是一件大事,在AI行业站稳了一哥的地位。

还有一些小产品更新让人觉得——“这也值得开新闻发布会吗?”

这些产品包括“这些产品包括”Projects项目功能,o1 图像输入和4o高级语音API正式开放ChatGPT Search 升级和打电话给GPT 功能。它们相对较小,更新与竞争对手没有什么不同。

最后一天,OpenAI终于抛出了一个王炸:GPT-o3。一举打破人工智能发展陷入瓶颈的怀疑,各种性能直奔AGI。

我们根据发布产品的重要性制作了一个表格,梳理了12天的过山车发布日。

下面,让我们详细谈谈这些更新的核心点。

重要产品更新

o1完整版(Day1)

从能力上看,o1确实比Preview版有了很大的进步。它在国际数学奥林匹克预选赛中取得了很大的进步(AIME 2024)、编程能力测试(CodeForces)方面都比o1- preview增加了50%。处理复杂问题时的重大错误率降低了34%。

还可以根据题目难度调整处理时间,使用户等待时间下降50%以上。

更重要的是,o1还可以支持多模态识别。这使得它的实用性飙升。医生可以用它来分析医学图像,工程师可以帮助它看图纸,设计师可以让它提供创造性的建议。

但是它的价格也挺贵的,只有200美元的ChatGPT Pro版订阅用户可以享受无限使用,其他普通20美元订阅用户每天只能享受20次使用权。

o1作为第一天出现的产品,确实能让人眼前一亮。

Sora(Day3)

等了10个月,Sora终于迟到了。

但这不是模型版本的升级,更像是产品抛光。Sora的官方版本可以生成最长20秒和1080p的视频。生成效果与2月份刚刚发布的视频没有太大区别。

然而,OpenAI确实在产品上下了一点心思。故事板不仅是本次发布中最具创新性的功能,也是Sora最雄心勃勃的尝试。它为用户提供了类似于专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡。用户可以串联多个提示,系统会自动处理场景之间的过渡效果。

此外,OpenAI还提供Remix、Blend和Loop三种专业工具。更换视频中的元素,或混合两个视频,自动完成无限循环视频。

产品挺好的,但是没升级过的模型不是很厉害。在发布后的评估中,Sora经常翻车,运动、互动和物理经常处理得一塌糊涂。会有凭空出现的人和鬼影。

OpenAI 给出的可用性也很小气,20美元的Plus用户一个月可以使用50次。只有每月支付200美元的Pro用户才能享受无限的“慢速”生成权限。

Sora终于来了,但是挺让人失望的。

Canvas(Day4)

一言以蔽之,Canvas就是OpenAI 人工智能版Google Docs。

因为Canvas已经演变成一个完整的工作台,集智能写作、代码合作和人工智能为一体。它显示了OpenAI超越Chatbot的产品野心。

作为写作助手,可以提供编辑意见。

Canvas通过内置Webassembly编程功能 Python模拟器创建了一个几乎没有延迟的编程环境。它还显示了理解代码意图的能力。

就像最近更新的Cursor和Devin一样,它推出了定制人工智能智能身体的能力。它可以完成一系列的操作,并帮助你给你的朋友发送圣诞信。

Canvas的三个维度并不孤立。在实际使用中,它们经常相互合作。这种无缝集成使Canvas成为多功能人工智能驱动的创作工作室原型。

但是从前端显示的角度来看,它不如Claude好 的 Artifacts。Cursor也不如编程方便。所以融合是它的亮点。

一般产品更新

o1-mini强化微调(Day2)

如果这个产品不实用,可以算是重磅发布。

它改变了过去的微调只是通过增加专业数据的逻辑,而是通过加强具有推理能力的模型的学习方向。指导模型在面对复杂问题时有更深入的思考能力。

现在,模型只需要“几十个例子”甚至12个例子就可以有效地学习特定领域的推理。根据OpenAI的研究数据,经过强化微调的o1mini模型的测试通过率比传统o1模型高24%,比未经强化微调的o1mini高82%。

不幸的是,只能微调o1-mini,也是医疗、法律、金融、保险等复杂领域的任务。普遍性差。

高级视频语音模式(Day6)

这是另一个老蛋糕。5月13日,在GPT-4o的演示中,OpenAI的工作人员可以与4o视频通话,看到我们的实时手机屏幕内容,或者根据相机中的实时图片与我们聊天或回答问题。

这一次是真的,没有升级。但是这个功能本身还是很重要的。

然而,由于这个蛋糕已经烤了很长时间了,两天前微软推出的Vision和谷歌仍在烤的Astra也跟上了。OpenAI的领先地位正在被一点点侵蚀。

与苹果(Day5)的合作、Day11)

ChatGPT和Apple Intelligence更像是官方宣布的深度结果。苹果做不到的只能让贤OpenAI。

整合主要包括三个方面:一是与Siri的协调。当Siri判断任务可能需要ChatGPT的帮助时,它可以将任务移交给ChatGPT;

二是增强写作工具,用户现在可以用ChatGPT从头开始写文档,还可以对文档进行细化和总结;

三是iPhone 16相机控制功能,可以让用户通过视觉智能对拍摄对象有更深入的了解。

Mac集成在接下来的第11天,给GPT更多的Mac工具调用权。

唯一我不明白的是,为什么这两个人不能在同一天宣布,而且还不分两天?

能力补齐和小功能更新(Day 7,8,9,10)

剩下的更新最多只能算是凑数。一句简单的话就能说清楚。

“Projects“项目功能:允许用户创建特定的项目,上传相关文件,设置自定义指令,并将与项目相关的所有对话集中在一个地方。基本上和克里斯没有什么不同。

ChatGPT搜索升级:可以在对话中搜索,支持多模态输出。Perplexity的Pro模式早已得到支持。

4o热点:美国用户可以用4o打电话!尊老爱老,我觉得也算是给他们过重阳了。

o1 图像输入和4o高级语音API正式开放:我建议这个放在O1发布当天的最后一句话中。

这几天真的进入了拖延时间的循环。

最终王炸

GPT-o3(Day 12)

如果不是GPT-o3的最后一天,我真的觉得OpenAI只是为了搅浑水才开了12天的新闻发布会。

在此期间,Google发布了Gemini 2 Flash,超快超强;Astra,看起来真的像Agent;Voe2,碾压Sora ;Gemini 2 Flash Thinking,o1人也有。发了三个公告和几个视频,掀开了OpenAI前11天发布的所有视频。

但在Day 12.OpenAI还是找到了雄风。用o3向业界证明:Scaling Law未死,OpenAI为王。

o3 是 o1的下一个版本。9月o1发布仅3个月后,这个新版本在编码、数学和 ARC-AGI 多个基准,如基准测试,将大大超过基准测试 OpenAI 此前的 o1 模型。

看几个数据对比:

Codeforces 评分:2727——相当于全球人类程序员编码竞赛,排名第一 175 位置。99%以上的人类程序员。

科学问题的博士水平(GPQA):87.7%——博士生一般得分70%

最难的前沿数学测试:25.2%——其他模型不超过2%,数学天才陶哲轩表示,这次测试“可能会让人工智能困难好几年”

ARCC标题证明AGI是否达到AGI标题-AGI:87.5%——o1的得分25%

最值得注意的是ARC的最后一次测试-AGI,它显示了模型新任务的适应性。相比之下,ARC-AGI-从2020年GPT-3的0%增加到2024年GPT-4o的5%。这意味着模型不是死记硬背,而是真正解决问题的能力。

虽然ARC-AGI测试表现良好,但这并不意味着o3已经达到了AGI水平,因为它仍然会在一些非常简单的任务中失败,这与人类智能有根本的不同。

但无论如何,这证明了OpenAI选择强化推理的范式已经成功转变。人工智能的发展没有放缓的迹象。Scaling Law仍然有效。

OpenAI年底的圣诞礼物扫除了对人工智能停滞不前的担忧。

虽然o3的低计算成本高达20美元,但高计算成本甚至可能高达3000美元,但现阶段几乎不可能使用。但是计算能力会降低,Scaling Law将继续。

三个月来,在这12天的最后一天,OpenAI让我们感受到了从ChatGPT到GPT4的速度,从2022年底到2023年初。

也许就像之前参与开发o1一样 OpenAI科学家Noam “2024年,OpenAI正在进行实验,2025年是全速前进的一年,”Brown在采访中说。

OpenAI 为期12天的新闻发布会,过程波折,完美收工。为2025年的AI埋下希望。

本文来源:腾讯科技

很赞哦!(4411)