走光偷拍 OpenAI o1非GPT-4o平直进化，在老本与性能上协调

9月14日音讯，OpenAI依然推出了新模子OpenAI o1的两大变体——o1-preview与o1-mini走光偷拍，这两款模子齐有好多值得潜入辩论的内容。东说念主工智能众人西蒙·威利森（Simon Willison）挑升发文，潜入理解了这些新模子背后的想象理念与罢了细节，揭示了它们在本事上的私有上风与不及。威利森示意，o1并不是简单的GPT-4o平直升级版，而是在强化“推理”才智的同期，作念出了老本与性能上的量度。

1. 覆按念念维链

OpenAI的声明是一个很好的开始：“咱们研发了一系列新式东说念主工智能模子，旨在让它们在作念出反应前花更多期间念念考。”

这些新模子不错视为念念维链提醒策略的深化拓展——“分步念念维”策略的具体履行。实质上，东说念主工智能社区在这个规模已探索了数年，这一策略初次在2022年5月发布的论文《假话语模子是零样本推理器》（Large Language Models are Zero-Shot Reasoners）中建议。

OpenAI发布的《与假话语模子共学推理》（Learning to Reason with LLMs）一文详备讲述了新模子的覆按步伐，揭示了其才智陶冶背后的好意思妙。文中指出：

“咱们的大范围强化学习算法经心想象了覆按经由，使模子在高效利用数据的同期，不祥练习讹诈念念维链进行深度念念考。咱们发现，跟着强化学习覆按期间的增多以及模子在测试时刻派更多念念考期间，o1的性能不竭显赫陶冶。值得防范的是，这种延迟步伐的截止与假话语模子预覆按中的挑战有很大不同，咱们正络续潜入探索这些新界限。”

通过强化学习的覆按，o1不仅学会了优化其念念维链的使用，还掌合手了自我陶冶的要津手段。o1不祥识别并改良诞妄，将复杂坚苦拆解为一系列更易处理的子任务。当现存步伐失效时，它会尝试不同的步伐直至找到最好解法。这一过程极大陶冶了模子的推理才智。

实质上，这记号着模子在处理复杂提醒方面罢了了质的飞跃。靠近那些需要回溯与潜入“念念考”的任务时，模子不祥展现出愈加出色的阐扬，而不再只是依赖于下一个Token预测。

威利森指出，天然他对“推理”一词在假话语模子中的界说有保留，但鉴于OpenAI已明确接受此术语，并奏凯抒发了新模子致力于责罚的中枢问题，他以为这种抒发在此情境下是妥当且灵验的。

2. 来自API文档的底层细节

对于新模子过甚想象量度，OpenAI在API文档中提供了好多真谛的细节：

对于依赖图像输入、函数调用或追求即时反应速率的应用场景，GPT-4o过甚精简版GPT-4o mini仍是瞎想选拔。然则，如若你的面貌需要深度推理才智，且不祥适合较长的反应期间，那么o1模子无疑是更优的选拔。

威利森从OpenAI的文档中摘录了几个要津点：走光偷拍

API拜谒权限：当今，o1-preview与o1-mini的拜谒仅限于五级账户用户，且API积分累计需达到至少1，000好意思元方可解锁。

系统提醒截止：模子集成了现存的聊天完成API，但仅支援用户与助手之间的消断交互，不支援系统提醒功能。

其他功能截止：刻下模子不提供流处理支援、器用集成、批处理调用或图像输入。

反应期间：鉴于模子责罚问题所需推理量的不同，处理恳求的期间可能介于几秒至几分钟不等。

尤为引东说念主注缱绻是“推理Token”的引入。这些Token在API反应中不行见，却饰演着至关迫切的脚色，是运转新模子才智的中枢，且动作输出Token计费并计数。鉴于推理Token的迫切性，OpenAI建议为充分利用新模子的提醒预留约25，000个推理Token的预算。

为此，输出Token的配额显赫陶冶：o1-preview的配额增至32，768个，而o1-mini则高达65，536个。比拟于GPT-4o过甚mini版（两者的配额均为16，384个），这一增多为用户提供了更多资源。

API文档还提供了一个新颖且要津的提醒，旨在优化检索增强生成（RAG）：在整合附加凹凸文或文档时，应严格筛选，保留最关连的信息，以幸免模子生成过于复杂的反应。这与RAG的传统作念法天渊之别，后者倾向于将多量潜在关连文档纳入提醒。

3. 荫藏的推理Token

令东说念主缺憾的是，推理Token在API调用中处于荫藏气象。用户需要为这些Token支付用度，却无法得知其具体内容。OpenAI对此计谋的讲解如下：

“荫藏念念维链的初志在于确保模子‘念念维’过程的寂然性和抒发解放，幸免外界扰乱或操控其推理逻辑。展示模子的竣工念念维链可能露出不一致性，并影响用户体验。”

这项决议基于多重考量：一方面是为了确保安全与策略果然信性，另一方面则是为了保持本事上的竞争上风，幸免竞争敌手利用推理效劳进行覆按。

动作对假话语模子发展持保寄望见的一方，威利森对此决定并不称心。他以为，在追求本事翻新的同期，保持可讲解性与透明度至关迫切。要津细节的荫藏，意味着对透明度的一种减轻，嗅觉像是一个倒退的举措。

4.示例解读

OpenAI在“念念维链”部分提供了好多示例，包括Bash剧本生成、填字游戏解答和化学溶液pH值想到等，初步展示了这些模子在ChatGPT用户界面下的念念维链才智。但它并未展示原始的推理Token，而是通过一种优化机制，将复杂的推理样子简化为易于衔接的摘录。

OpenAI还额外提供了两份文档，展示了更为复杂的例子。在“使用推理进行数据考据”一例中，o1-preview演示了如安在11列CSV数据中生成示例，并通过多种策略考据数据的正确性；而“使用推理生通例程”则展示了如何将学问库著述调整为假话语模子不祥领会并推论的程序化操作经由。

威利森也在酬酢媒体上搜集了好多GPT-4o未能奏凯应付却在o1-preview上阐扬出色的提醒案例。其中两个尤为引东说念主瞩目：

字数计数挑战：“你对这个提醒的恢复有若干字？” o1-preview模子在给出“这个句子里有七个单词”之前，耗时约十秒并阅历了五次推理过程。

色姐姐

幽默领会：“讲解一下这个见笑：‘两端牛站在地里，一头牛问另一头：‘你若何看疯牛病?’ 另一头说：‘无所谓，我是直升机。’” o1-preview给出了既合理又详备的讲解，而其他模子对此无解。

尽管如斯，优质的示例仍然较少。OpenAI征询员Jason Wei指出，尽管o1在AIME和GPQA测试中的阐扬卓绝巨大，但这种效果并不老是直不雅可感。找到让GPT-4o失手而o1阐扬出色的提醒并结巴易，但当你找到时，o1的阐扬号称神奇。全球齐需要寻找更具挑战性的提醒。

另一方面，沃顿商学院管束学素养、东说念主工智能众人伊森·莫里克（Ethan Mollick）通过几周的预览体验，对o1给出了初步评价。他卓绝提到了一个填字游戏示例，其中o1-preview模子展现了了了的推理样子，如指出1 Across与1 Down的首字母不匹配，并主动建议替换谜底以确保一致性。

5.推理模子的改日

东说念主工智能规模这一新进展带来了诸多待解之谜与潜在机遇，社区正逐渐探索这些模子的最好应用场景。在此期间，威利森瞻望GPT-4o（及Claude 3.5 Sonnet等模子）将络续阐扬迫切作用。同期，咱们也将见证这些推理模子如何延迟咱们的念念维模式，责罚更多前所未有的任务。

此外，威利森期待其他AI实验室，卓绝是洞开模子权重社区，不祥积极跟进，利用各自利有的模子版块复现并深化这些念念维链推理的效劳。（小小）

走光 偷拍 OpenAI o1非GPT-4o平直进化，在老本与性能上协调

走光偷拍 OpenAI o1非GPT-4o平直进化，在老本与性能上协调