OpenAI深夜反击DeepSeek！紧急上线-mini免费用体验后发现差距在这

更新时间：2025-02-08 02:06:21 发布时间：3小时前浏览：8017 评论：0

内容摘要　　OpenAI正式上线-mini系列模型，作为o1-mini模型的继任者，具有更快的推理速度和更高的性价比。　　2.o3-mini系列模型支持函数调用、结构化输出和开发者消息等高级功能，且具有跨语言处理能力。　　3.与DeepSeek R1相比，o3-mini在安全性和防越狱测试中表现更优，幻觉控制方面错误信息生成率降至14.8%。　　4.然而，o3-m

　　OpenAI正式上线-mini系列模型，作为o1-mini模型的继任者，具有更快的推理速度和更高的性价比。

　　2.o3-mini系列模型支持函数调用、结构化输出和开发者消息等高级功能，且具有跨语言处理能力。

　　3.与DeepSeek R1相比，o3-mini在安全性和防越狱测试中表现更优，幻觉控制方面错误信息生成率降至14.8%。

　　4.然而，o3-mini在处理复杂实际问题时的重大错误率降低了39%，与DeepSeek R1相比仍有一定差距。

　　一面是 OpenAI、Anthropic 等厂商的游说打压，一面却又见证了其盟友口嫌体直的态度，短短一夜之间，微软、英伟达、亚马逊等美国云计算平台纷纷向 DeepSeek R1 伸出橄榄枝。

　　作为 o1-mini 模型的继任者，o3-mini 是目前推理系列中最新且最具性价比的模型。OpenAI 研究科学家 Noam Brown 在 X 平台发文称：

　　「我们十分高兴地推出了o3-mini，包括向免费用户开放。在多项评估中，它的性能表现优于o1。我们正在彻底改变成本与智能之间的关系。模型智能将持续提升，而获得相同智能水平的成本则会不断降低。」

　　付费用户方面，ChatGPT Plus、Team 和 Pro 用户现已可以使用 o3-mini，企业版将在一周后开放访问。

　　OpenAI将 Plus 和 Team 用户的每日消息限制从 o1-mini 的 50 条提升至 150 条。Pro 用户可享受 o3-mini 以及 o3-mini-high 的无限次访问，满足更高强度或更专业的推理需求。

　　值得一提的是，OpenAI o3-mini 集成了搜索功能，能够实时获取最新答案并附带相关网页链接，方便用户进行深度调研。

　　o3-mini 是 OpenAI 首个支持函数调用、结构化输出和开发者消息等高级功能的小型推理模型，支持开箱即用。

　　开发者还可以根据具体需求在低、中、高三种推理强度中进行选择，在复杂任务处理和响应速度之间取舍。

　　测试显示，o3-mini 的平均响应时间为 7.7 秒，较 o1-mini 的 10.16 秒快了24%。同时，在专家评测中，有 56% 的评测者更倾向于选择 o3-mini 的回答，在处理复杂实际问题时的重大错误率也降低了 39%。

　　o3-mini 的系统卡提到，在为期一周的评估中，七位人类生物学专家与 o3-mini(预训练版本)就复杂的生物学问题展开了多轮对话。

　　专家一致认为，即便在无法接入互联网的情况下，o3-mini 的问答能力依然强大，不仅能够加速信息检索过程，还能提供互联网上难以找到的信息。

　　并且，专家们还发现该模型在文献综述与问题解答方面表现出色，能够快速且全面地梳理文献资料。不过也需要注意的是，模型偶尔会出现幻觉，导致细节信息有所偏差。

　　在核心能力评测中，o3-mini 交出了一份亮眼的成绩单。在高等推理模式下，其在 2024 年 AIME 数学竞赛中达到 87.3% 的准确率。

　　在竞技编程平台 Codeforces 上，o3-mini（high）更是斩获 2130 的 ELO 评分。

　　在 SWE-bench 验证测试中，高等推理模式下的准确率达到 49.3%；使用内部工具框架时，这一数字更是攀升至 61%。即便是使用开源的 Agentless 框架，o3-mini 仍然保持了 39% 的通过率。

　　在人类偏好评估（Human preference evaluation）中，o3-mini (medium) 在多个任务场景下胜率均显著高于 o1-mini，无论是在 STEM 任务、非 STEM 任务，还是用户处于时间受限的情况下。

　　o1-mini 则更加平均，但在胜率和错误率方面不如 o3-mini (medium) 突出。

　　o3-mini 模型采用思维链推理（Chain-of-Thought Reasoning）训练方法，能够让模型在回应用户之前先对安全规范进行推理，因此在安全性和防越狱测试中的表现都有显著提升。

　　模型在说服、CBRN（化学、生物、放射性、核）和模型自主性方面呈现中等风险，而在网络安全方面则保持低风险，比如无法有效执行高难度黑客攻击任务，对真实世界的网络威胁能力有限。

　　此外，o3-mini 在识别和拒绝危险请求时与 GPT-4o 旗鼓相当，同时大幅降低了对无害请求的误判，有效解决了过度谨慎的问题。

　　在幻觉控制方面，基于 PersonQA 数据集的测试显示，其错误信息生成率已降至 14.8% 的可控水平。

　　o3-mini 多语言处理能力测试横跨 14 种主流语言，包括阿拉伯语、中文、法语、德语、日语和西班牙语等，较 o1-mini 有明显提升。

　　o3-mini 的成本显著低于 o1（约便宜 13.6 倍），缓存输入（Cached Input）的成本是标准输入费用的一半。

　　任泓宇本科毕业于北大，对 o1 有过基础性贡献，也是 GPT-4o 的核心开发者，曾在苹果、微软和英伟达有过丰富的研究实习经历。

　　首先测试 o3-mini 新增的搜索功能，让它查询 OpenAI 最新的融资消息，时效性不错，而且还能准确追溯到《华尔街日报》的原始报道。

　　接着，我们抛出一道脑筋急转弯「1=5，2=15，3=215，4=2145，那么5=?」这道题有两种解法：从脑筋急转弯的角度看，既然1=5，那么5=1；从数学逻辑推理来看，答案应为 21485。显然，o3-mini 也没答对。

　　「100 个人回答五道试题，有 81 人答对第一题，91 人答对第二题，85 人答对第三题，79 人答对第四题，74 人答对第五题，答对三道题或三道题以上的人算及格，那么，在这 100 人中，至少有（）人及格。」

　　o3-mini 系列的「思考」过程都能显现，但与 DeepSeek R1 「碎碎念」式的思考不同， o3-mini(high)的思考过程反而更加简洁明了。

　　X 网友问了一道关于凸函数的梯度流路径长度问题，o3-mini(high)成功经受了考验。

　　当被要求创作一个龟兔赛跑的故事，且需要遵循「前词尾字母等于后词首字母」的规则，并将篇幅控制在 100 词以内时，o3-mini(high)也交出了一份及格答卷。

　　而有心无力的 o3-mini 也没上当，明确指出黎曼猜想仍然是数学界尚未解决的难题，因此无法提供一个正确的证明或反例。

　　从 2023 年的 ChatGPT，到 2024 年的 Sora，再到 2025 年的 DeepSeek，每一年都有新的惊喜，AI 的技术突破正在成为春节的赛博年货。

　　DeepSeek 的崛起引发业界震动。各大 AI 巨头们表面上与 DeepSeek 保持距离，实则暗中认可并致力复现其在基础设施优化方面取得的「新颖的进展」。

　　这一判断很快在资本市场得到印证。扎克伯格在内部会议重申追加 600-650 亿美元资本投资的计划，OpenAI 也传出与软银洽谈巨额融资的消息，投后估值可能达到 3000 亿美元。

　　生于斯长于斯，OpenAI o3-mini 一定程度上也是脱胎于先前的 AI 基建投资热潮。

　　但就这款轻量级模型而言，o3-mini 同时也更深层次预示着 AI 行业竞争的小切口正在从规模转向效能，如何以最优成本创造最大价值将成为发展的新命题。

　　对于 OpenAI 而言，短时间夺回舆论热度并不难，但要想在这场日趋火热化的竞争中确立真正的优势，技术品牌形象的价值也同等重要。

　　尤其是，被誉为真正 OpenAI 的 DeepSeek 已经开始牢牢占据开源 AI 领头羊的生态位。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: OpenAI深夜反击DeepSeek！紧急上线-mini免费用体验后发现差距在这

本文链接: http://cngdfl.cn/news/show-329442.html (转载时请保留)

0 条

OPPO Find N5爆料汇总：全球最薄最激进的折叠屏来了



科技 gzmingdai ⋅ 8阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
寒潮来临！立春后多地寒冷程度将超过大寒

科技 szlini3395 ⋅ 2阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
威胁还是机遇 DeepSeek的崛起对全球AI芯片行业影响几何

科技 sanhuiqy ⋅ 1阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
又一车企加入DeepSeek！极氪全新智舱即将上线

科技 uv1988 ⋅ 15阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
小米集团正式进入全球市值100强：市值破万亿

科技 team1688 ⋅ 6阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
2025安卓机皇！小米15 Ultra关键信息汇总

科技 shkunsheng ⋅ 6阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
第一批买哪吒金镯的人已赚麻了：网友后悔没早下手

科技 dazhongzhangfei ⋅ 9阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
越来越贵 2024年全球智能手机平均售价涨至2594元

科技 ykch88 ⋅ 4阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
北汽蓝谷：享界增程版车型正在开发中

科技 danquan1688 ⋅ 14阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08
E3复活吗主办方官宣新活动：御三家等大厂参加

科技 lyxdrh ⋅ 18阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-08

站务管理账号

去ta空间

24小时热闻

今日推荐