低成本培养出的“数理天才” DeepSeek R1有多厉害? 有测试者让R1详细解释勾股定理,R1在不到30秒的时间内生成了完整的图形动画,给出了经典的证明过程,没有出现差错。另一个常用的测试问题是碰撞检测,测试者要求大模型编写一个程序,使得一颗小球在某个缓慢旋转的几何形状内弹跳,并保持小球停留在形状内。碰撞检测十分考验模型的推理能力,稍有不慎就会导致肉眼可见的物理错误。这项测试里,R1的表现明显优于OpenAI o1 pro模式。 OpenAI于2024年9月发布了推理模型o1,首次实现真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士级别”的科学问答环节上超越人类专家。新加坡南洋理工大学计算机学院助理教授刘子纬向《中国新闻周刊》解释,传统的ChatGPT模型属于感知模型,擅长提取事件信息。但真实世界的很多任务不能仅靠感知完成,而是需要一定的决策推理,而且越复杂的任务决策成分越多,比如编程、数据分析等。因此,推理模型是业界公认的通往通用人工智能(AGI)不可或缺的模型形态。
同为推理模型,在很多方面,R1都与o1的性能持平。在美国数学邀请赛AIME2024的测试中,R1取得了79.8%的成绩,甚至略高于o1,甩开其他开源模型一大截。编码类任务方面,R1也展现出专家级水平,在算法竞赛平台Codeforces上的表现超过了96.3%的人类参赛者。 在DeepSeek公开的22页技术报告中,有一个展示R1能力的直观案例。在解决一道复杂数学表达式问题时,R1在解题步骤中突然停下来说“等等,这是个值得标记的啊哈时刻”,随后自主修正了解题过程。“啊哈”类似于人类的顿悟,R1的这种行为完全是自发产生的,而非预先设定。这也意味着,它已经拥有了相当程度的思考和自悟能力。 看上去R1已经走出了“题海战术”,转而进入了探究性学习的领域。事实上,这正是它的核心技术强化学习与传统监督学习的差别。刘知远指出,传统大模型特别是o1以前的GPT系列模型,都采用监督学习的训练方法,意味着模型学习的目标有标准答案。比如让模型根据一篇文章的部分文字,去预测下一个词。由于用于训练的文章是完整的,因此这个词是固定的,预测结果也有明确的对错。人类就像严厉的老师,对模型的预测行为反复规训。
而强化学习则是在开放环境中进行的任务训练,开发者只会告诉模型,它走出的每一步会得到外部环境怎样的反馈。模型需要根据反馈,自己学会如何去接近最终目标。“这个世界没有那么多纯数学题,因此无法永远通过给标准答案的方式,让模型完成监督学习。”刘知远说。从监督学习向强化学习的范式转变,是实现推理模型的关键。 刘子纬指出,o1可视作大模型强化学习的鼻祖,但其没有公开技术文件,因此其强化学习的具体技术路线和占比,只能靠业内猜测,但可以确定其采用了预训练、监督微调、强化学习的流程。预训练类似“背书自学”基础知识,监督微调类似学生模仿教师的示范来解例题,最后强化学习相当于“模拟考试”。而R1则抛弃了监督学习,也就是跳过了例题阶段,仅凭基础语言能力和数学规则,在持续解题试错中自悟方法论,考出高分,这一点得到了绝大多数从业者的赞叹。
而除了性能外,R1更令人震撼的优点在于便宜。2024年底,DeepSeek推出V3模型,作为R1的前体,训练成本仅为557.6万美元,而2020年发布的GPT-3的训练成本接近1200万美元,GPT-4更是超1亿美元。技术报告显示,R1面向开发者的服务定价为每百万输入字符串(token)1—4元,这一价格只有o1的1/30左右。 R1怎么能如此便宜?刘子纬认为,算力达到一定量级的情况下,可以通过工程创新把性能差距抹平。在堆算力的“大力出奇迹”路线进入瓶颈后,DeepSeek选择了在底层算法、训练模式和数据三个层面进行了工程迭代。基于混合专家模型、注意力机制等方面的创新,R1做到了“用50次运算达成别人做100次运算的效果”,效能提升明显。而在抛弃监督学习后,计算资源的需求也大幅减少。 由于超高性价比,1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位。同时,DeepSeek在美区苹果App Store免费榜从昨日的第六位飙升至第一位。有业内人士称,R1已经成为美国顶尖高校研究人员的首选模型。一位不愿具名的来自澳门大学的AI研究者向《中国新闻周刊》表示,R1完全可以取代日常科研对GPT模型的使用需求,在对科研文章的错误识别、修改润色、语言转换上都表现出色。
商业化落地仍待探索 尽管R1展现出了惊人的推理能力,但它的思维过程可能难以被人理解。技术报告指出,纯强化学习训练出来的模型存在可读性差和语言混杂问题,有用户反映多语言输入可能会造成模型输出混乱,有时中文的提问也可能得到英文的回答。这一现象更多出现在纯强化学习的R1-Zero模型中。 刘子纬也将R1形容为“有些偏科的数理天才”。R1在他眼中虽然很聪明,但给出的文字回复相比于o1缺乏流畅性和情绪价值,显得笨拙。“公司定位会导致其偏重模型性能。”刘子纬说。由于DeepSeek还在提升模型能力,尚未开始优化用户体验,因此用户亲和度方面还有待提升。在这一点上,OpenAI涉足较早。
但当创作任务涉及推演和类比时,R1的表现仍可圈可点。有测试者用简单的几个提示词,就让R1在极短时间内创作了一篇情节精彩的科幻小说。社交平台上,有电影评论账号喂给R1《出师表》,让其仿照该文体创作一篇影评,R1给出了符合文言文规范,且“超越一般影评人”的洞见。刘子纬认为,模型的推理能力可以迁移到文学,令其产生通过逻辑思辨的方式创作议论文的能力。 用户使用R1的过程中,偶尔会得到错误答案,甚至有用户发现询问R1身份时,其可能自称o1。这种混乱广泛出现在现有大模型中,有业内人士认为,这源于大多数模型对OpenAI基础模型的蒸馏。蒸馏即将训练过的“教师模型”的知识传递给“学生模型”,从而在最大程度保存原模型性能的同时,大幅缩减计算资源消耗。“有模型做到了60分,我想迅速达到55分的水平,比较快的方式就是去蒸馏一个‘教师模型’,可以迅速拿到模型反馈,暴露思维过程,得到可贵的数据基础。研发初期,许多企业都依靠或者部分依靠模型蒸馏。”刘子纬坦言。
由于原模型只能提供60分的答案,要涨到70分就得靠模型努力找一条新路。因此蒸馏无法形成模型的真正迭代。刘知远认为,强化学习是通向AGI的重要版图之一,符合人类认知世界的方式,已成为大模型未来发展的业内共识,强化学习的技术成熟也需要时间。 刘子纬指出,R1使用了一些GPT-4o产生的数据去做“热启动”,让模型先形成对现有问题的基本认知,这也被称为数据蒸馏。相比之下,完全通过“冷启动”让模型立刻进入强化学习状态是非常困难的。“一个小学生学习知识也得先学课本,达到一定智力水平后,再进入实践中学习。”用真实数据而非模型数据训练模型是开发者的共识,但真实数据的筛选、清洗、降噪等工作并不容易。 “即使用模型输出数据也很难保证训练结果,这取决于人类给模型创造了怎样的问题,以及提供怎样的答案。”刘子纬说。例如DeepSeek使用了大量代码数据、数学题甚至奥数题用于训练R1。“如何将这些数据喂给模型,需要大量创新。”
从这个意义上说,R1的表现已足够出色,而它的创造者的主业甚至不是AI。DeepSeek背后的投资公司为幻方量化,是一家依靠数学与计算机科学进行量化投资的基金公司。该公司从2016年起将深度学习模型应用于实盘交易,囤积了大量算力,正式成立大模型团队DeepSeek的时间则是2023年。“也算是副业做得比主业出圈的典型了。”刘子纬说。 大模型企业仍需审慎研判模型的商业价值,也就是能不能赚钱。刘知远指出,国内外企业都还在寻找大模型的最佳变现方式。目前,市场上已有多家企业具备做出GPT水平大模型的能力,接下来要考虑区分度是什么,落地的用户App是什么,以及在价格战的前提下如何收回上亿元的研发成本。这些问题的答案都还相对模糊。
刘子纬认为,大模型已足够强,但在垂类上跟用户需求还没有紧密贴合,未来AGI的核心交互形态也尚无定论。目前,国内外大模型企业一部分继续高举高打AGI,保证模型能力,通过用户来试探落地方式。比如有学生用大模型来备考、写论文等。另一部分企业则专注于做垂类应用,比如医疗领域。刘子纬预计,2025年会涌现一大批大模型应用,是真正的“强化学习之年”。 多位业内人士表示,DeepSeek真正的价值,在于展示了工程实践和理论创新之间的平衡点,开创了一条符合现实算力约束的技术迭代道路。“R1说明开源 AI 仅落后于闭源 AI 不到 6 个月。”在刘知远看来,GPT阶段也就是2023年初的时候, OpenAI模型发布之后,国内团队需要一年的时间才能赶上。但是到了文生视频模型Sora,以及后来的GPT-4o和o1,国内的追赶时间缩短到半年以内。 “DeepSeek的阶段性成果释放了一个信号,那就是通过芯片禁运等方式来遏制国内AI发展难以行通。这就是开源的力量。”刘知远说。 记者:周游(nolan.y.zhou@gmail.com)
DeepSeek服务再次“宕机”网页不可用
2025年01月27日 20:26 界面新闻
1月27日晚,DeepSeek服务状态页面显示,DeepSeek网页不可用,公司正在调查这一问题。多位网友表示,DeepSeek崩了。实测发现,目前DeepSeek无法回答对话问题。https://k.sinaimg.cn/n/news/crawl/763/w550h213/20250127/9a33-c921ed9be84f07518cdd3a204755d479.png/w700d1q75cms.jpg?by=cms_fixed_width
凌晨突发!DeepSeek发布!
2025年01月28日 06:15 新浪新闻综合
来源:中国基金报 [导读]美股暴跌之际,DeepSeek发布了新的人工智能模型 中国基金报记者 泰勒 1月28日凌晨,国内火爆的AI大模型公司DeepSeek称遭受大规模恶意攻击! DeepSeek称遭受大规模恶意攻击 DeepSeek官网的服务状态页面显示:“近期DeepSeek线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。”
https://k.sinaimg.cn/n/news/crawl/12/w550h262/20250128/e599-4b171f20a4e56d77a54ae9ad90e1939c.png/w700d1q75cms.jpg?by=cms_fixed_width
1月20日,DeepSeek推出了AI模型R1,这是一款为解决复杂问题而设计的专用模型。在海外出圈之后,DeepSeek的服务需求激增。DeepSeek表示,最新的AI模型可以与OpenAI的ChatGPT媲美,且开发成本远低于竞争产品。
这次更新引发了美国和欧洲科技股市值蒸发超过1万亿美元的暴跌,投资者质疑美国一些大公司虚高的估值。 全球科技股纷纷下跌,英伟达暴跌15%!纳斯达克指数暴跌超3%,该指数以科技股为主。除英伟达外,其他芯片股也在暴跌,博通公司暴跌近17%,台积电暴跌14%,阿斯麦暴跌超6%。 分析称,DeepSeek推出的低成本人工智能模型可能会使推动牛市的科技估值难以为继。https://k.sinaimg.cn/n/news/crawl/173/w550h423/20250128/ee56-5e962a38e5ad03f8fa7dbe37b3e5bf60.png/w700d1q75cms.jpg?by=cms_fixed_width
https://k.sinaimg.cn/n/news/crawl/344/w550h594/20250128/c1e6-4ec95b3f1e1bd6a8c483aec804668c9f.png/w700d1q75cms.jpg?by=cms_fixed_width
Murphy & Sylvest财富管理公司的保罗·诺尔特(Paul Nolte)表示,“我们不知道这是不是股票市场的‘斯普特尼克时刻’,但这肯定是一个警钟,提醒我们并不是市场上唯一的玩家,将极高的估值赋予这些股票,认为它们垄断了市场,这是一个巨大的错误,现在正在被重新评估。” 对于Miller Tabak的马特·马利(Matt Maley)来说,DeepSeek最新的人工智能模型更具成本效益,并且运行在技术要求较低的芯片上,这引发了对人工智能热潮能带来多大收益的严重质疑。
DeepSeek火上浇油,发布了新款人工智能模型 当地时间1月27日, DeepSeek团队正式发布两款多模态框架——Janus-Pro 和 JanusFlow。其中,Janus-Pro是一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大提升了模型在不同任务中的适配性与性能。 JanusFlow是一款通过生成流(Rectified Flow)与自回归语言模型融合实现统一的框架。它不仅在理解任务中表现优异,还能生成高质量图像,展现了框架设计的极简与强大。
北京时间1月28日凌晨,就在美国科技股暴跌之际,人工智能社区Hugging Face显示,DeepSeek发布了开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。https://k.sinaimg.cn/n/news/crawl/172/w550h422/20250128/02b5-2505d97dbcb96fe5b150d32f4585ef20.jpg/w700d1q75cms.jpg?by=cms_fixed_width
https://k.sinaimg.cn/n/news/crawl/126/w550h376/20250128/0cd1-384f45db96e77d2c2b7010d50a9bfa1b.jpg/w700d1q75cms.jpg?by=cms_fixed_width
https://k.sinaimg.cn/n/news/crawl/794/w550h244/20250128/d11b-be9c9e69118007d7d187c89916adb3c9.png/w700d1q75cms.jpg?by=cms_fixed_width
https://k.sinaimg.cn/n/news/crawl/89/w550h339/20250128/f2b3-2af60372106b64f720705373d7bec2c4.png/w700d1q75cms.jpg?by=cms_fixed_width
页面显示,Janus-Pro是一种新颖的自回归框架,统一了多模态的理解与生成。它通过将视觉编码分离为独立的路径,解决了以往方法的局限性,同时仍然采用单一的统一Transformer架构进行处理。视觉编码的分离不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还提升了框架的灵活性。Janus-Pro不仅超越了之前的统一模型,还能匹配或超越任务专用模型的性能。其简单性、高灵活性以及高效性使Janus-Pro成为下一代统一多模态模型的有力候选者。 Janus-Pro是一款统一理解与生成的多模态大语言模型(MLLM),通过对多模态理解与生成的视觉编码进行解耦来实现功能。Janus-Pro构建于 DeepSeek-LLM-1.5b-base和DeepSeek-LLM-7b-base的基础之上。 在多模态理解方面,它使用SigLIP-L作为视觉编码器,支持384x384的图像输入。在图像生成方面,Janus-Pro使用了来源于此的分词器(tokenizer),其下采样率为16。