毋问我从哪里来 发表于 2025-1-29 10:57

DeepSeek创始人梁文锋火了!


DeepSeek创始人梁文锋火了!业内称他是“极致的80后技术理想主义者”,每天就是“看论文,写代码,参与小组讨论”


2025年01月28日 11:48 极目新闻



  在人工智能领域,一场激烈的竞争正在上演。去年12月,由国内大模型公司“深度求索”开发的DeepSeek应用推出的DeepSeek-V3在全球AI领域掀起了巨大的波澜,它以极低的训练成本,实现了与GPT-4o等顶尖模型相媲美的性能,震惊了业界。时隔不到一个月,DeepSeek又一次震动全球AI圈。https://k.sinaimg.cn/n/spider20250128/134/w1200h2134/20250128/1930-42a6526906a4c9b65ae4411aa3a2c394.jpg/w700d1q75cms.jpg?by=cms_fixed_width 图片来源:央视新闻
  随着DeepSeek推出新模型DeepSeek-R1,1月27日,Deepseek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。这一消息让广大用户对这款新兴应用产生了浓厚兴趣。随着DeepSeek登上热搜,其创始人梁文锋也逐渐被外界关注。据介绍,梁文锋,1985年出生于广东省湛江市,17岁考入浙江大学。另外,有网友注意到,除了梁文锋来自广东湛江,中国还有两位AI大佬也是广东人:Kimi创始人杨植麟来自广东汕头,人工智能领域的杰出科学家何恺明来自广东广州。

毋问我从哪里来 发表于 2025-1-29 10:58

  17岁考入浙江大学,业内称其是“极致的80后技术理想主义者”  DeepSeek的爆火,让其创始人梁文锋颇受关注。业内口碑称,这是一位极致的80后技术理想主义者,每天就是“看论文,写代码,参与小组讨论”。  2002年,这位对数学建模充满热情的年轻人考入浙江大学电子信息工程专业,并在随后的几年里继续深造,最终于2010年获得信息与通信工程硕士学位。  在校期间,他对金融市场产生了浓厚的兴趣。特别在2008年全球金融危机之际,他带领团队探索了机器学习技术在全自动量化交易中的应用潜力,这一经历为他日后的职业生涯奠定了坚实的基础。  毕业后,梁文锋将目光转向更广阔的金融市场。  2013年,他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2015年的市场波动中,幻方依靠先进的高频量化策略取得了令人瞩目的成绩。  2016年是幻方的重要转折点。这一年,公司推出了首个基于深度学习的交易模型,并实现了所有量化策略的AI化转型。2018年,幻方正式确立了以AI为核心的发展战略。然而,随着业务的快速扩展,算力瓶颈逐渐显现。  为解决计算资源不足的问题,2019年,梁文锋带领团队自主研发了“萤火一号”训练平台,总投资近2亿元,搭载了1100块GPU。两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。  2021年,幻方的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年,他宣布将正式进军通用人工智能领域,并创办了深度求索DeepSeek,专注于做真正人类级别的人工智能。

毋问我从哪里来 发表于 2025-1-29 10:58

  还有两位AI大佬也是广东人  今年1月20日下午,中共中央政治局常委、国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。  DeepSeek创始人梁文锋出席此次座谈会,这一信息立马被市场捕捉到。对于国产大模型公司在列总理座谈会,被业内解读为国家对科技的重视。值得注意的是,这次座谈会上,李强强调,要以科技创新推动新旧动能转换,集中力量突破关键核心技术和前沿技术,加快推进科技成果产业化,努力培育更多经济新增长点。https://k.sinaimg.cn/n/spider20250128/213/w1200h613/20250128/d6b2-28b28a2812afbbf9af2302065fe1ded6.jpg/w700d1q75cms.jpg?by=cms_fixed_width图片来源:央视新闻
  另外,有网友注意到,除了梁文锋来自广东湛江,中国还有两位AI大佬也都是广东人:Kimi创始人杨植麟来自广东汕头,人工智能领域的杰出科学家何恺明来自广东广州。  1992年出生的杨植麟,本科毕业于清华大学计算机系,拥有卡耐基梅隆大学计算机专业博士学位,师从苹果公司前AI负责人,曾在Facebook AI Research和Google Brain工作。2023年4月17日,杨植麟创立北京月之暗面科技有限公司(Moonshot AI)。2023年10月,月之暗面宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的智能助手产品Kimi Chat,一经发布便引起了各方关注。  何恺明,广东广州人。2015年,何恺明和他的团队凭借152层深度残差网络ResNet-152,在ImageNet图像识别大赛中击败谷歌、英特尔、高通等业界团队,获得第一。2016年8月,何恺明离开微软亚洲研究院,加入Facebook AI Research(FAIR),担任研究科学家。2024年,何恺明正式回归学界,加入麻省理工学院(MIT)电气工程与计算机科学系担任教职。  极目新闻综合广州日报、光明网、央视新闻、潮新闻、大象新闻、都市快报、上观新闻、财联社等

红影 发表于 2025-1-29 15:20

AI领域的年轻人,为他们点赞{:4_187:}

梦江南 发表于 2025-1-29 17:13

AI创始者还是年轻人啊,谢谢老师介绍。新年快乐!

毋问我从哪里来 发表于 2025-1-30 00:59

红影 发表于 2025-1-29 15:20
AI领域的年轻人,为他们点赞

人气超ChatGPT的“东方力量”,DeepSeek强在哪?

2025-01-29 15:07 来源:中国新闻网


  一夜“重创”美国科技股、人气赶超ChatGPT。2025年新年伊始,一股来自东方的“神秘力量”——国产AI大模型DeepSeek引发硅谷震动,并迅速走红全球,令许多海外网友直呼“实力惊人”。https://nfassetoss.southcn.com/__asset/39e213dc81/8b35c58a70.jpg图片来源:苹果美国区应用商店

毋问我从哪里来 发表于 2025-1-30 00:59

  就在除夕这一天,DeepSeek再放大招。  1月28日凌晨,DeepSeek在GitHub平台发布Janus-Pro多模态大模型,进军文生图领域,并宣布在 GenEval和DPG-Bench基准测试中击败了Stable Diffusion和 OpenAI的DALL-E 3。目前,Janus系列的4款模型已经开源。  DeepSeek爆火后,美国总统特朗普、ChatGPT美国开放人工智能研究中心(OpenAI)首席执行官纷纷发声,承认其给AI行业带来的“震撼”。《纽约时报》评价称,DeepSeek能与OpenAI的ChatGPT媲美,“仅此一点就已经是一个里程碑”。  DeepSeek的核心技术是什么?强在哪?  DeepSeek给出了这样的回答:  其核心技术优势包括自然语言处理(NLP)、机器学习与深度学习、大数据分析、个性化推荐、智能交互、跨平台整合以及安全性与隐私保护,并在以下八大领域展现出强大能力:  ——推理能力  具备强大的逻辑推理和问题解决能力,能处理复杂的查询和任务,提供准确的答案和解决方案。

毋问我从哪里来 发表于 2025-1-30 01:00

  ——自然语言理解与生成  能进行高质量的文本分析、翻译、摘要生成等任务。  ——图像与视频分析  在图像识别、视频内容分析等领域具有高精度,能实现物体检测、场景理解、面部识别等功能。  ——语音识别与合成  能准确识别和合成语音,支持多语言和方言,适用于语音助手、语音输入等应用。   ——个性化推荐  能根据用户行为和偏好,提供个性化内容推荐,提升用户满意度和参与度。  ——大数据处理与分析  能高效处理和分析大规模数据,挖掘数据中的模式和趋势,支持数据驱动的决策。  ——跨模态学习  支持文本、图像、语音等多种模态的数据融合和学习,能实现更丰富和全面的理解和推理。

毋问我从哪里来 发表于 2025-1-30 01:00

  ——实时交互与响应  智能助手和聊天机器人实现实时的自然语言交互,快速响应用户需求。  而与此前大火的ChatGPT相比,DeepSeek有何特点?  DeepSeek创始人梁文锋曾多次强调,DeepSeek致力于开辟差异化技术路线,而非复制OpenAI的模式。  《纽约时报》指出,“DeepSeek可以被视为满足特定需求的专用工具,ChatGPT 则是一个多功能助手。”  还有外媒解释称,该应用程序与ChatGPT 等其他AI聊天机器人的区别在于,在对提示做出响应之前,它会清晰地表达自己的推理。  此外,DeepSeek更加“物美价廉”,多家美媒关注到,其开发的模型不仅在多项测试中的表现都优于OpenAI,设计成本也比后者更低,成本不到600万美元。  凭借高性能、低成本,DeepSeek迅速获得硅谷巨头的注意。  当地时间27日晚,OpenAI首席执行官萨姆·奥尔特曼在社交媒体平台上发文,对DeepSeek-R1模型首次亮相表示欢迎。  “这是一款令人印象深刻的模型,尤其是考虑到它的(较低的)价格。”奥尔特曼说,“有这样的新竞争对手确实令人振奋。”  “这太疯狂了!”总部位于美国旧金山的初创科技公司Perplexity AI的首席执行官亚拉文·斯里尼瓦斯表示,“DeepSeek的模型比OpenAI的一些最新产品更便宜、更好。”  除了惊艳行业人士,DeepSeek还赢得许多海外用户的青睐。

毋问我从哪里来 发表于 2025-1-30 01:00

  一名外国网友向它发起提问,“如何创建一个预测体育赛事的网站”,并在社交媒体平台上分享了这份详尽的“手把手教学”式回答,配文“DeepSeek真的很赞”。https://nfassetoss.southcn.com/__asset/39e213dc81/3eeed0e90e.jpg图片来源:社交媒体平台X

毋问我从哪里来 发表于 2025-1-30 01:01

  这款软件在海外火出圈之后,服务需求激增。28日凌晨,DeepSeek称遭受大规模恶意攻击,其官网服务状态页面一度提示用户:“注册可能繁忙,请稍等重试。”https://nfassetoss.southcn.com/__asset/39e213dc81/a16ccf18b1.jpg图片来源:DeepSeek官网截图

毋问我从哪里来 发表于 2025-1-30 01:01

梦江南 发表于 2025-1-29 17:13
AI创始者还是年轻人啊,谢谢老师介绍。新年快乐!

  一日前,DeepSeek应用就已登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。  与此同时,DeepSeek的爆火,引发了美国科技股暴跌,市值蒸发1万亿美元,投资者甚至质疑美国一些大公司估值虚高。  据路透社报道,在中国人工智能(AI)初创公司DeepSeek冲击美股之际,美国芯片巨头英伟达27日股价暴跌约17%。  投资者担心,“DeepSeek使用的英伟达芯片远少于美国公司,却能与OpenAI等竞争对手不相上下。”  此外,英伟达的竞争对手超威半导体公司(AMD)的股价同日也下跌超6%。其他芯片股也在集体暴跌,博通跌逾17%,台积电跌超13%,阿斯麦跌近6%。  在此情况下,许多西方主流媒体纷纷发文感叹中国AI模型“震惊硅谷”“让美股流泪”,甚至引发了一些海外厂商与机构连夜尝试复现DeepSeek成果的“热潮”。  路透社、《纽约时报》指出,DeepSeek推出的低成本人工智能模型,可能会使推动牛市的一些美国AI公司的“天价估值难以为继”。  更有外媒认为,DeepSeek的爆火,不仅是“中国AI技术的里程碑”,更是全球AI行业的一次“范式革命”。  成为开年来AI领域“黑马”后,DeepSeek能一直火下去吗?  “既要看我能否在技术赛道上不断突破,也要看我能否在世界的商业丛林中,找到属于自己的绿洲。”这是DeepSeek写下的答案。

红影 发表于 2025-1-30 12:34

毋问我从哪里来 发表于 2025-1-30 00:59
  就在除夕这一天,DeepSeek再放大招。  1月28日凌晨,DeepSeek在GitHub平台发布Janus-Pro多模态大模型 ...

好好好,必须点赞{:4_187:}

毋问我从哪里来 发表于 2025-1-30 14:11

红影 发表于 2025-1-30 12:34
好好好,必须点赞

Anthropic CEO 发万字檄文:DeepSeek 崛起,白宫应加码管制


https://tvax1.sinaimg.cn/crop.0.0.690.690.180/008sFF1uly8hpx4o9vbrwj30j60j6jt0.jpg新浪AI
01.3002:23


就在刚刚,美国的另一家 AI 巨头 Anthropic 的 CEO - Dario Amodei 发表了一篇长达万字的深度分析报告。报告核心观点:DeepSeek 的突破,更加印证了美国对华芯片出口管制政策的必要性和紧迫性。
https://k.sinaimg.cn/n/spider20250130/272/w1080h792/20250130/d5d2-2d3287dd5d5de7094c44eea5b9fb7121.png/w700d1q75cms.jpg?by=cms_fixed_width先补充下前提,这几天,DeepSeek 刷屏、刷屏、再刷屏。


毋问我从哪里来 发表于 2025-1-30 14:12

并在新春之际,给欧美股市带来了一抹中国红(暴跌)https://k.sinaimg.cn/n/spider20250130/130/w1080h650/20250130/fea1-b733b9e7c59b3521e67ff9d8fa87d7f5.jpg/w700d1q75cms.jpg?by=cms_fixed_width赛博禅心在此前也通过多个纬度,对此进行了一系列报道:

毋问我从哪里来 发表于 2025-1-30 14:13

顺道着...昨天凌晨,Qwen 也发了大货:https://k.sinaimg.cn/n/spider20250130/249/w1080h769/20250130/30c5-fdc6136adcc695a4352185bf0f072f73.png/w700d1q75cms.jpg?by=cms_fixed_width我们回过头来看看 Dario Amodei 这篇报告,里面首先肯定了 DeepSeek 的技术突破:其最新模型在特定基准测试中已逼近美国顶尖水平,模型训练效率提升显著,并尝试将中国 AI 进步纳入全球技术演进坐标系进行定位,从三个维度:

毋问我从哪里来 发表于 2025-1-30 14:13


[*]算力规模定律: 指出中国超大规模算力基建的持续投入,正在重塑全球 AI 研发的地缘格局。国家级数字基础设施的战略布局,为中国企业突破"算力鸿沟"提供了底层支撑。
[*]效率跃迁曲线: 强调全球 AI 行业正经历训练成本指数级下降的技术革命。DeepSeek 的成本控制突破,本质上是把握技术演进窗口期的战略成果。
[*]范式革新动能: 着重分析中国团队在强化学习等新兴训练范式中的创新实践,揭示后发者通过技术路线创新实现弯道超车的可能性。
基于此,Dario Amodei 的结论颇具启示性:DeepSeek 的突破绝非孤立现象,而是中国科技创新体系系统性进化的产物。尽管报告刻意淡化"颠覆性创新"的叙事,但字里行间对中国 AI 发展势能的警惕已跃然纸上。在政策维度,报告剑指芯片出口管制的战略困境。Dario Amodei 坦承,DeepSeek 的突破正在倒逼美国重新评估技术封锁政策的有效性。这种政策层面的连锁反应,恰印证了中国 AI 突围对全球技术秩序的重构效应。其核心论断直指要害——算力霸权已成为 AI 竞赛的胜负手,而中国在自主可控产业链建设方面的进展,正在动摇传统技术封锁的逻辑基础。报告同时指出,在国家安全与技术发展间,需要寻求动态平衡,这也是当下全球的时代命题:当技术演进速度,已超越政策调整速度,如何在开放与风控中建立新范式,已成为关键中的关键。需要说一下,Dario Amodei 是前 OpenAI 的研究员,后来离开 OpenAI 后成立其直接竞争对手 Anthropic。这篇报告在保持学术矜持的表象下,已然承认中国 AI 崛起的事实,也预示着创新格局正在发生范式转变——从单一中心的技术辐射,向多极共生的生态演进。

毋问我从哪里来 发表于 2025-1-30 14:14

文章发布在 Dario Amodei的个人博客:https://darioamodei.com/on-deepseek-and-export-controls我把它也翻译成了中文,如下:关于 DeepSeek 与出口管制几周前,我曾撰文呼吁美国应加强对华芯片出口管制。此后不久,中国人工智能公司 DeepSeek 便成功地——至少在某些方面——以更低的成本,实现了与美国顶尖人工智能模型相近的性能水平。在此,我暂且不讨论 DeepSeek 是否对 Anthropic 等美国人工智能企业构成威胁(尽管我认为许多关于 DeepSeek 威胁美国人工智能领导地位的说法被严重夸大了)。
我更关注的是,DeepSeek 的成果发布是否削弱了芯片出口管制政策的合理性。我的看法是否定的。事实上,我认为 DeepSeek 的进展反而令出口管制政策显得比一周前更具存在意义上的重要性。出口管制服务于一个至关重要的目标:确保民主国家在人工智能发展中保持领先地位。需要明确的是,出口管制并非逃避美中竞争的手段。最终,如果美国和其他民主国家的 AI 公司想要胜出,就必须开发出比中国更卓越的模型。但是,在力所能及的情况下,我们不应将技术优势拱手让给中国。

毋问我从哪里来 发表于 2025-1-30 14:14

人工智能发展的三大动态在阐述我的政策主张之前,我将先介绍理解人工智能系统至关重要的三个基本动态:规模定律 (Scaling laws)。 人工智能的一个特性——我和我的联合创始人在 OpenAI 工作时就率先记录了这一特性——即在其他条件相同的情况下,扩大人工智能系统的训练规模,能够全面且平滑地提升其在各种认知任务上的表现。例如,一个耗资 100 万美元的模型可能解决 20%的重要编程任务,一个耗资 1000 万美元的模型可能解决 40%,一个耗资 1 亿美元的模型可能解决 60%,以此类推。这些差异在实践中往往具有巨大的影响——十倍的性能提升可能相当于本科生和博士生技能水平之间的差距——因此,各公司都在大力投资于训练这些模型。曲线偏移 (Shifting the curve)。人工智能领域不断涌现各种大大小小的创新理念,旨在提高效率或效能。这些创新可能体现在模型架构的改进上(例如对当今所有模型都采用的 Transformer 基础架构进行微调),也可能仅仅是更高效地在底层硬件上运行模型的方法。
新一代硬件的出现也具有相同的效果。这些创新通常会使成本曲线发生偏移:如果某项创新带来了 2 倍的“算力倍增效应”(CM),那么原本需要花费 1000 万美元才能完成 40%编程任务,现在只需 500 万美元即可实现;原本需要 1 亿美元才能完成 60%的任务,现在只需 5000 万美元,以此类推。每一家前沿人工智能公司都会定期发现许多这样的算力倍增效应:小型创新(约 1.2 倍)时有发生,中型创新(约 2 倍)也偶有出现,而大型创新(约 10 倍)则较为罕见。
由于拥有更智能系统的价值极高,这种曲线偏移通常会导致公司在模型训练上投入更多而非更少的资金:成本效率的提升最终完全用于训练更智能的模型,唯一制约因素仅为公司的财务资源。人们自然而然地倾向于“先贵后贱”的思维模式——仿佛人工智能是一种质量恒定的单一事物,当它变得更便宜时,我们就会用更少的芯片来训练它。但关键在于规模曲线:当曲线偏移时,我们只是更快地沿着曲线前进,因为曲线尽头的价值实在太高了。
2020 年,我的团队发表了一篇论文,指出算法进步带来的曲线偏移约为每年 1.68 倍。此后,这个速度可能已显著加快;而且这还没有考虑效率和硬件的进步。我估计今天的数字可能约为每年 4 倍。此处还有另一项估计。训练曲线的偏移也会带动推理曲线的偏移,因此,多年来,在模型质量保持不变的情况下,价格大幅下降的情况一直都在发生。例如,Claude 3.5 Sonnet 的 API 价格比原版 GPT-4 低约 10 倍,但其发布时间比 GPT-4 晚了 15 个月,且在几乎所有基准测试中都优于 GPT-4。范式转变 (Shifting the paradigm)。有时,被规模化的底层事物会发生细微变化,或者在训练过程中会加入一种新的规模化方式。在 2020 年至 2023 年期间,主要的规模化对象是预训练模型:即使用越来越多的互联网文本进行训练,并在其基础上进行少量其他训练的模型。
2024 年,使用强化学习(RL)训练模型生成思维链的想法已成为新的规模化重点。Anthropic、DeepSeek 和许多其他公司(或许最引人注目的是 OpenAI,他们在 9 月份发布了 o1-preview 模型)都发现,这种训练方式极大地提高了模型在某些特定、可客观衡量的任务上的性能,例如数学、编程竞赛以及与这些任务相似的推理。这种新范式包括首先使用普通的预训练模型,然后在第二阶段使用强化学习来添加推理技能。
重要的是,由于这种类型的强化学习是全新的,我们仍处于规模曲线的早期阶段:所有参与者在第二阶段(强化学习阶段)的投入都很少。投入 100 万美元而不是 10 万美元就足以获得巨大的收益。各公司目前都在迅速努力将第二阶段的投入规模扩大到数亿美元甚至数十亿美元,但至关重要的是要理解,我们正处在一个独特的“交叉点”,即存在一种强大的新范式,它正处于规模曲线的早期阶段,因此可以迅速取得重大进展。

毋问我从哪里来 发表于 2025-1-30 14:14

DeepSeek 的模型上述三个动态可以帮助我们理解 DeepSeek 近期发布的模型。大约一个月前,DeepSeek 发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——即上述第三点中描述的第一阶段。上周,他们又发布了“R1”,在 V3 的基础上增加了第二阶段。从外部无法完全了解这些模型的全部信息,但以下是我对这两次发布的最佳理解。DeepSeek-V3 实际上是真正的创新所在,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(不过,我们发现,特别是 Claude 3.5 Sonnet 在某些其他关键任务上,例如实际编程方面,仍然明显更胜一筹)。DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率方面。特别是在名为“键值缓存 (Key-Value cache)”的某一方面管理以及推动“混合专家 (mixture of experts)”方法更进一步的应用上,取得了创新性的改进。然而,有必要进行更深入的分析:DeepSeek 并未“以 600 万美元的成本实现了美国人工智能公司数十亿美元投入的效果”。我只能代表 Anthropic 发言,Claude 3.5 Sonnet 是一款中等规模的模型,训练成本为数千万美元(我不会给出确切数字)。此外,3.5 Sonnet 的训练方式与任何规模更大或成本更高的模型无关(与某些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,而 DeepSeek 的模型是在 11 月/12 月训练的,但 Sonnet 在许多内部和外部评估中仍然显著领先。因此,我认为一个公正的说法是:“DeepSeek 生产出了一款性能接近美国 7-10 个月前模型的模型,成本大幅降低(但远未达到人们所说的比例)”。如果成本曲线的历史下降趋势约为每年 4 倍,这意味着在正常的商业进程中——在 2023 年和 2024 年发生的历史成本下降等正常趋势下——我们预计现在会出现一款比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型。
由于 DeepSeek-V3 的性能不如那些美国前沿模型——假设在规模曲线上落后约 2 倍,我认为这对于 DeepSeek-V3 来说已经相当慷慨了——这意味着,如果 DeepSeek-V3 的训练成本比美国一年前开发的现有模型低约 8 倍,那将是完全正常、完全符合“趋势”的。我不会给出具体数字,但从前一点可以清楚地看出,即使你完全相信 DeepSeek 宣称的训练成本,他们的表现充其量也只是符合趋势,甚至可能还达不到。例如,这远不如最初的 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异(10 倍),而 3.5 Sonnet 是一款比 GPT-4 更出色的模型。
总而言之,DeepSeek-V3 并非一项独特的突破,也并非从根本上改变了大型语言模型 (LLM) 的经济性;它只是持续成本降低曲线上一个预期的点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这在以前从未发生过,并且具有地缘政治意义。然而,美国公司很快也会效仿——而且他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现通常的成本降低趋势。DeepSeek 和美国人工智能公司都比以往拥有更多的资金和更多的芯片来训练其明星模型。额外的芯片用于研发支持模型背后的理念,有时也用于训练尚未准备就绪(或需要多次尝试才能成功)的更大模型。有报道称——我们无法确定其真实性——DeepSeek 实际上拥有 50,000 块 Hopper 架构的芯片,我猜这与美国主要人工智能公司拥有的芯片数量在 2-3 倍的差距内(例如,比 xAI 的 “Colossus” 集群少 2-3 倍)。这 50,000 块 Hopper 芯片的成本约为 10 亿美元。因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国人工智能实验室的支出并没有天壤之别。值得注意的是,“规模曲线”分析有些过于简化,因为模型在某种程度上是存在差异的,并且各有优缺点;规模曲线数字是一个粗略的平均值,忽略了许多细节。我只能谈谈 Anthropic 的模型,但正如我上面暗示的那样,Claude 在编程和与人进行良好设计的互动风格方面非常出色(很多人用它来寻求个人建议或支持)。在这些以及一些额外的任务上,DeepSeek 完全无法与之相提并论。这些因素在规模数字中并未体现出来。上周发布的 R1 模型引发了公众的广泛关注(包括英伟达股价下跌约 17%),但从创新或工程角度来看,它远不如 V3 有趣。R1 模型增加了第二阶段的训练——强化学习,在前一节的第 3 点中对此进行了描述——并且基本上复制了 OpenAI 在 o1 模型中所做的工作(他们似乎处于相似的规模,结果也相似)。然而,由于我们正处于规模曲线的早期阶段,只要它们从强大的预训练模型起步,多家公司就有可能生产出这种类型的模型。在 V3 的基础上生产 R1 模型的成本可能非常低廉。因此,我们正处于一个有趣的“交叉点”,暂时会出现多家公司都能生产出优秀的推理模型的情况。但随着所有公司在这种模型的规模曲线上进一步前进,这种情况将迅速消失。
页: [1] 2 3 4 5 6
查看完整版本: DeepSeek创始人梁文锋火了!