威胁美国主导地位?——美国AI界大拿们解读DeepSeek
【公理按】
中国AI新宠DeepSeek横空出世,旋即成为焦灼级热点——重点是,不限于中国,而是全球整个AI界真正的绝对焦点。甚至有美国新闻人将其描述为:DeepSeek引发美国从硅谷到华尔街的恐慌。震惊应该是真的,“恐慌”似乎涉嫌夸大其词,但至少美国顶尖科技公司股票的大地震间接反映了端倪:如果没记错的话,NVIDIA的股票一夜之间跌掉17%,可谓史上罕见。
国内有关DS的热议已持续约两周时间,除了普通人和初步尝试者的正常观感,人们亦听闻太多假内行们不着边际的臆测+自以为是——包括并非基于理性认知,而是源于立场偏见的、甚至反科学的荒谬贬低和唱衰。
公某在没弄清是否收费的情况下,就成了DS的注册用户——也不清楚是否属于美国议员口中应该“判20年、罚款百万”那种。
与DS的初步接触,除了拒绝我一两个涉嫌敏感问题,总体印象确实足够正面——优于本人常用的ChatGPT和Copilot的意义上。印象尤其深刻的是其对严肃问题十二分严谨,思维缜密,科学至上;更包括突出的人性化互动模式,除了不稀奇的客套,包括玩笑性的对话,甚至刻意激发用户的挑战欲。
但毕竟公某亦非业内人士,除了个人体验,无资格、亦无意对DeepSeek做技术方面的评价。一周前,在油管上看到CNBC(美国全国广播公司下属)这则关于DeepSeek的深度报道,其中包括多位美国AI界一线大拿们不同视角的评论。该报道点击量超过5百万,评论1.75万条。对国人应该有一定参考价值。
需说明的一点是,该视频长达40分钟,文字记录冗长。借助了谷歌机器翻译,虽然通读译文过程中已经做了不少订正和润色,但无暇进行全文逐句中英文对照校正,不保证没有翻译错误。另,在不影响内容完整的情况下,对个别敏感字句进行了技术性编辑。也未能标出每段评论出镜大拿的姓名和身份。 -------------------------
原标题:中国的新AI模型DeepSeek如何威胁美国的主导地位 CNBC 2025-01-24
导语
中国一家鲜为人知的AI 实验室发布了 AI 模型,尽管成本更低、芯片性能更逊,但其性能却能超越美国最好的模型,这引发了整个硅谷的恐慌。该实验室名为 DeepSeek,于 12 月下旬推出了一款免费的开源大型语言模型,据称该模型仅用了两个月的时间和不到 600 万美元就建成了。这些新进展引发了人们对美国在人工智能领域的全球领先地位是否正在缩小的担忧,并质疑大型科技公司在构建 AI 模型和数据中心方面的巨额投入。在一系列第三方基准测试中,DeepSeek 的模型在从复杂问题解决到数学和编码的准确度方面优于 Meta 的 Llama 3.1、OpenAI的 GPT-4.0和 Anthropic 的 Claude Sonnet 3.5。
引言——权威专业人士的话
主持人: 中国最新的人工智能突破已经超越了世界 —— 我认为我们应该非常、非常认真地对待中国的发展 主持人: 这一改变游戏规则的举措并非来自 OpenAI、谷歌或 Meta —— 确有一种新模型让整个硅谷都在鼓噪 主持人: 它来自一个名为 Deepseek 的中国实验室 —— 它让很多人大开眼界——了解中国人工智能的实际情况 主持人: 谷歌和OpenAI花了数年时间和数亿美元才干成的事,Deepseek 说只花了两个月的时间,花费不到 600 万美元。 —— 他们拥有最好的开源模型,所有美国开发者都在此基础上进行构建
主持人: 我是Deirdre Bosa,为您带来技术盘点:中国在人工智能方面的突破。
DeepSeek 的胜利
这是一次震惊硅谷的技术飞跃。一个新推出的免费开源AI模型击败了市场上一些最强大的模型。但这不是 OpenAI 的新产品,也不是 Anthropic 的模型公告。这个模型是由一家名为 Deepseek 的中国研究实验室在东方建造的。其开发背后的细节让美国顶尖的人工智能研究人员感到震惊。
首先是成本。据报道,该AI实验室仅花费 560 万美元就建造了 Deepseek V3。相比之下,OpenAI 每年花费 50 亿美元,而谷歌预计 2024 年的资本支出将飙升至 500 亿美元以上。还有微软,它仅仅为了投资 OpenAI 就花费了 130 多亿美元。
但更加令人震惊的是,Deepseek的“废料拼接”模型能够胜过资金雄厚的美国模型。 “看看 Deepseek的新模型,它非常令人印象深刻,因为他们真的有效地完成了一个开源模型,可以进行推理时间计算。而且它的计算效率非常高。”
它在广泛测试的准确性上击败了 Meta 的 Llama、OpenAI的 GPT 4.0 和 Anthropic 的 Claude Sonnet 3.5,包括500 个数学问题子集、AI 数学评估、编码竞赛以及发现和修复代码中错误的测试。随后(他们)很快又推出了一个名为R1 的新推理模型,它在某些第三方测试中轻松超越了 OpenAI 的尖端 o1。
“今天,我们发布了《人类的最后考试》,这是我们通过让数学、物理、生物、化学教授提供他们能想到的最难的问题而制作的人工智能模型的新评估或基准。Deepseek 是中国领先的人工智能实验室,他们的模型实际上是表现最好的,或大致与美国最好的模型相当。”(截图)
尽管美国政府对中国实施了严格的半导体限制,从根本上束缚了计算能力,但他们还是取得了所有这些成就。华盛顿在人工智能竞赛中对中国划定了强硬路线,切断中国获得美国最强大芯片的渠道,比如,Nvidia 的 H-100 GPU。
这些曾被认为是构建具有竞争力的人工智能模型的关键。初创公司和大型科技公司都在争先恐后地获得任何可用的芯片。但 Deepseek 颠覆了这一现状。通过使用 Nvidia 性能较差的 H-800 来构建最新型号——规避规则,这表明芯片出口管制并非华盛顿的得意举措。“他们能够使用任何经过确认的硬件,且效率更高。”
那么,Deepseek 背后的人到底是谁?尽管它取得了突破,但人们对其实验室和创始人梁文峰知之甚少。据中国媒体报道,Deepseek诞生于一家名为 High Flyer Quant 的中国对冲基金。该基金管理着约 80 亿美元的资产。在其开发者网站上,其使命很简单:“用好奇心解开 AGI 的奥秘。用长期主义回答基本问题。”
与此同时,领先的美国人工智能初创公司——OpenAI 和 Anthropic——有详细的规则和章程,阐述他们的原则和创始使命,比如这些关于人工智能安全和责任的部分。尽管我们多次尝试联系 Deepeseek方面的人,但未得到回复。
“他们实际上是如何聚集这些人才的?他们是如何组装所有硬件的?他们是如何收集数据来完成所有这些工作的?我们不知道,而且从未公开过,希望我们能了解到这一点。”
但这个谜团凸显了与中国的人工智能对抗变得多么紧迫和复杂。因为还不仅仅是Deepseek,其他更知名的中国AI模型也在有限的资源下在竞争中占据了一席之地。李开复是中国领先的AI研究人员之一,曾领导谷歌在中国的业务。现在,他的初创公司“01.AI”引起了人们的关注,在成立仅八个月后就成为独角兽,并在2024年带来了近1400万美元的收入。李表示:“令我在硅谷的朋友震惊的不仅仅是我们的表现,而是我们只用300万美元训练了模型,而GPT-4的训练费用为8000万至1亿美元。”
与此同时,阿里巴巴的Qwen将其大型语言模型的成本削减了85%,以吸引更多开发者,表明竞争已经开始。
美国被削弱
中国的突破削弱了我们AI实验室曾经被公认的领先地位。2024 年初,前谷歌首席执行官埃里克·施密特 (Eric Schmidt) 预测中国在人工智能领域将落后美国 2 到 3 年。但现在,施密特却唱起了不同的调子,他出现在 ABC 的“本周”节目中。“我以前以为我们领先中国几年,但中国在过去六个月中以惊人的方式赶上来了。事实上,中国的一些项目,例如一个名为 Deepseek 的项目,看起来已经赶上了。”
这引发了人们对(美国)人工智能“护城河”到底有多宽的重大质疑。当 OpenAI 于 2022 年 11 月向全世界发布 ChatGPT 时,这是史无前例且无可争议的。现在,该公司不仅面临着来自中国模型的国际竞争,还面临着来自谷歌 Gemini、Anthropic 的Claude 和 Meta 的开源 Llama 模型的激烈国内竞争。
现在游戏规则已经改变。强大的开源模型的广泛使用,使得开发人员可以跳过自己构建和训练模型的苛刻、且资本密集的步骤。现在他们可以在现有模型的基础上进行构建,从而以更少的预算和更小的团队更容易地跳到前沿,也就是竞争的前沿。
“在过去的两周里,人工智能研究团队真正开阔了眼界,对用更少的资金实现什么(目标)变得更加雄心勃勃。以前,要进入前沿,你必须考虑数亿美元、甚至上十亿美元的投资。现在,Deepseek 给硅谷的启示是,它让我们看到了用 1000 万、1500 万、2000 万或 3000 万美元实际上可以实现什么。”
这也意味着,像OpenAI 这样今天宣称自己处于前沿的公司……明天就可能是另一回事。这就是 Deepseek 能够如此迅速地赶上来的原因。它开始在现有的 AI 前沿上进行构建,其方法侧重于迭代现有技术,而不是重新发明轮子。
“他们可以采用一个非常好的大模型,并使用一种称为蒸馏的过程。蒸馏的过程基本上就是使用一个非常大的模型来帮助你的小模型在你希望它变得聪明的事情上变得聪明。这实际上是一种非常划算的方法。”
它通过使用可用数据集、应用创新调整和利用现有模型来缩小差距。以至于 Deepseek 的模型陷入了身份危机。它确信它是 ChatGPT,当你直接问它“你是什么模型?”时,Deepseek 会回答:我是一个由 OpenAI 创建的 AI 语言模型,具体基于GPT-4 架构。
在该模型发布几天后,OpenAI首席执行官 Sam Altman 就对 Deepseek 发布了一通不加掩饰的批评:“复制你知道有效的东西相对容易。当你不知道它是否会有效时,做一些创新的、有风险的、困难的事情则是极其难能的。”
但复制并非 Deepseek 的真正做法。他们利用 OpenAI现有呈现和架构原则模拟了 GPT,同时不动声色地地加入自己的增强功能,确实模糊了它与 ChatGPT 之间的界限。
这一切就给 OpenAI 这类闭源领先者带来了压力,随着更多潜在的更灵活的竞争对手的出现,它需要证明其更昂贵的模式是合理的。
“每个人都在这个领域抄袭别人。你可以说谷歌首先做了转换器。不是 OpenAI,OpenAI 只是抄袭了它。谷歌建立了第一个大型语言模型。他们没有将其产品化,但 OpenAI 将其产品化了。所以你可以用很多方式来表述这一切。这并不重要。”
因此,如果每家都在互相抄袭,这就提出一个问题,在单个 L-L-M(大型语言模型)上投入巨额资金是否还是一项好的投资?现在,没有人比 OpenAI 承担的风险更大。这家初创公司仅在上一轮融资中就筹集了超过 60 亿美元。但该公司尚未盈利。由于其核心业务以构建模型为中心,因此它比谷歌和亚马逊等公司的风险更大,后者的支出由云计算和广告业务提供资金。对于 OpenAI 来说,推理将是关键。一个在产生响应之前先思考的模型,超越模式识别来分析,得出逻辑结论并解决真正复杂的问题。目前,这家初创公司的 o1 推理模型仍然处于领先地位。但能持续多久呢?
“伯克利的研究人员上周表示,他们只需 450 美元就能建立一个推理模型。所以,实际上你可以用少得多的钱创建这些进行思考的模型。你不需要那么多钱来预先训练模型。所以我认为游戏正在发生变化。”
这意味着保持领先可能需要与资本一样多的创造力。Deepseek 的突破也发生在人工智能宠儿非常棘手的时期。正如 OpenAI 正在转向盈利模式并面临前所未有的人才流失一样。如果游戏发生变化,它能否以更高的估值筹集更多资金? 正如 ChamathPalihapitiya 所说:让我大声说出没人提及的部分:人工智能模型构建是一个金钱陷阱。
【楼下继续】
|