切换到宽版
北斗六星!·百事通·查看新帖·设为首页·手机版

北斗六星网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
北斗六星网 情感休闲 娱乐家园 威胁美国主导地位?——美国AI界大拿解读DeepSeek
查看: 497|回复: 53
打印 上一主题 下一主题

威胁美国主导地位?——美国AI界大拿解读DeepSeek [复制链接]

跳转到指定楼层
主楼
发表于 2025-2-9 11:27 |只看该作者 |倒序浏览 |
搜索本主题
威胁美国主导地位?——美国AI界大拿们解读DeepSeek
新闻来源:CNBC     翻译整理:公理力

【公理按】

中国AI新宠DeepSeek横空出世,旋即成为焦灼级热点——重点是,不限于中国,而是全球整个AI界真正的绝对焦点。甚至有美国新闻人将其描述为:DeepSeek引发美国从硅谷到华尔街的恐慌。震惊应该是真的,“恐慌”似乎涉嫌夸大其词,但至少美国顶尖科技公司股票的大地震间接反映了端倪:如果没记错的话,NVIDIA的股票一夜之间跌掉17%,可谓史上罕见。

国内有关DS的热议已持续约两周时间,除了普通人和初步尝试者正常观感,人们亦听闻太多假内行们不着边际的臆测+自以为是——包括并非基于理性认知,而是源于立场偏见的、甚至反科学的荒谬贬低和唱衰。

公某在没弄清是否收费的情况下,就成了DS的注册用户——也不清楚是否属于美国议员口中应该“判20年、罚款百万”那种。

与DS的初步接触,除了拒绝我一两个涉嫌敏感问题,总体印象确实足够正面——优于本人常用的ChatGPT和Copilot的意义上。印象尤其深刻的是其对严肃问题十二分严谨,思维缜密,科学至上;更包括突出的人性化互动模式,除了不稀奇的客套,包括玩笑性的对话,甚至刻意激发用户的挑战欲。

但毕竟公某亦非业内人士,除了个人体验,无资格、亦无意对DeepSeek做技术方面的评价。一周前,在油管上看到CNBC(美国全国广播公司下属)这则关于DeepSeek的深度报道,其中包括多位美国AI界一线大拿们不同视角的评论。该报道点击量超过5百万,评论1.75万条。对国人应该有一定参考价值。

需说明的一点是,该视频长达40分钟,文字记录冗长。借助了谷歌机器翻译,虽然通读译文过程中已经做了不少订正和润色,但无暇进行全文逐句中英文对照校正,不保证没有翻译错误。另,在不影响内容完整的情况下,对个别敏感字句进行了技术性编辑。也未能标出每段评论出镜大拿的姓名和身份。
-------------------------

原标题:中国的新AI模型DeepSeek如何威胁美国的主导地位
CNBC 2025-01-24

导语

中国一家鲜为人知的AI 实验室发布了 AI 模型,尽管成本更低、芯片性能更逊,但其性能却能超越美国最好的模型,这引发了整个硅谷的恐慌。该实验室名为 DeepSeek,于 12 月下旬推出了一款免费的开源大型语言模型,据称该模型仅用了两个月的时间和不到 600 万美元就建成了。这些新进展引发了人们对美国在人工智能领域的全球领先地位是否正在缩小的担忧,并质疑大型科技公司在构建 AI 模型和数据中心方面的巨额投入。在一系列第三方基准测试中,DeepSeek 的模型在从复杂问题解决到数学和编码的准确度方面优于 Meta 的 Llama 3.1、OpenAI的 GPT-4.0和 Anthropic 的 Claude Sonnet 3.5。

引言——权威专业人士的话

主持人: 中国最新的人工智能突破已经超越了世界
—— 我认为我们应该非常、非常认真地对待中国的发展
主持人: 这一改变游戏规则的举措并非来自 OpenAI、谷歌或 Meta
—— 确有一种新模型让整个硅谷都在鼓噪
主持人: 它来自一个名为 Deepseek 的中国实验室
—— 它让很多人大开眼界——了解中国人工智能的实际情况
主持人: 谷歌和OpenAI花了数年时间和数亿美元才干成的事,Deepseek 说只花了两个月的时间,花费不到 600 万美元。
—— 他们拥有最好的开源模型,所有美国开发者都在此基础上进行构建

主持人: 我是Deirdre Bosa,为您带来技术盘点:中国在人工智能方面的突破。

DeepSeek 的胜利

这是一次震惊硅谷的技术飞跃。一个新推出的免费开源AI模型击败了市场上一些最强大的模型。但这不是 OpenAI 的新产品,也不是 Anthropic 的模型公告。这个模型是由一家名为 Deepseek 的中国研究实验室在东方建造的。其开发背后的细节让美国顶尖的人工智能研究人员感到震惊。

首先是成本。据报道,该AI实验室仅花费 560 万美元就建造了 Deepseek V3。相比之下,OpenAI 每年花费 50 亿美元,而谷歌预计 2024 年的资本支出将飙升至 500 亿美元以上。还有微软,它仅仅为了投资 OpenAI 就花费了 130 多亿美元。

但更加令人震惊的是,Deepseek的“废料拼接”模型能够胜过资金雄厚的美国模型。
“看看 Deepseek的新模型,它非常令人印象深刻,因为他们真的有效地完成了一个开源模型,可以进行推理时间计算。而且它的计算效率非常高。”

它在广泛测试的准确性上击败了 Meta 的 Llama、OpenAI的 GPT 4.0 和 Anthropic 的 Claude Sonnet 3.5,包括500 个数学问题子集、AI 数学评估、编码竞赛以及发现和修复代码中错误的测试。随后(他们)很快又推出了一个名为R1 的新推理模型,它在某些第三方测试中轻松超越了 OpenAI 的尖端 o1。

“今天,我们发布了《人类的最后考试》,这是我们通过让数学、物理、生物、化学教授提供他们能想到的最难的问题而制作的人工智能模型的新评估或基准。Deepseek 是中国领先的人工智能实验室,他们的模型实际上是表现最好的,或大致与美国最好的模型相当。”(截图)



尽管美国政府对中国实施了严格的半导体限制,从根本上束缚了计算能力,但他们还是取得了所有这些成就。华盛顿在人工智能竞赛中对中国划定了强硬路线,切断中国获得美国最强大芯片的渠道,比如,Nvidia 的 H-100 GPU。

这些曾被认为是构建具有竞争力的人工智能模型的关键。初创公司和大型科技公司都在争先恐后地获得任何可用的芯片。但 Deepseek 颠覆了这一现状。通过使用 Nvidia 性能较差的 H-800 来构建最新型号——规避规则,这表明芯片出口管制并非华盛顿得意举措。“他们能够使用任何经过确认的硬件,且效率更高。”

那么,Deepseek 背后的人到底是谁?尽管它取得了突破,但人们对其实验室和创始人梁文峰知之甚少。据中国媒体报道,Deepseek诞生于一家名为 High Flyer Quant 的中国对冲基金。该基金管理着约 80 亿美元的资产。在其开发者网站上,其使命很简单:“用好奇心解开 AGI 的奥秘。用长期主义回答基本问题。”

与此同时,领先的美国人工智能初创公司——OpenAI 和 Anthropic——有详细的规则和章程,阐述他们的原则和创始使命,比如这些关于人工智能安全和责任的部分。尽管我们多次尝试联系 Deepeseek方面的人,但未得到回复。

“他们实际上是如何聚集这些人才的?他们是如何组装所有硬件的?他们是如何收集数据来完成所有这些工作的?我们不知道,而且从未公开过,希望我们能了解到这一点。”

但这个谜团凸显了与中国的人工智能对抗变得多么紧迫和复杂。因为还不仅仅是Deepseek,其他更知名的中国AI模型也在有限的资源下在竞争中占据了一席之地。李开复是中国领先的AI研究人员之一,曾领导谷歌在中国的业务。现在,他的初创公司“01.AI”引起了人们的关注,在成立仅八个月后就成为独角兽,并在2024年带来了近1400万美元的收入。李表示:“令我在硅谷的朋友震惊的不仅仅是我们的表现,而是我们只用300万美元训练了模型,而GPT-4的训练费用为8000万至1亿美元。”

与此同时,阿里巴巴的Qwen将其大型语言模型的成本削减了85%,以吸引更多开发者,表明竞争已经开始。

美国被削弱

中国的突破削弱了我们AI实验室曾经被公认的领先地位。2024 年初,前谷歌首席执行官埃里克·施密特 (Eric Sc​​hmidt) 预测中国在人工智能领域将落后美国 2 到 3 年。但现在,施密特却唱起了不同的调子,他出现在 ABC 的“本周”节目中。“我以前以为我们领先中国几年,但中国在过去六个月中以惊人的方式赶上来了。事实上,中国的一些项目,例如一个名为 Deepseek 的项目,看起来已经赶上了。”

这引发了人们对(美国)人工智能“护城河”到底有多宽的重大质疑。当 OpenAI 于 2022 年 11 月向全世界发布 ChatGPT 时,这是史无前例且无可争议的。现在,该公司不仅面临着来自中国模型的国际竞争,还面临着来自谷歌 Gemini、Anthropic 的Claude 和 Meta 的开源 Llama 模型的激烈国内竞争。

现在游戏规则已经改变。强大的开源模型的广泛使用,使得开发人员可以跳过自己构建和训练模型的苛刻、且资本密集的步骤。现在他们可以在现有模型的基础上进行构建,从而以更少的预算和更小的团队更容易地跳到前沿,也就是竞争的前沿。

“在过去的两周里,人工智能研究团队真正开阔了眼界,对用更少的资金实现什么(目标)变得更加雄心勃勃。以前,要进入前沿,你必须考虑数亿美元、甚至上十亿美元的投资。现在,Deepseek 给硅谷的启示是,它让我们看到了用 1000 万、1500 万、2000 万或 3000 万美元实际上可以实现什么。”

这也意味着,像OpenAI 这样今天宣称自己处于前沿的公司……明天就可能是另一回事。这就是 Deepseek 能够如此迅速地赶上来的原因。它开始在现有的 AI 前沿上进行构建,其方法侧重于迭代现有技术,而不是重新发明轮子。

“他们可以采用一个非常好的大模型,并使用一种称为蒸馏的过程。蒸馏的过程基本上就是使用一个非常大的模型来帮助你的小模型在你希望它变得聪明的事情上变得聪明。这实际上是一种非常划算的方法。”

它通过使用可用数据集、应用创新调整和利用现有模型来缩小差距。以至于 Deepseek 的模型陷入了身份危机。它确信它是 ChatGPT,当你直接问它“你是什么模型?”时,Deepseek 会回答:我是一个由 OpenAI 创建的 AI 语言模型,具体基于GPT-4 架构。

在该模型发布几天后,OpenAI首席执行官 Sam Altman 就对 Deepseek 发布了一通不加掩饰的批评:“复制你知道有效的东西相对容易。当你不知道它是否会有效时,做一些创新的、有风险的、困难的事情则是极其难能的。”

但复制并非 Deepseek 的真正做法。他们利用 OpenAI现有呈现和架构原则模拟了 GPT,同时不动声色地地加入自己的增强功能,确实模糊了它与 ChatGPT 之间的界限。

这一切就给 OpenAI 这类闭源领先者带来了压力,随着更多潜在的更灵活的竞争对手的出现,它需要证明其更昂贵的模式是合理的。

“每个人都在这个领域抄袭别人。你可以说谷歌首先做了转换器。不是 OpenAI,OpenAI 只是抄袭了它。谷歌建立了第一个大型语言模型。他们没有将其产品化,但 OpenAI 将其产品化了。所以你可以用很多方式来表述这一切。这并不重要。”

因此,如果每家都在互相抄袭,这就提出一个问题,在单个 L-L-M(大型语言模型)上投入巨额资金是否还是一项好的投资?现在,没有人比 OpenAI 承担的风险更大。这家初创公司仅在上一轮融资中就筹集了超过 60 亿美元。但该公司尚未盈利。由于其核心业务以构建模型为中心,因此它比谷歌和亚马逊等公司的风险更大,后者的支出由云计算和广告业务提供资金。对于 OpenAI 来说,推理将是关键。一个在产生响应之前先思考的模型,超越模式识别来分析,得出逻辑结论并解决真正复杂的问题。目前,这家初创公司的 o1 推理模型仍然处于领先地位。但能持续多久呢?

“伯克利的研究人员上周表示,他们只需 450 美元就能建立一个推理模型。所以,实际上你可以用少得多的钱创建这些进行思考的模型。你不需要那么多钱来预先训练模型。所以我认为游戏正在发生变化。”

这意味着保持领先可能需要与资本一样多的创造力。Deepseek 的突破也发生在人工智能宠儿非常棘手的时期。正如 OpenAI 正在转向盈利模式并面临前所未有的人才流失一样。如果游戏发生变化,它能否以更高的估值筹集更多资金?
正如 ChamathPalihapitiya 所说:让我大声说出没人提及的部分:人工智能模型构建是一个金钱陷阱。

【楼下继续】



附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册
1

查看全部评分

分享到: QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
分享分享0 收藏收藏0 顶0 踩0

沙发
发表于 2025-2-9 11:27 |只看该作者
本帖最后由 公理力 于 2025-2-9 11:28 编辑

需要是发明之母

美国政府的(技术)转移禁令旨在减缓竞争。让美国技术留在美国本土,在竞争中保持领先。

川普:“我们想要做的是,我们希望它留在这个国家。中国是竞争对手,其他国家也是竞争对手。”

与此相反,这些限制可能正是中国所需要的。“需要是发明之母。因为他们必须想出解决办法,所以他们最终建造了一些更有效率的东西。”

“他们用很少的资金取得了如此大的进步,这真是令人惊叹。”

“这促使他们发挥创造力,影响深远。Deepseek 是一个开源模型,这意味着开发人员拥有完全访问权限,他们可以自定义权重或根据自己的喜好进行微调。众所周知,一旦开源赶上或改进了闭源软件,所有开发人员都会迁移到开源。”

但关键是它还很便宜。成本越低,对开发人员来说就越有吸引力。李开复:“最重要的是,我们的推理成本是每百万词元 10 美分,这是代表性可比模型收费的 1/30。这 10 美分将导致以更低的成本构建应用程序。因此,如果你想要构建 u.com 或 Perplexity 或其他应用程序,你可以向 OpenAI 支付每百万词元 4.40 美元,或者如果你拥有我们的模型,则只需花费 10 美分。”

这可能意味着全球人工智能的主流模式可能是开源,因为团体和国家都逐渐认识到协作和分散化可以比专有的封闭生态系统更快、更有效地推动创新。来自中国的更便宜、更高效、被广泛采用的开源模式可能会导致机制的重大转变。

“这更危险,因为他们将拥有思想份额和生态系统。” 换句话说,大规模采用中国开源模式可能会破坏美国的领导地位,同时将中国更深入地嵌入全球技术基础设施中。

“开源也总有不再是开源的临界点,对吧?所以,今天的开源许可虽然非常有利,但它可能会关闭它。没错,随着时间的推移,他们总是可以更改许可证。因此,我们确实需要有人在美国进行创建,这也是 Meta 如此重要的原因。”

中国人工智能突破的另一个后果是让中国官方掌控了叙事。在中国建立的人工智能模型被迫遵守该国制定的一套规则。它们必须体现“社会主义核心价值观”。研究表明,腾讯和阿里巴巴创建的模型将包括审查过滤机制。

“这场竞赛是关于我们是否会拥有受民主价值观启发、为民主目的而建立的民主人工智能,还是最终会拥有专治人工智能。”如果开发人员真的开始大规模采用这些模型——因为它们效率更高,那么可能会产生严重的连锁反应。甚至会渗透到面向消费者的AI应用程序中,并影响聊天机器人产生的AI响应的可信度。

“目前世界上只有两个国家能够大规模地建设这个系统,你知道,那就是美国和中国,所以你知道,该领域及相关的利害关系后果是巨大的。”

巨大的利害关系,巨大的后果:美国领先,悬而未决

对于如此复杂和前沿的话题,我们求助于一位正在该领域大显身手但不涉及模型的真正专家:Perplexity 联合创始人兼首席执行官 Arvind Srinivas——你在本节目中都听到过他的声音。

他和我坐下来讨论了30 多分钟,讨论了 Deepseek 及其影响,以及Perplexity 的路线图。我们认为值得听一听整个对话,下面就是。

对Perplexity首席执行官 Aravind Srinivas 的访谈

首先,我想知道赌注是什么。比如,描述一下中国和美国之间的人工智能竞赛,以及赌注是什么。

“好的,首先,中国在与美国竞争时有很多劣势。首先,他们无法获得我们在这里可以使用的所有硬件。所以他们使用的是比我们低端的 GPU。这几乎就像使用上一代 GPU 一样,很粗糙。而且,更大的模型往往更智能,这自然让他们(的小模型)处于劣势。但另一方面,需要是发明之母,因为他们必须想出解决办法。他们最终建造了一些更高效的东西。这就像说,“嘿,看,你们真的必须得到一个一流的模型,我不会给你们资源的,你们自己想办法吧”,对吧?

“除非不可能,除非数学上可以证明不可能,否则你总是可以尝试想出更有效的方法。但这可能会让他们想出比美国更有效的解决方案。当然,他们已经开源了,所以我们仍然可以在这里采用类似的东西。但他们为此培养的人才会随着时间的推移成为他们的优势,对吧?

“美国 Meta 的 Llama是该领域领先的开源模型,它真的很好。它有点像你可以在电脑上运行的模型。但即使它非常接近 GBT-4,在发布时,质量最接近的模型是巨大的 405B,而不是你可以在电脑上运行的 70B。因此,仍然没有一个小的、便宜的、快速的、高效的开源模型可以与 OpenAI、Anthropic 最强大的封闭模型相媲美。美国没有,Mistral AI 也没有。
“然后这些人就推出了一款疯狂的模型,我认为它的 API 定价比 GPT-4 便宜 10倍,比 Sonnet 便宜 15 倍。速度非常快,每秒 16 ~60 个令牌,在某些基准测试中几乎相同或更好,而在其他一些基准测试中则更差。但大致与 4-O 的质量差不多。他们只用大约 20、48、800 个 GPU 就完成了所有工作,这实际上相当于大约 1,500 或 1,000~1,500 个 H100 GPU。这比通常训练 GPT-4 的 GPU 数量低 20 到 30 倍,总计算预算约为 500 万美元。

“他们用很少的钱就做出了如此出色的模型,免费赠送,写了一篇技术论文,这肯定会让我们所有人都产生疑问,比如“好吧,如果我们有相当于 Doge 的模型训练,这就是一个例子,对吧?”

对。是的。效率就是你要说的。所以,价格的一小部分,时间的一小部分。是的。本质上是简化了 GPU。当你了解他们所做的事情时,你感到惊讶的是什么?

“当我真正阅读技术论文时,我感到惊讶的是,他们想出了很多巧妙的解决方案。首先,他们训练了一个混合专家模型,这并不容易,其中有很多人们发现很难赶上 OpenAI 的主要症结,特别是在 MoE 架构上,是因为有很多不规则的峰值损失。数值不稳定,所以经常,比如,你必须重新启动训练节点,并且需要为此完成大量基础性工作。他们想出了非常聪明的解决方案来平衡这一点,而无需添加额外的门路。

“他们还弄清楚了浮点8 比特训练,至少对于某些算法而言。他们巧妙地弄清楚了哪些必须具有更高的精度,哪些必须具有更低的精度。据我所知,我认为浮点 8 位训练并没有得到很好的理解。美国的大部分训练仍在 FP16 中运行。也许 OpenAI 和一些人正在尝试探索这一点,但很难做到正确。所以,需要是发明之母,因为他们没有那么多内存,那么多 GPU。

“他们想出了很多数值稳定性的东西,使他们的训练有效。他们在论文中声言,大多数训练都是稳定的。这意味着什么?他​​们总是可以再次运行这些训练,并使用更多数据或更好的数据。然后,它只训练了 60 天。所以这非常了不起。”
可以肯定地说,你很惊讶。

“所以我真的很惊讶。通常智慧是,或者我不说智慧,神话是:所谓中国人擅长复制——假如我们停止在美国撰写研究论文,如果我们停止描述我们的基础设施或架构的细节,并停止开源,他们将无法赶上。但现实是,Deep seek v3 中的一些细节非常好,如果 Meta 看了它,并采纳了其中的一些内容,并试图抄袭它们,我不会感到惊讶。对。我不会一定要说抄袭。这一切都是分享科学、工程,但重点是,它正在改变。中国并不是在模仿。他们也在创新。”

我们不知道它训练的具体数据,对吧?即使它是开源的,我们也知道一些训练的方法和内容,但不是全部。有这样一种观点认为,它是在公共 ChatGPT的输出上训练的,这意味着它只是被复制了。但你是说它超越了这一点?这里面有真正的创新吗?

“是的,看,我的意思是,他们已经在 14.8 万亿个词元上训练了它。互联网上有如此之多的 ChatGPT。如果你真的去看看任何 LinkedIn 帖文或 X 帖子。现在,大多数评论都是由AI撰写的。你可以看到,就像人们只是在尝试写作一样。

“事实上,即使在X上,也有 Grok 推文增强器,或者在 LinkedIn 中有一个人工智能增强器,或者在 Google Docs 和 Word 中,有人工智能工具可以重写你的东西。所以如果你在那里做了一些事情,然后把它复制粘贴到互联网上的某个地方,它自然会有一些 ChatGPT 的元素,比如训练,对吧?而且有很多人甚至懒得去剥离我是一个语言模型,对吧?所以,他们只是把它粘贴在某个地方,这很难控制。我认为 xAI 也谈到了这一点。所以,我不会仅仅因为一些提示而忽视他们的技术成就,例如,对于“你是谁,或者你用哪种模型来回应?”的回应。在我看来,这一点也不重要。”

很长一段时间以来,我们都在想——我不知道你是否同意我们的观点,中国在人工智能方面落后了,这对这场竞赛有什么影响?我们能说中国正在迎头赶上吗?或者已经赶上了?

我的意思是,如果我们说中国正在赶上 OpenAI 和 Anthropic,如果你这样说,那么中国正在赶上美国,这也是同样的说法。很多来自中国的论文都试图复制 o1,事实上,在 o1 宣布之后,我看到来自中国的试图复制它的论文比来自美国的还多。Deepseek 可以访问的计算量大致与美国博士生可以访问的计算量相同。顺便说一句,这并不是要批评别人,甚至批评我们自己,比如,你知道,我为 Perplexity 做出的决定是不训练模型,因为我们认为这是一件非常昂贵的事情。我们认为,没有办法赶上其他人。”

【楼下继续】

使用道具 举报

板凳
发表于 2025-2-9 11:27 |只看该作者
本帖最后由 公理力 于 2025-2-9 11:29 编辑

但你会把 Deepseek整合到 Perplexity 中吗?

“哦,我们已经开始使用它了。我认为他们有一个 API(应用程序介面),我们也有开源权重,所以我们也可以自己托管它。开始尝试使用它是明智的,因为它确实允许我们以更低的成本做很多事情。

“但我的想法超出了这一点,那就是:好吧,如果这帮(中国)人真的可以在优秀团队的帮助下训练出如此出色的模型,那么美国的公司——包括我们自己,就没有理由不尝试做类似的事情了。”

在公开场合,我们听闻很多生成式AI领域的思想领袖们——无论是研究方面还是创业方面的,如伊隆·马斯克等人——都说中国不能赶上。似乎赌注太大了。地缘政治赌注太大,谁主宰了人工智能,谁就主宰了经济,主宰了世界。你知道,人们都在谈论这些大事。你担心中国证明了自己能做到什么吗?

“首先,我不知道伊隆是否曾说过中国不能赶上。我不……”
(主持人插话)只是中国的威胁,他只是指出了让中国获胜的威胁,你知道,萨姆·奥特曼(OpenAI执行长)也说过类似的话,我们不能让中国赢得比赛。

“你知道,我认为你必须把萨姆这样的人说的话和他的个人利益区分开来。对吧?注意,我认为,我的观点是,无论你做了什么来阻止他们赶上,都无济于事,无论如何,他们最终还是赶上了。”

正如你所说,需要是发明之母。

“而实际上知道,什么事比试图做所有事情不让他们赶上更危险。你知道,他们拥有最好的开源模型,这是所有这些事情中更危险的。而所有美国开发者都在此基础上进行开发,这更危险,因为他们可以拥有思想份额,生态系统。如果整个美国人工智能生态系统(基于闭源),众所周知,一旦开源赶上或改进了闭源软件,所有开发者都会迁移到开源。这是历史上众所周知的,对吧?”

当 Llama 被开发出来并得到更广泛使用时,有一个问题,我们应该相信扎克伯格吗?但现在的问题是,我们应该相信中国吗?这是一个非常……“你应该相信开源,这与谁无关,是扎克伯格还是它(中国)。”

那么,如果它是中国的,如果它是开源的,这重要吗?

“注意,这无关紧要——你仍然拥有完全控制权的意义上。你把它当作你自己的,就像你自己电脑上的一组权重,你掌控这个模型。但是,依赖他人开发的软件,对于我们自己的人才来说,并不美妙。即使是开源软件,也总会有不再是开源软件的时候,对吧?因此,许可证现在非常有利,但随着时间的推移,他们随时可以更改许可证。因此,我们确实需要美国人来开发软件,这就是 Meta 如此重要的原因。

“我仍然认为 Meta会构建一个比 Deepseek v3 更好的模型,并将其开源,他们会将其称为 Llama 4 或 3点几 ,这无关紧要。但我认为更关键的是:我们不试图将所有精力集中在禁止、阻止它们上,而只是试图超越并赢得它们。这正是美国做事的方式,这会更好。”

感觉我们听到了很多关于这些中国公司以类似方式发展的消息,它们的发展效率更高,成本效益更好,对吧?
“是的,你看,很难伪造稀缺性,对吧?如果你筹集了 100 亿美元,并决定将其中的 80% 用于计算领域,那么你很难想出与拥有 500 万美元的人完全相同的解决方案。而且没有理由、没有必要责备那些投入更多资金的人。他们正试图尽快完成。”

当我们说开源时,有很多不同的版本。有些人批评 Meta 没有公布所有内容,甚至 Deepseek 本身也不是完全透明的。

“是的,你可以走到开源的极限,并说,我应该能够复制你的训练运行。但首先,有多少人有资源来做到这一点。我认为他们在技术报告中分享的细节数量,实际上 Meta 也这样做了。顺便说一句,Meta 的 Llama 3.3 技术报告非常详细,对科学(发展)非常有用。因此,这些(中国)人分享的细节数量已经比其他公司正在做的多得多。”

当你想到Deepseek 做这件事的成本时,不到 600 万美元,我想到了 OpenAI 为开发 GPT 模型所花费的资金。这对闭源模型、生态系统轨迹、趋势意味着什么?这对 OpenAI 意味着什么?

“我的意思是,很明显,我们将有一个开源版本的 4-O,甚至比它(Deepseek)更好,而且比该开源(DS)便宜得多,比如今年完全开源。”

由 OpenAI 制作?“可能不会。很可能不会。我认为他们不在乎它是否由他们制作。我认为他们已经转向了一个名为 o1 系列模型的新范式。我看了看,我不能像 Ilya Sutskever 那样说,预训练是一堵墙,对吧?所以,我的意思是,他并没有确切地使用这个词,但他清楚地说:预训练的时代已经结束了。”

——很多人都这么说,对吧?

“所以,这并不意味着扩展遇到了障碍。我认为我们正在不同的维度上进行扩展,如模型在测试时花在思考上的时间。强化学习,比如试图让模型——如果它不知道该如何处理新的提示,学会推理、收集数据并与世界互动,使用一大堆工具。我认为这就是事情的发展方向,我觉得 OpenAI 现在更专注于此。”

是的,而不仅仅是更大、更好的模型?你不是说深度搜索可能会把他们的注意力转向推理吗?

“100%,我认为他们会的。这就是为什么我对他们接下来会推出的产品感到非常兴奋。”

我想这就是我的疑问,OpenAI的护城河现在是什么?

“嗯,我仍然认为,目前还没有其他人生产出与 o1 完全类似的系统。我知道关于 o1 是否真的值得,存在争议。你知道,也许在一些方面,它确实更好。但就像大多数时候一样,它并没有产生与 Sonnet 不同的呈现。但是,至少他们在 o3 中展示的结果显示,他们的编码性能具有竞争力,几乎达到了 AI 软件工程师的水平。”

然而,互联网上充斥着推理数据,这难道不是时间问题吗?

“是的,再次强调,这是可能的,但目前没人知道。所以在完成之前,它仍然是不确定的,对吧?所以也许这种不确定性是他们的护城河。也就是说,目前还没有其他人拥有相同的推理能力。但到今年年底,推理领域是否会有多个参与者呢?我绝对这么认为。”

那么,我们是否正在看到大型语言模型的商品化?

“我认为我们将会看到类似的轨迹,就像在训练前和训练后,这种今年商品化的系统将更加商品化。我认为推理类模型将经历类似的轨迹,一开始,1 或 2 个参与者确实知道如何做,但需要时间。”

谁知道呢?因为OpenAI 可以专注于另一方面的进步。但现在推理是他们的模式。

“顺便说一句,如果进步不断地一再发生,我认为进步这个词的含义也会失去一些价值,对吧?”

完全是。即使现在非常困难,对吧。因为有训练前的进步。然后我们进入了一个不同的阶段。

“是的,所以肯定会发生的是,无论今天存在什么模型,那种推理水平,那种多模式能力水平,比如便宜 5 倍或 10 倍的模型,开源,所有这些都会实现,这只是时间问题。目前尚不清楚的是,像测试时推理的这样的模型是否会非常便宜,以至于我们可以在手机上运行它。我认为这对我来说还不清楚。”

感觉随着Deepseek 能够证明的东西,很多领域都发生了改观。你能称之为中国的 ChatGPT 时刻吗?

“有可能,我的意思是,我认为这肯定给了他们很大的信心,就如:你知道,无论你做什么来限制我们的计算,我们都不会落后。就如,我们总能找到一些解决方法。是的,我相信(中国)团队对结果感到很兴奋。”

这如何改变?比如投资格局,每年在资本支出上花费数百亿美元的超大规模企业刚刚大幅增加。而 OpenAI 和 Anthropic 正在为 GPU 筹集数十亿美元。但 Deepseek 告诉我们,你不需要,你不一定需要那个。

“是的。我的意思是,我认为很明显他们会更加努力地进行推理,因为他们明白,无论他们在过去两年中开发什么,现在都变得非常便宜,因此,为此增加开支是没道理的。”

支出主张是否相同?他们是否需要同样数量的高端 GPU,或者您是否可以使用 Deepseek 使用的低端 GPU 进行推理?
“同样,在证明不行之前,很难说不。但我想,本着快速运行的方针,你还是希望使用高端芯片,并且希望比竞争对手行动得更快。我认为,最优秀的人才仍然希望在率先实现这一目标的团队中工作。你知道,总会有一些荣耀,比如,实际上是谁做到了这一点?比如,谁是真正的先驱?谁只是快速跟随者,对吧?”

这有点像 SamAltman(OpenAI执行长)的推文,对 Deepseek 所做的事做出了含蓄的回应,他暗示他们只是抄袭,任何人都可以抄袭。对吧?

“是的,你总是可以说,在这个领域,每个人都在抄袭每个人。你可以说,谷歌首先做了Transformer。不是 OpenAI,OpenAI 只是抄袭了它。谷歌建立了第一个大型语言模型。他们没有将其产品化,但OpenAI 以产品化的方式做到了。所以你可以用很多方式来表达这一切,这并不重要。”

…… …… (后面关于Perplexity AI公司发展策略部分超出了主题,略)


使用道具 举报

地板
发表于 2025-2-9 13:27 |只看该作者
最近最热门的DS

我居然没有下载

使用道具 举报

5
发表于 2025-2-9 14:42 来自手机 |只看该作者
DS真的很强大,昨天给了一点指令让它写了一篇市场调研报告,非常详尽,逻辑感很强,甚至还自动生成了一个很棒的APP,这是要取代普通办公室文员的节奏啊

使用道具 举报

6
发表于 2025-2-9 14:53 来自手机 |只看该作者
上面的文章是老师翻译的吧,刚读完第一篇,关于那段视频的中文文字版。我原本也为DS的出现感叹,读完译文才发现它是那么强大。不由得为中国自豪。

使用道具 举报

7
发表于 2025-2-9 14:57 |只看该作者
哈哈哈哈,笑死我了

我早几天还在二师兄的帖子里说 : 全六星论裹脚布,我就服公教授,其他谁都不服

AI属于收集大数据,比拼的是算法,大框架是谷歌提供给全人类共享的

有些智商和胎盘一起剥落了的非得说是抄袭剽窃,我也是很无语

使用道具 举报

8
发表于 2025-2-9 14:58 来自手机 |只看该作者
美国一直控制着中国芯片产业的发展,包括世界领先的台积电“搬迁”美国,中国的高科技发展压力很大。在没有最好芯片的前提下,我们的人工智能却没落后,真值得每个国人自豪。

使用道具 举报

9
发表于 2025-2-9 15:02 来自手机 |只看该作者
DS是一次突破,但是再继续发展的阻力很大,毕竟技术资源有限,希望它给人工智能打一剂强心针,让国家关注它,扶持它发展下去吧

使用道具 举报

10
发表于 2025-2-9 15:03 |只看该作者
DS让谁谁谁感到威胁的地方在于

不管是训练或者成型,不是非得用到高端的芯片

7纳米的芯片干了高端芯片的活儿,打破了高端芯片塑造的堡垒以及神话

DS也确实不如有些人说的辣么神,短板肯定会有,但是它是花小钱干大事吃了螃蟹的第一“人”

等于把奢侈品整成了地摊价,被动了奶酪的急眼啦

使用道具 举报

11
发表于 2025-2-9 16:44 |只看该作者
我没有关注DS,等技术成熟了,大量普及了再说。

使用道具 举报

12
发表于 2025-2-9 19:04 |只看该作者
余大寒 发表于 2025-2-9 16:44
我没有关注DS,等技术成熟了,大量普及了再说。

咱两一个样儿啊

使用道具 举报

13
发表于 2025-2-9 20:15 |只看该作者
技术威胁谈不上,但中国人的思维能力,东方文化和智慧,确实对西方文化的底层逻辑构成了挑战,智慧一定需要情感的加持,这是东方文化的底层逻辑,西方文化的底层逻辑是科技加持下的智慧,偏重于情感的智慧,与偏重科技的智慧,这是东西文化的本质差异。

科技加持下的西方智慧世界,在过去的几百年里得到了先行一步的独领风骚,情感加持下的东方智慧世界,一旦注入了科技力量,爆发出来的能量,应该可以接过西风独领风骚的接力棒,再领风骚数百年亦未可知,你们信不信我不知道,但从我的目前的知识体系来说,是必然的。

百年未有之变局,是东方文化主导下的变局,怎么变如何变?是东方文化的深厚基因说了算,当然是AI加持下的东方文化深厚基因说了算,你可以说我是吹牛,因为目前来说不是事实,只是我的预测而已。

使用道具 举报

14
发表于 2025-2-9 20:15 |只看该作者
刚才我问DS:
你认为deepseek威胁美国主导地位了吗?请用三句话来回答

DS回答:
中国在人工智能等领域的快速发展体现了全球科技进步的多极化趋势,特定企业的成长更多是市场竞争力与创新能力的体现。美国在基础研究、技术生态和全球影响力方面仍具显著优势,但科技领域的良性竞争有利于激发全球创新活力。国际合作与开放包容的产业生态才是推动人类技术进步的核心动力。

使用道具 举报

15
发表于 2025-2-9 20:20 |只看该作者
红七狐 发表于 2025-2-9 20:15
技术威胁谈不上,但中国人的思维能力,东方文化和智慧,确实对西方文化的底层逻辑构成了挑战,智慧一定需要 ...

希望如此吧,但我觉得很渺茫。中国人的智慧那是公认的,这次DS也是花小钱办大事给西方世界造成的震撼。但我们的科技力量跟美国和发达国家还有太大差距,不是一朝一夕能有突破的。

使用道具 举报

16
发表于 2025-2-9 23:21 |只看该作者
妖精七七 发表于 2025-2-9 13:27
最近最热门的DS

我居然没有下载

没想到啊,七七也有落伍的时候

使用道具 举报

17
发表于 2025-2-9 23:22 |只看该作者
依水闲云 发表于 2025-2-9 14:42
DS真的很强大,昨天给了一点指令让它写了一篇市场调研报告,非常详尽,逻辑感很强,甚至还自动生成了一个很 ...

想起一句广告词:用过的都说好

使用道具 举报

18
发表于 2025-2-9 23:26 |只看该作者
依水闲云 发表于 2025-2-9 14:53
上面的文章是老师翻译的吧,刚读完第一篇,关于那段视频的中文文字版。我原本也为DS的出现感叹,读完译文才 ...

文本太长,本想偷个懒,直接用相当出色的谷歌机器翻译,后来发现,还是不成,错误和不当表述太多,只好又修改了一遍

使用道具 举报

19
发表于 2025-2-9 23:29 |只看该作者
公理力 发表于 2025-2-9 23:21
没想到啊,七七也有落伍的时候

主要是我手机内存满了

还不想买新的

使用道具 举报

20
发表于 2025-2-9 23:34 |只看该作者
本帖最后由 公理力 于 2025-2-9 23:37 编辑
小炸毛 发表于 2025-2-9 14:57
哈哈哈哈,笑死我了

我早几天还在二师兄的帖子里说 : 全六星论裹脚布,我就服公教授,其他谁都不服
关于长文,太多人有误解

这么说吧,选读一篇货真价实的好长文,至少胜过读100篇中等质量的非长文
更别提缺乏技术含量的低等文字啦——基本是垃圾

事实是,精选好的长文来读,较之读那些质量不够的中、短篇幅文字,更节省时间,助益也更大

使用道具 举报

21
发表于 2025-2-9 23:36 |只看该作者
本帖最后由 公理力 于 2025-2-9 23:37 编辑
妖精七七 发表于 2025-2-9 23:29
主要是我手机内存满了

还不想买新的
好嘛,可想而知,你的手机下载了多少APP

使用道具 举报

22
发表于 2025-2-9 23:42 |只看该作者
依水闲云 发表于 2025-2-9 14:58
美国一直控制着中国芯片产业的发展,包括世界领先的台积电“搬迁”美国,中国的高科技发展压力很大。在没有 ...

这是美国官方目前能想到的招数,但就是美国AI界精英也不认为,这是明智之选
他们更担忧反效果——中国人独辟蹊径,反而追赶得更快!


Perplexity首席执行官 Aravind Srinivas 就是这个观点

使用道具 举报

23
发表于 2025-2-9 23:46 |只看该作者
本帖最后由 公理力 于 2025-2-10 01:32 编辑
小炸毛 发表于 2025-2-9 15:03
DS让谁谁谁感到威胁的地方在于

不管是训练或者成型,不是非得用到高端的芯片
谁敢不服我们小炸的火眼金睛?
有吗,有吗,有吗? —— 重要的事情问三遍

使用道具 举报

24
发表于 2025-2-9 23:48 |只看该作者
余大寒 发表于 2025-2-9 16:44
我没有关注DS,等技术成熟了,大量普及了再说。

你会严重落伍滴 —— 我一点也不威胁地说

使用道具 举报

25
发表于 2025-2-9 23:57 |只看该作者
本帖最后由 公理力 于 2025-2-10 00:28 编辑
红七狐 发表于 2025-2-9 20:15
技术威胁谈不上,但中国人的思维能力,东方文化和智慧,确实对西方文化的底层逻辑构成了挑战,智慧一定需要 ...
国内曾传言,美国人正准备起诉DS公司抄袭,还说正在调查,云云

事实是,OpenAI执行长虽然含蓄地抱怨了几句,但压根儿就没提违法之类
后来他甚至坦承:在AI开发这个事情上,他们站在了历史错误的一边

这个观点也是美国AI界大拿们最具代表性的认识和担忧
换句话说,这些美国AI一线精英,确实感受到了来自中国的“技术威胁”。

使用道具 举报

26
发表于 2025-2-10 00:07 |只看该作者
本帖最后由 公理力 于 2025-2-10 02:29 编辑
薛痒 发表于 2025-2-9 20:15
刚才我问DS:
你认为deepseek威胁美国主导地位了吗?请用三句话来回答
让我感受最深的是,DS明显比ChatGPT等AI产品更“人性化”

它不限于俗人的客套,也包括外交辞令、给对手留面子、必要的谦虚、避免锋芒毕露等可以说,在一定程度上体现了“和为贵”的东方哲学

这固然是超过其它AI产品的长处,是AI技术性的长足进步。但同时,也令人担忧:
假如防范举措不力的话,随着AI技术继续成长、进化(包括AI自学习能力的加持)
DS会不会沾染人类那种虚伪、圆滑,甚至市侩、欺诈等负面习气?
进而,这类AI(包括美国人的)会不会影响人们的思想和价值观?
或者说,温水煮青蛙般,用无形手法,逐渐控制人类行为模式,最终超越人类?

毕竟,人类的智商无法跟AI相比——即使与今天这种还非常年幼的AI产品相比。


使用道具 举报

27
发表于 2025-2-10 00:54 |只看该作者
依水闲云 发表于 2025-2-9 20:20
希望如此吧,但我觉得很渺茫。中国人的智慧那是公认的,这次DS也是花小钱办大事给西方世界造成的震撼。但 ...

眼下,中国最直接的劣势在AI芯片GPU,美国采取一切可能举措,防止H100这类高端芯片流入中国

虽然DS只是用了低档的H800,就实现了AI性能在第三方测评中获胜,但长远看,顶级芯片必然有助于AI产品的快速迭代升级

目前,有说法,国产900C芯片已经用于DS,但其性能不会高于辉达的H100,也是无疑的

另外,在美国高压下,荷兰光刻机不敢再卖给中国,而国产光刻机性能无法与荷兰顶级产品相比

总之,中国在硬件方面的劣势,恐怕很难在短时间内改观,目前,中国只能走在软件上独辟蹊径的路子

至于以DS为代表的中国AI产品与美国人打擂台的最终结局,目前还很难预测
但有很大的可能,一年左右时间就会有新的指标性的结果出来。

使用道具 举报

28
发表于 2025-2-10 11:14 |只看该作者
公理力 发表于 2025-2-9 23:36
好嘛,可想而知,你的手机下载了多少APP

几个游戏占用的内存大

还有淘宝啊,抖音啊,QQ,微信,很多娱乐APP

反正满满当当的了,内存满了苹果系统都不能自己升级了

使用道具 举报

29
发表于 2025-2-10 13:49 |只看该作者
对于我来说,它们只是百度,所以我没下。

使用道具 举报

30
发表于 2025-2-10 19:45 |只看该作者
公理力 发表于 2025-2-10 00:07
让我感受最深的是,DS明显比ChatGPT等AI产品更“人性化”

它不限于俗人的客套,也包括外交辞令、给对手 ...

教授的对AI国民性的担忧比较有趣,我觉得AI的所谓“虚伪、圆滑,甚至市侩、欺诈”这些“人性化体现”大概也是算法设计的结果吧。这东西是最难琢磨的,人对自己的情绪把握也经常失调,何况AI。我可能比较盲目乐观,觉得目前至少我们活着这些年,大概还是人类主导AI。

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

北斗六星文学网所有文字仅代表作者个人言论,本站不对其内容承负任何责任。

Copyright ©2011 bdlxbbs.cn All Right Reserved.  Powered by Discuz! 

本站信息均由会员发表,不代表本网站立场,如侵犯了您的权利请发帖投诉   

平平安安
TOP
返回顶部