合规的股票杠杆平台
12月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
“Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是一个更强大的模型,仅使用了280万GPU 小时(计算量约为十分之一)。”前Open AI 联合创始人、Tesla AI 团队负责人Andrej Karpathy在X上发文表示,如果该模型的优良表现能够得到广泛验证,这一模型将是在资源受限的情况下,在研究和工程方面让人印象深刻的一次展示。
12月26日晚,幻方量化旗下AI公司深度求索(DeepSeek)宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动,登录官网(chat.deepseek.com)即可与最新版 V3 模型对话。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。
具体来说,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型,每token激活参数为370亿,在14.8万亿token上进行了预训练。
官方给出的数据显示,DeepSeek-V3 多项评测成绩超越了阿里通义的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
与此同时,DeepSeek表示,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度提高了三倍,从20 TPS提高至60 TPS,API服务价格也同步做了调整,目前为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。但全新模型有45天的优惠价格体验期,为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。
这一价格在目前头部模型市场中有一定的竞争力。例如OpenAI的GPT 4o定价为输入:5美元/百万Token,输出:15美元/百万Token,加总成本是20美元,约合人民币145元。
DeepSeek此前一直走的是性价比路线,在训练上做了一些调整。据此次发布的技术报告,DeepSeek-V3仍然采用多头潜在注意力(MLA)以实现高效推理,并采用 DeepSeek MoE以实现经济的训练。这两种架构在 DeepSeek-V2中得到了验证,证明了它们在保持强大模型性能的同时,能够实现高效的训练和推理。
除了基本架构外,DeepSeek还实施了两项额外策略以进一步增强模型能力。首先是采用了无辅助损失的负载平衡策略,其次采用了多token预测训练目标,这可以提升评估基准的整体性能。
在已开源的论文中,DeepSeek强调了其训练成本较低——通过对算法、框架和硬件的优化协同设计,在预训练阶段,模型每训练1万亿token仅需要18万个GPU小时,即在团队配备2048个H800 GPU的集群上只需3.7天,也就是说,团队的预训练在不到2个月的时间内完成。
此外,加上用于扩展上下文长度所需的11.9万个 GPU小时和5000个 GPU小时的后训练,DeepSeek-V3完整训练消耗了278.8万个GPU小时。
假设H800 GPU的租用价格为每块GPU 2美元/小时,DeepSeek-V3的全部训练成本总计仅为557.6万美元。DeepSeek表示,该成本仅包括DeepSeek-V3的正式训练,不包括与先前在架构、算法或数据上的研究和消融实验相关的成本。
Karpathy在发文中肯定了这一训练成本的突破,他提到,作为参考,要达到V3这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。
但这是否意味着前沿LLM不需要大型 GPU 集群?在Karpathy看来,也并非如此,“但你必须确保不浪费你所拥有的资源,这看起来是一个很好的证明,表明在数据和算法方面还有很多工作要做” 。
Karpathy同时夸赞了DeepSeek在开源网站上公布的技术报告,“这是非常好且详细的技术报告,值得一读。”一位来自Menlo Venture的投资人也感慨,“53 页的技术论文是黄金”(53-page technical paper is GOLD)。
英伟达高级研究科学家Jim Fan在X上转发Karpathy的推文表示,资源限制是一件美好的事情。在残酷的人工智能竞争环境中,生存本能是取得突破的主要动力。“我关注 DeepSeek 很久了。去年他们推出了最好的开源模型之一,卓越的OSS模型给商业前沿 LLM 公司带来了巨大压力,迫使它们加快步伐。”
Lepton AI 创始人、 前阿里巴巴副总裁贾扬清也参与了这一话题的讨论,他认为,DeepSeek 的成功是简单的智慧和实用主义在起作用,在计算和人力有限的情况下,通过智能研究产生最佳结果。
此前DeepSeek一直被冠以“AI界拼多多”的名头,也是年中引发中国大模型价格战的源头。今年5月,DeepSeek发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,在当时约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。随后,字节、腾讯、百度、阿里等大厂纷纷降价,大模型价格战由此一触即发。
公开信息显示,DeepSeek成立于2023年7月,由知名量化资管巨头幻方量化创立,幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。
在这次DeepSeek-V3发布时,大模型生态社区OpenCSG(开放传神)创始人陈冉第一时间关注到的是训练数据,他对第一财经表示,“一切都是数据,数据质量决定模型质量”,Deepseek-V3基于14万亿token的数据训练,这些数据应该非常有价值。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者刘晓洁
相关阅读 一财社论:以自由和包容的制度助力国产AI扬帆起航2024年国产AI在风云巨变中重塑重构着中国故事
82 昨天 21:39 一个自闭症孩子的父亲,想用大模型为孩子治病自闭症治疗有一个特别突出的痛点,它没有药物,全部都要靠人工干预。而自闭症的数字疗法主要就是做两件事,一是重构客观世界,二是重构社交场景。
110 12-27 09:39 开源鸿蒙5.0发布,底座及配套能力走向稳定成熟目前,以开源鸿蒙为底座的生态设备数量突破10亿。
135 12-21 11:35 10月工业利润降幅大幅收窄,降成本仍需政策加力10月制造业利润降幅较9月大幅收窄22.3个百分点,带动规上工业利润降幅较9月收窄17.8个百分点。
467 11-27 20:58 李彦宏说大模型幻觉基本消除了,实测文心一言到底怎么样?给AI文生图打几分?合规的股票杠杆平台
766 11-13 12:28 一财最热 点击关闭上一篇:哪里可以配资 中国社会科学院学部委员高培勇:实施更加积极有为的宏观政策要加量提质
下一篇:没有了