2024年末,AI界再次传来重磅消息。深度求索发布大模型DeepSeek V3,完全开源,免费使用。最重要的是,这家被称为"AI界拼多多"的杭州企业再次将大模型训练成本砍一刀。
DeepSeek V3训练耗时两个月,仅花费558万美元,但性能却辟比ChatGPT。而GPT-4o等大模型的成本约为一亿美元,这家初创企业以一举之力颠覆大众和业界对AI高昂研发成本的固有印象。
新年伊始,"雷军千万年薪招揽95后天才少女"的消息一出迅速抢占各大头条,关于AI人才身世背景的争论此起彼伏。北师大本科、北大硕士、先后在阿里达摩学院和DeepSeek就职的罗福莉即将加入小米在圈内早已不是新鲜事,看似利好小米的新闻,实则也为前东家DeepSeek的热度再添了把火。
01 /一年崛起:深度求索的非凡历程
2023年5月,量化投资基金幻方正式将大模型研究团队拆分,成立深度求索公司。DeepSeek背后的推手正是创始人梁文锋,曾在浙江大学学习人工智能。而梁文锋在接受采访时表示,在美国政府对中国实施AI芯片限制之前,幻方量化已经购买了10000多台GPU,确保了DeepSeek的开发。
DeepSeek的团队以刚毕业的学生和新晋AI从业者为主,他们拥有无限的创造力和激情。梁文峰表示,在DeepSeek,每个人都可以随时调用训练集群的卡,无需审批。
这种开放和自由的氛围使得DeepSeek能够迅速崛起,成为中国乃至全球少有的兼具强大基础设施工程能力和模型研究能力的团队。
2024一年来,DeepSeek共发布8篇研究论文。从中映射出的是在资源限制下,一家依托本土人才的AI企业,奋力追逐甚至赶超行业巨头的快速崛起历程。
02 /与主流大模型硬碰硬:DeepSeek V3的卓越表现
DeepSeek V3的预训练阶段仅需266.4万个H800 GPU小时,后续训练阶段需10万个GPU小时。大概两个月时间,DeepSeek就利用2048个GPU完成了模型的训练,仅花费558万美元。
相比之下,Meta的Llama 3.1使用了3080万个GPU小时,约为DeepSeek V3的11倍,而Mata使用的是比.............
原文转载:https://fashion.shaoqun.com/a/1860282.html
又崩了 竞价广告规则 FBA轻小计划 传统店群 卖家被下单 日本节日 抓紧排查!Keith律所狂发版权TRO,20多张图片均有侵权风险,卖家注意避雷~ 亚马逊AWS将在佐治亚州投资超110亿美元扩建数据中心
没有评论:
发表评论