DeepSeek发论文提新训练方法推动提升AI效率

发布：2026-01-03 07:36 | 焦点来源：联合早报中文网

DeepSeek发论文提新训练方法推动提升AI效率

（深圳综合讯）中国人工智能（AI）初创企业深度求索（DeepSeek）今年元旦发表论文，提出一种更高效的AI开发方法，显示在无法自由获取英伟达晶片的情况下，中国AI企业仍在努力与OpenAI等国际巨头竞争。

综合彭博社和证券时报网等报道，这篇于星期四（1月1日）发表、由DeepSeek创始人梁文峰联合撰写的技术论文，提出一种名为流形约束超连接（mHC）的新架构，旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持显著的性能增益。

研究团队在字节跳动2024年有关超连接架构研究的基础上展开实验，在参数规模介于30亿至270亿的模型上进行测试。结果显示，mHC可顺利扩展，同时不会显著增加计算负担。

论文指出，实证结果表明，与传统超连接相比，mHC能够实现更稳定的大规模训练，并具备更好的可扩展性。这篇论文共列出19名作者，梁文峰为最后一名作者。

在业内看来，DeepSeek的论文是公司下一代模型工程方向的重要早期信号。继去年凭R1模型引发关注后，广泛被称为R2的新一代模型预计将在今年2月农历新年前后公布。

您查看的内容可能不完整，部分内容和推荐被拦截！请对本站关闭广告拦截和阅读模式，或使用自带浏览器后恢复正常。

热度：加载中...°

更多内容访问：焦点专栏：

中国比照稀土升级白银出口管制马斯克：这可不是好事

（北京综合讯）中国比照稀土升级对白银的出口管制，这项凸显战略意图的新政引起产业界担忧，美国电动车巨头特斯拉首席执行官马斯克批评“这可不是好

中国网安团队：突破iOS 26.1系统提权可提取Telegram

一家有网络安全“国家队”之称的中国公司旗下团队称，他们已成功突破苹果iOS 26.1系统提权难题，由此实现对加密通讯软件Telegram的数据提

中韩元首下周一会谈拟讨论朝鲜半岛无核化

（首尔／北京综合讯）本周末启程访华的韩国总统李在明将在下星期一（1月5日）与中国国家主席习近平举行会谈，重点讨论经济合作和朝鲜半岛无核化等议

赖清德吁立法院尽早审议总预算避免影响长者权益

台湾赖清德在2026年首趟行程发言时，呼吁立法院尽早审议中央政府总预算，以免长者权益受影响。据台湾府官网消息，赖清德星期五（1月2日）上午前往

阅读下一篇

中国比照稀土升级白银出口管制马斯克：这可不是好事

热文排行榜

三天

一周

1 杨丹旭：解放军围台军演给谁看？

2 中国媒体曝多地“买单出口”造假分析指地方政府优先考虑转移自身压力

3 原浙江省副省长陈伟俊被免职、罢免新疆全部职务

4 沈泽玮：2025年，中国赢麻了

5 解放军军演：赖清德称台不会升高冲突不挑起争端

6 习近平新年贺词：晶片自主研发取得新突破国家统一大势不可挡

7 下午察：泰国在中国舆论场的意外翻身

8 下午察：“夺岛利器”在解放军环台军演前首飞

9 美星链卫星被指危险抵近中国空间站严重威胁航天员生命

10 救不救房企巨头万科中国官方陷两难

1 新闻人间：被带走的徐湖平剧终？

2 于泽远：解放军仍在推进高层反腐

3 下午察：“美国斩杀线”，中国赢麻了？

4 中国全国人大人事任免五军方将领被终止人大代表资格

5 中共政治局召开民主生活会马兴瑞继续缺席

6 杨丹旭：解放军围台军演给谁看？

7 下午察：中国老艺术家“人在美国薪在汉”？

8 解放军歼击机两栖攻击舰等军力出击大陆专家称军演发挥覆盖封控作用

9 中国人大警告美国：不得实施国防授权法案涉华消极条款

10 路透：大陆首次表明围台军演旨在阻吓外部军事介入

即时新闻更多>

中国比照稀土升级白银出口管制马斯克：这

01月03日 07时36分45秒

DeepSeek发论文提新训练方法推动提升AI效

01月03日 07时36分42秒

下午察：中国渐冻人殷盼新年第一缕曙光

01月02日 23时40分45秒

中国网安团队：突破iOS 26.1系统提权可提

01月02日 23时40分39秒

中韩元首下周一会谈拟讨论朝鲜半岛无核化

01月02日 22时55分35秒

赖清德吁立法院尽早审议总预算避免影响长

01月02日 19时35分34秒

河北农村供暖问题引关注多个微博话题被禁

01月02日 19时35分30秒

机构预计2026年中国新房销售面积降6.2%

01月02日 17时31分09秒

缓解上海交通压力世界最长中心城区地下连

01月02日 17时31分03秒

俄罗斯中国总商会会长：中俄今年贸易额将增

01月02日 15时06分02秒

立即注册早报中文网每日新闻简报