
(深圳综合讯)中国人工智能(AI)初创企业深度求索(DeepSeek)今年元旦发表论文,提出一种更高效的AI开发方法,显示在无法自由获取英伟达晶片的情况下,中国AI企业仍在努力与OpenAI等国际巨头竞争。
综合彭博社和证券时报网等报道,这篇于星期四(1月1日)发表、由DeepSeek创始人梁文峰联合撰写的技术论文,提出一种名为流形约束超连接(mHC)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持显著的性能增益。
研究团队在字节跳动2024年有关超连接架构研究的基础上展开实验,在参数规模介于30亿至270亿的模型上进行测试。结果显示,mHC可顺利扩展,同时不会显著增加计算负担。
论文指出,实证结果表明,与传统超连接相比,mHC能够实现更稳定的大规模训练,并具备更好的可扩展性。这篇论文共列出19名作者,梁文峰为最后一名作者。
在业内看来,DeepSeek的论文是公司下一代模型工程方向的重要早期信号。继去年凭R1模型引发关注后,广泛被称为R2的新一代模型预计将在今年2月农历新年前后公布。
您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。