中国人工智能(AI)企业深度求索(DeepSeek)在元旦日发表有创始人梁文锋署名的新论文,提出能实现显著性能提升的新架构。

综合第一财经、行业媒体“机器之心”报道,DeepSeek在星期四(1月1日)发布的论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》)。新架构旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

论文举证说明,新架构不仅能解决大模型训练的稳定性问题,且能在仅增加6.7%的训练时间下,显著提升性能。

论文作者包括解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao),DeepSeek创始人兼首席执行官梁文锋也在合著名单之中。

您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。