(北京综合讯)中国科技公司美团发布一款万亿参数开源大模型“LongCat-2.0”,并称这是业内首个完全基于中国国产算力晶片集群进行训练的人工智能(AI)大模型。
综合法新社和《南华早报》报道,美团星期二(6月30日)在一份声明中称,这款从零开始预训练的模型支持100万token的上下文窗口,规模与深度求索(DeepSeek)最新模型V4-pro相媲美。
美团说,这款模型是业界首个在五万卡国产算力集群上完成从零预训练到推理全流程的万亿参数模型。
声明没有透露使用的中国硬件供应商,但美团星期二在微信公众号文章中透露,开发过程使用了华为集合通信库(HCCL)来提高训练稳定性。这是一种类似于英伟达集合通信库的晶片间通信系统。
美团介绍,这款新模型在代码编写和智能体任务方面表现卓越,并在多个基准测试中优于谷歌的Gemini 3.1 Pro,但仍落后于OpenAI的GPT-5.5和Anthropic的Claude 4.8 Opus等模型。
尽管中国AI晶片已被广泛应用于模型推理,但无法胜任极其消耗算力的预训练任务,导致中国模型高度依赖英伟达晶片。DeepSeek和智谱AI等模型虽已成功在华为等国产晶片上进行推理任务,但在大规模的模型训练领域仍面临挑战。
美团在一份报告中坦言,与成熟的英伟达GPU生态系统相比,国产配套的软件生态仍欠发达;且国产晶片单片显存显著小于英伟达的H800,显存是一大瓶颈。
您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。