
美国人工智能公司Anthropic日前指控中国科技巨头阿里巴巴非法提取其Claude模型的能力,并称这是公司迄今遇到规模最大的同类攻击。据报道,Anthropic在一封致美国国会参议院银行委员会的信函中说,与阿里巴巴及其通义千问实验室有关的操作者,在今年4月22日至6月5日之间,通过近2万5000个欺诈账户,与Claude进行了超过2880万次交互,矛头直指模型的软件工程与代理推理能力。阿里巴巴方面暂未对这项指控作出回应。
信中把这种做法称为“蒸馏”(distillation)。身为一个日常也在训练模型的人,我想先把这个词从指控的语境里抽出来,平心静气地说一遍。蒸馏本是机器学习里一项中性的技术:拿一个更强模型的输出,去训练一个能力较弱的模型,让后者以更低成本,逼近前者的表现。它在学界与业界稀松平常,本身并无原罪。
Anthropic指控的其实不是蒸馏这回事,而是它的规模、手段,以及它所绕开的那道边界——动用数以万计的欺诈账户,规避“产品不得在中国境内使用”的地理限制,工业化地提取能力。把技术与滥用分开来看,是讨论这件事的第一步,否则很容易把一个中性的工具,错当成罪证本身。
然而,若把眼光放远一点,模仿其实是学习最古老的样子。中华书画的每一位大家,几乎都从临摹起步;牛顿说,自己不过是站在巨人肩膀上。人类的全部学问,本就是一场漫长的、彼此借力的接力。也正因此,一个古老的追问从未止息:临摹到哪一步,就成了赝品?模仿到哪一刻,就成了窃取?这条线,人类划了千年也未能划得分明。机器并没有替我们回答,只是把问题逼到眼前——当那个“学习者”不再是一名伏案的学生,而是一套以工业规模昼夜汲取的系统时,那条本就模糊的界线,忽然变得再也躲不开。
被同时拉扯的三个环节
回到法律。生成式人工智能(AI)叫版权法为难的地方在于,它在三个迥然不同的环节上被同时拉扯,这三处各有各的逻辑,把它们混为一谈,正是眼下许多争论说不清楚的根源。
其一是“输入”,也就是训练数据的取得与使用,这是目前判例最集中之处。2025年6月,美国加利福尼亚州北区联邦法院法官阿尔苏普,在Bartz诉Anthropic一案中裁定:以合法取得的版权书籍训练模型,构成“本质上变革性”的合理使用,但从盗版库下载并长期保存数百万册书籍,则不属合理使用。此案后来以15亿美元(约19亿4000万新元)达成和解,据报道是美国史上规模最大的版权追偿。这里有一个被许多报道读漏的细节:和解针对的是“盗版取得”这个动作,而非“用于训练”这个用途——Anthropic也始终没有承认侵权责任。
其二是“模型本身”,即被习得的那份“能力”。这恰恰是版权法最使不上力的环节。版权保护的是“表达”,不保护事实、方法与统计规律,而模型权重里编码的,正是模式,不是作品。这也解释了一个耐人寻味的选择:Anthropic指控阿里巴巴蒸馏,走的不是版权诉讼,而是致函参议员、诉诸国家安全。一家公司绕过法院去找立法者,往往说明法律在这一处,留着一段空白。
其三是“输出”,也就是生成内容本身会不会侵权。这一环跟一般使用者关系最近,却最少被提起:哪怕训练属于合理使用,使用AI生成内容的人,仍要为输出里的侵权独立担责。换句话说,法律的天平在三个环节上各偏一边——输入偏向开发者,输出偏向权利人,模型本身则悬在半空。
同一道题,四种答案
更值得细想的是,面对同一道题,世界给出四种互不相容的答案。美国没有专门条文,靠“合理使用”逐案权衡,确定性低、诉讼风险高。欧盟设有文本与数据挖掘例外,却配上让权利人“选择退出”的机制,再叠加《人工智能法案》对训练数据的透明度要求,天平向创作者倾斜。日本《著作权法》第30-4条十分宽松,商业用途也可,甚至不以“合法访问”为前提,被视为全球对AI训练最友善的法域之一。澳大利亚则在2025年10月明确拒绝引入这类例外,坚持许可与创作者同意。
本地的选择介于其间,却自有分寸。新加坡2021年修订的《版权法》引入第244条“计算数据分析”例外,允许包括商业用途在内的数据分析,连合约也不能将它排除——这是亲创新的一面;但它同时留下一道关键的闸门:使用者必须拥有“合法访问”(lawful access)。条文还特地举例:若某些内容只能通过付费订阅取得,绕过付费墙就不算合法访问。
这正是最耐人寻味之处。Bartz案的裂缝,落在“合法取得”;本地第244条的限制,落在“合法访问”——两套相隔万里、传统迥异的法律,竟不约而同地,把同一个问题挑出来当作分界线:数据,到底从哪里来。无论规则如何宽松,来源是否正当,始终是那道绕不过去的坎。这也恰好与可验证、可追溯的工程原则暗合:一份抹去来源的能力,对应的正是一笔无从裁断的归属。
对新加坡这座以法治与开放立身的城市而言,启示或许就在这里。当各大经济体以各自的法律相互筑墙,一种“既向创新打开大门,又为来源守住底线”的务实平衡,可能正是枢纽的安身之道。第244条那道“合法访问”的闸门,与其说是给AI开发者设限,不如说是替整座城市立下一条可被信赖的规矩:在这里,数据可以自由流动,但流动得有来路、有交代。这种“开放不等于无序”的分寸,恰是一个中立经济体最难得,也最值钱的资产——它换来的不是某一笔生意,而是一种长期的可预期性,让各方都愿意把数据、把模型、把研发,放心地落在这里。把“来源正当、出处可溯”做成基础设施一般的能力,或许才是更务实,也更长久的立身之本。说到底,枢纽靠的从来不是站得离谁更近,而是让所有人都信得过它。
临摹了千年,那个最根本的问题从未改变——你借来的东西,有没有一条光明正大的来路。一个企业甚至一个国家能否在这场争议里站稳,或许取决于它能否守住那道安静,却无论如何绕不过的分界线。临摹也好,蒸馏也罢,技术会一代代翻新,那道线却始终在原地,等着每一个走到它面前的人作答——来源,是否正当。
作者是本地法律科技公司首席技术官