丁波：从临摹到蒸馏：那道绕不过的分界线

美国人工智能公司Anthropic日前指控中国科技巨头阿里巴巴非法提取其Claude模型的能力，并称这是公司迄今遇到规模最大的同类攻击。据报道，Anthropic在一封致美国国会参议院银行委员会的信函中说，与阿里巴巴及其通义千问实验室有关的操作者，在今年4月22日至6月5日之间，通过近2万5000个欺诈账户，与Claude进行了超过2880万次交互，矛头直指模型的软件工程与代理推理能力。阿里巴巴方面暂未对这项指控作出回应。

信中把这种做法称为“蒸馏”（distillation）。身为一个日常也在训练模型的人，我想先把这个词从指控的语境里抽出来，平心静气地说一遍。蒸馏本是机器学习里一项中性的技术：拿一个更强模型的输出，去训练一个能力较弱的模型，让后者以更低成本，逼近前者的表现。它在学界与业界稀松平常，本身并无原罪。

Anthropic指控的其实不是蒸馏这回事，而是它的规模、手段，以及它所绕开的那道边界——动用数以万计的欺诈账户，规避“产品不得在中国境内使用”的地理限制，工业化地提取能力。把技术与滥用分开来看，是讨论这件事的第一步，否则很容易把一个中性的工具，错当成罪证本身。

然而，若把眼光放远一点，模仿其实是学习最古老的样子。中华书画的每一位大家，几乎都从临摹起步；牛顿说，自己不过是站在巨人肩膀上。人类的全部学问，本就是一场漫长的、彼此借力的接力。也正因此，一个古老的追问从未止息：临摹到哪一步，就成了赝品？模仿到哪一刻，就成了窃取？这条线，人类划了千年也未能划得分明。机器并没有替我们回答，只是把问题逼到眼前——当那个“学习者”不再是一名伏案的学生，而是一套以工业规模昼夜汲取的系统时，那条本就模糊的界线，忽然变得再也躲不开。

被同时拉扯的三个环节

回到法律。生成式人工智能（AI）叫版权法为难的地方在于，它在三个迥然不同的环节上被同时拉扯，这三处各有各的逻辑，把它们混为一谈，正是眼下许多争论说不清楚的根源。

其一是“输入”，也就是训练数据的取得与使用，这是目前判例最集中之处。2025年6月，美国加利福尼亚州北区联邦法院法官阿尔苏普，在Bartz诉Anthropic一案中裁定：以合法取得的版权书籍训练模型，构成“本质上变革性”的合理使用，但从盗版库下载并长期保存数百万册书籍，则不属合理使用。此案后来以15亿美元（约19亿4000万新元）达成和解，据报道是美国史上规模最大的版权追偿。这里有一个被许多报道读漏的细节：和解针对的是“盗版取得”这个动作，而非“用于训练”这个用途——Anthropic也始终没有承认侵权责任。

其二是“模型本身”，即被习得的那份“能力”。这恰恰是版权法最使不上力的环节。版权保护的是“表达”，不保护事实、方法与统计规律，而模型权重里编码的，正是模式，不是作品。这也解释了一个耐人寻味的选择：Anthropic指控阿里巴巴蒸馏，走的不是版权诉讼，而是致函参议员、诉诸国家安全。一家公司绕过法院去找立法者，往往说明法律在这一处，留着一段空白。

其三是“输出”，也就是生成内容本身会不会侵权。这一环跟一般使用者关系最近，却最少被提起：哪怕训练属于合理使用，使用AI生成内容的人，仍要为输出里的侵权独立担责。换句话说，法律的天平在三个环节上各偏一边——输入偏向开发者，输出偏向权利人，模型本身则悬在半空。

同一道题，四种答案

更值得细想的是，面对同一道题，世界给出四种互不相容的答案。美国没有专门条文，靠“合理使用”逐案权衡，确定性低、诉讼风险高。欧盟设有文本与数据挖掘例外，却配上让权利人“选择退出”的机制，再叠加《人工智能法案》对训练数据的透明度要求，天平向创作者倾斜。日本《著作权法》第30-4条十分宽松，商业用途也可，甚至不以“合法访问”为前提，被视为全球对AI训练最友善的法域之一。澳大利亚则在2025年10月明确拒绝引入这类例外，坚持许可与创作者同意。

本地的选择介于其间，却自有分寸。新加坡2021年修订的《版权法》引入第244条“计算数据分析”例外，允许包括商业用途在内的数据分析，连合约也不能将它排除——这是亲创新的一面；但它同时留下一道关键的闸门：使用者必须拥有“合法访问”（lawful access）。条文还特地举例：若某些内容只能通过付费订阅取得，绕过付费墙就不算合法访问。

这正是最耐人寻味之处。Bartz案的裂缝，落在“合法取得”；本地第244条的限制，落在“合法访问”——两套相隔万里、传统迥异的法律，竟不约而同地，把同一个问题挑出来当作分界线：数据，到底从哪里来。无论规则如何宽松，来源是否正当，始终是那道绕不过去的坎。这也恰好与可验证、可追溯的工程原则暗合：一份抹去来源的能力，对应的正是一笔无从裁断的归属。

对新加坡这座以法治与开放立身的城市而言，启示或许就在这里。当各大经济体以各自的法律相互筑墙，一种“既向创新打开大门，又为来源守住底线”的务实平衡，可能正是枢纽的安身之道。第244条那道“合法访问”的闸门，与其说是给AI开发者设限，不如说是替整座城市立下一条可被信赖的规矩：在这里，数据可以自由流动，但流动得有来路、有交代。这种“开放不等于无序”的分寸，恰是一个中立经济体最难得，也最值钱的资产——它换来的不是某一笔生意，而是一种长期的可预期性，让各方都愿意把数据、把模型、把研发，放心地落在这里。把“来源正当、出处可溯”做成基础设施一般的能力，或许才是更务实，也更长久的立身之本。说到底，枢纽靠的从来不是站得离谁更近，而是让所有人都信得过它。

临摹了千年，那个最根本的问题从未改变——你借来的东西，有没有一条光明正大的来路。一个企业甚至一个国家能否在这场争议里站稳，或许取决于它能否守住那道安静，却无论如何绕不过的分界线。临摹也好，蒸馏也罢，技术会一代代翻新，那道线却始终在原地，等着每一个走到它面前的人作答——来源，是否正当。

作者是本地法律科技公司首席技术官

您查看的内容可能不完整，部分内容和推荐被拦截！请对本站关闭广告拦截和阅读模式，或使用自带浏览器后恢复正常。