一场关于数据归属的科技大战正在上演
社交媒体巨头 Reddit 正在向一家人工智能初创公司发起法律挑战,直指其“工业级”盗用平台内容。这场诉讼不仅关乎版权与授权,更可能成为生成式 AI 如何合法获取训练数据的关键判例。
本周三,Reddit 在纽约联邦法院正式对 AI 搜索引擎公司 Perplexity AI 提起诉讼,同时将三家关联技术企业列为共同被告:立陶宛的数据采集服务商 Oxylabs UAB、疑似源自俄罗斯的代理网络 AWMProxy,以及美国德州的搜索接口提供商 SerpApi。
被指控的“数据窃贼”链条
Reddit 在诉状中描绘了一条完整的“数据盗取链”。它指控这些公司联手绕过平台的安全防护,利用自动化工具大规模抓取其网站内容——尤其是用户发布的评论和讨论。这些信息随后被用于训练 Perplexity 的 AI 模型,并为其商业产品提供支持,而整个过程从未获得 Reddit 或用户的许可。
更为关键的是,原告方指出,被告并非直接爬取 Reddit 网站,而是通过谷歌搜索结果间接获取内容,并使用代理服务器隐藏真实 IP 地址,以此规避反爬虫机制。这种“迂回战术”让数据攫取行为更具隐蔽性,也凸显了当前 AI 训练中灰色地带的操作模式。
“我们不是银行劫匪,他们是”
Reddit 首席法律顾问 Ben Lee 用了一个尖锐的比喻来形容这一行为:“这些公司就像潜在的银行劫匪,试图闯入一辆满载珍贵货物的装甲车。”他强调,Reddit 所拥有的,是“全球规模最大、最活跃的人类对话集合”——这正是训练高质量 AI 模型不可或缺的资源。
但他也明确指出,问题不在于技术本身,而在于选择路径:“Perplexity 完全可以选择合法合作,但他们却选择了购买被盗的数据。”
事实上,Reddit 已经为合法使用铺好了道路。过去一年间,它已与 Google、OpenAI 等科技巨头达成内容授权协议,允许对方在支付费用的前提下使用其数据进行 AI 训练。这意味着,合规路径存在且开放,但 Perplexity 并未走这条路。
被告们的回应:公共数据不应被垄断
面对指控,各方反应不一。Perplexity 表示尚未收到正式诉讼文件,但承诺将“积极捍卫公众公平获取知识的权利”,并坚称公司在 AI 使用上始终保持负责任态度。
Oxylabs 和 SerpApi 均否认 wrongdoing,表示将全力应诉。Oxylabs 特别强调,公开可访问的数据不应被私有化或高价垄断,暗示这场争端背后是数据所有权的根本分歧。
而 AWMProxy 目前尚未作出公开回应。
第二起同类诉讼,一个时代的信号
这并非 Reddit 第一次采取法律行动。今年6月,它曾起诉另一家 AI 公司 Anthropic,理由同样是未经授权使用用户数据。如今再次出手,显示出平台在保护自身内容资产上的坚定立场。
随着生成式 AI 快速发展,训练数据的来源合法性正受到前所未有的 scrutiny(审查)。专家认为,此类案件或将重塑行业规则——未来的 AI 公司不能再理所当然地认为“能爬到的就是可用的”。
数据时代的“边界之战”
这场官司远不止是一场企业间的纠纷。它触及了一个核心问题:当人类的集体智慧成为 AI 的养料时,谁该拥有话语权?是创造内容的用户,管理社区的平台,还是开发模型的技术公司?
Reddit 正试图划清这条界限。无论此案最终结果如何,它都标志着一个新时代的到来——在 AI 高速狂奔的同时,数据的归属与授权,再也不能被忽视。