Reddit打响数据保卫战：起诉AI公司非法抓取数百万用户评论

一场关于数据归属的科技大战正在上演

社交媒体巨头 Reddit 正在向一家人工智能初创公司发起法律挑战，直指其“工业级”盗用平台内容。这场诉讼不仅关乎版权与授权，更可能成为生成式 AI 如何合法获取训练数据的关键判例。

本周三，Reddit 在纽约联邦法院正式对 AI 搜索引擎公司 Perplexity AI 提起诉讼，同时将三家关联技术企业列为共同被告：立陶宛的数据采集服务商 Oxylabs UAB、疑似源自俄罗斯的代理网络 AWMProxy，以及美国德州的搜索接口提供商 SerpApi。

被指控的“数据窃贼”链条

Reddit 在诉状中描绘了一条完整的“数据盗取链”。它指控这些公司联手绕过平台的安全防护，利用自动化工具大规模抓取其网站内容——尤其是用户发布的评论和讨论。这些信息随后被用于训练 Perplexity 的 AI 模型，并为其商业产品提供支持，而整个过程从未获得 Reddit 或用户的许可。

更为关键的是，原告方指出，被告并非直接爬取 Reddit 网站，而是通过谷歌搜索结果间接获取内容，并使用代理服务器隐藏真实 IP 地址，以此规避反爬虫机制。这种“迂回战术”让数据攫取行为更具隐蔽性，也凸显了当前 AI 训练中灰色地带的操作模式。

“我们不是银行劫匪，他们是”

Reddit 首席法律顾问 Ben Lee 用了一个尖锐的比喻来形容这一行为：“这些公司就像潜在的银行劫匪，试图闯入一辆满载珍贵货物的装甲车。”他强调，Reddit 所拥有的，是“全球规模最大、最活跃的人类对话集合”——这正是训练高质量 AI 模型不可或缺的资源。

但他也明确指出，问题不在于技术本身，而在于选择路径：“Perplexity 完全可以选择合法合作，但他们却选择了购买被盗的数据。”

事实上，Reddit 已经为合法使用铺好了道路。过去一年间，它已与 Google、OpenAI 等科技巨头达成内容授权协议，允许对方在支付费用的前提下使用其数据进行 AI 训练。这意味着，合规路径存在且开放，但 Perplexity 并未走这条路。

被告们的回应：公共数据不应被垄断

面对指控，各方反应不一。Perplexity 表示尚未收到正式诉讼文件，但承诺将“积极捍卫公众公平获取知识的权利”，并坚称公司在 AI 使用上始终保持负责任态度。

Oxylabs 和 SerpApi 均否认 wrongdoing，表示将全力应诉。Oxylabs 特别强调，公开可访问的数据不应被私有化或高价垄断，暗示这场争端背后是数据所有权的根本分歧。

而 AWMProxy 目前尚未作出公开回应。

第二起同类诉讼，一个时代的信号

这并非 Reddit 第一次采取法律行动。今年6月，它曾起诉另一家 AI 公司 Anthropic，理由同样是未经授权使用用户数据。如今再次出手，显示出平台在保护自身内容资产上的坚定立场。

随着生成式 AI 快速发展，训练数据的来源合法性正受到前所未有的 scrutiny（审查）。专家认为，此类案件或将重塑行业规则——未来的 AI 公司不能再理所当然地认为“能爬到的就是可用的”。

数据时代的“边界之战”

这场官司远不止是一场企业间的纠纷。它触及了一个核心问题：当人类的集体智慧成为 AI 的养料时，谁该拥有话语权？是创造内容的用户，管理社区的平台，还是开发模型的技术公司？

Reddit 正试图划清这条界限。无论此案最终结果如何，它都标志着一个新时代的到来——在 AI 高速狂奔的同时，数据的归属与授权，再也不能被忽视。

Reddit打响数据保卫战：起诉AI公司非法抓取数百万用户评论

一场关于数据归属的科技大战正在上演

被指控的“数据窃贼”链条

“我们不是银行劫匪，他们是”

被告们的回应：公共数据不应被垄断

第二起同类诉讼，一个时代的信号

数据时代的“边界之战”

AI视频革命再提速：1亿元重磅投资背后，实时交互影像时代已来

AI眼镜登场：当千问“住进”眼镜，我们离“赛博伙伴”还有多远？

DeepSeek V4来了！国产多模态大模型首次原生支持“图+文+视频”一键生成

吞吐翻倍、延迟砍半？这家谷歌TPU老兵创立的芯片公司，正用“可分割脉动阵列”重写大模型推理规则

马斯克的星际算力野心：特斯拉Dojo3重启，目标是把AI送上太空

五大真正重要的AI工作流：谷歌最新实践深度解析

一场关于数据归属的科技大战正在上演

被指控的“数据窃贼”链条

“我们不是银行劫匪，他们是”

被告们的回应：公共数据不应被垄断

第二起同类诉讼，一个时代的信号

数据时代的“边界之战”

类似文章