作加

AI时代的版权十字路口:Creative Commons为何为“付费爬取”按下支持键?


流量被吞噬,创作者在AI浪潮中挣扎求生

当你在ChatGPT或Perplexity中输入一个问题,几秒内就得到一段条理清晰、引经据典的回答——你有没有想过,这些答案从何而来?

它们的背后,是无数网站、博客、新闻平台和教育项目多年积累的公开内容。AI模型通过爬虫抓取这些数据进行训练,却几乎不再将用户导流回原始页面。结果是:内容仍在,但创作者失去了访问、曝光和收入

这场由生成式AI引发的“流量塌方”,正在让全球数百万独立创作者陷入生存危机。搜索引擎曾是内容的放大器,如今却成了AI公司的数据采集通道。据研究显示,许多新闻出版物的搜索流量已暴跌30%以上,中小型媒体尤其脆弱——没有广告议价权,没有法律团队去谈判授权协议,他们的声音正被AI悄悄抹去。

Creative Commons的“妥协”:为开放网络寻找新出路

就在这个节骨眼上,一个意想不到的声音站了出来:Creative Commons(CC) ——那个几十年来高举“知识共享”旗帜、倡导免费开放内容的非营利组织,罕见地表态支持一种名为“付费爬取(pay-to-crawl)”的新机制。

这不是倒戈,而是一次现实主义的转向。

CC在最新博客中坦言:“如果实施得当,付费爬取或许能帮助网站维持创作动力,避免更多内容被迫转入付费墙后,甚至彻底消失。”这句话背后,是对互联网生态崩塌的深切忧虑:当创作无法持续,开放也就失去了意义

什么是“付费爬取”?它如何运作?

简单来说,“付费爬取”就是:AI公司每访问一次网站用于训练模型,就得付一笔钱。就像水电按用量计费一样,你的内容被用了,就该获得回报。

这一模式由Cloudflare率先推动,其核心逻辑直击痛点:过去,网站愿意被Google索引,因为搜索带来点击和广告收入;但现在,AI直接把答案“打包”送给用户,原网站颗粒无收。“以内容换流量”的旧契约已经破产

而“付费爬取”试图建立新规则——让AI巨头为其数据使用买单。对于像《纽约时报》或Condé Nast这样的大型媒体,他们已有能力与OpenAI、Meta签订独家授权协议,获取可观收入。但全球还有数百万个小博主、独立记者、开源教育者,他们没有谈判资本。付费爬取若能实现自动化、标准化,可能成为他们的“数字基本收入”

警惕新垄断:开放的代价不能由公共利益承担

然而,CC的支持是有条件的——甚至是带着警惕的。

他们在声明中明确警告:如果设计不当,付费爬取可能加剧网络权力集中,变成只有大公司玩得起的游戏。更危险的是,它可能切断研究人员、教师、图书馆员、非营利组织对信息的访问。“公共利益不应被金钱挡在门外,”CC强调。

为此,他们提出五大“负责任付费爬取”原则:

  • 必须由内容方主动启用,不得默认开启;
  • 尊重网站自主权,不搞一刀切的强制规则;
  • 支持“限流”而非“封禁”,允许低频、非商业性爬取;
  • 保障学术、教育等公共用途的免费访问
  • 系统应开源、可互操作,避免形成新的技术壁垒。

新标准浮现:RSL能否成为AI时代的“新Robots.txt”?

真正令人振奋的进展,是一个名为 RSL(Really Simple Licensing)的新标准正在快速崛起。

RSL有点像升级版的robots.txt——网站可以通过它声明:“你可以爬我,但仅限于非商业用途”或“每次爬取需支付X美分”。但它不强制阻止爬虫,而是提供一种“声明即授权”的中间路径。

目前,三大CDN巨头——Cloudflare、Akamai、Fastly均已支持RSL;内容方如Yahoo、Ziff Davis、O’Reilly Media也已加入。而Creative Commons更是宣布将RSL纳入其“CC信号(CC Signals)”项目,致力于打造一套面向AI时代的内容授权与发现工具链。

这标志着一个关键转变:开放网络不再只是“免费”,而是“可控的开放”

结语:一场必要的实验

Creative Commons的立场转变,不是对理想的背叛,而是在AI重塑一切的现实中,为创作者争取生存空间的努力。

“付费爬取”未必是终极答案。它可能复杂、低效,甚至被滥用。但在当前这个节点,它是一场必须尝试的实验——在保护创作激励与维系信息开放之间,走出一条不至于崩塌的窄路。

否则,当最后一个独立博客因无力支撑而关闭,AI的答案再完美,也不过是建立在废墟上的幻象。毕竟,没有真实世界的内容,AI又能回答谁的问题?