作加

中文互联网语料库重磅升级!3.0版本发布,AI训练迎来高质量数据新纪元


语料库升级至120GB,助力AI技术腾飞

在2025年国家网络安全宣传周的人工智能安全治理分论坛上,一项重磅成果正式亮相——中文互联网基础语料3.0版本正式发布。这一版本的数据总量高达120GB,标志着我国在人工智能底层数据建设方面迈出了坚实一步,为大模型训练和AI技术发展提供了强有力的数据支撑。

此次语料库的发布是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心联合推进的成果。同时,得益于企业、高校与科研机构的深度协作,语料3.0在建设过程中充分发挥了人工智能安全治理专委会所建立的语料共建共享机制,实现了多方资源的高效整合。

更广、更精、更安全的数据来源

相较于前两代版本,3.0在信源覆盖范围上有了显著拓展,不仅收录了更多优质中文内容,还通过一系列严格的数据处理流程,包括信源筛选、内容过滤和数据去重,确保语料的质量和安全性。这些措施有效过滤了违法和不良信息,为AI研究和应用构建了一个更加健康、可信的数据环境。

开放获取,推动技术共享

用户可通过访问中国网络空间安全协会官网,进入“中文互联网语料资源平台”页面,完成注册与身份认证后即可下载语料。平台负责人表示,语料3.0的上线不仅是多方协作的成果展示,更预示着未来中文语料建设将持续推进,以支撑人工智能领域的技术创新与产业落地。

此次升级不仅为AI发展注入了新动能,也为语言模型、自然语言处理等前沿领域提供了更加扎实的数据基础。随着语料体系不断完善,中文在人工智能全球竞争中的地位也将进一步巩固。