开源模型来袭,企业智能服务迎来新变革
在人工智能应用日益深入企业服务的今天,如何准确理解用户意图、提供精准回答成为关键挑战。近日,腾讯优图实验室重磅推出开源文本表示模型 Youtu-Embedding,专为企业级智能客服、知识库管理和检索增强生成(RAG)系统打造,助力企业大幅提升服务效率与准确性。
为何需要Youtu-Embedding?
当前,许多大型语言模型在通用语料上表现优异,但在特定领域(如法律、医疗)中却常常“跑偏”,给出与企业知识库不匹配的回答。这不仅影响用户体验,也降低了智能客服的可信度。
Youtu-Embedding 的诞生正是为了解决这一难题。该模型从零开始训练,基于高达3万亿 Token 的中英文语料,打下了坚实的语言理解基础。更重要的是,腾讯还引入了大量人工标注数据,确保模型在实际业务场景中具备高度适用性。
精准理解用户意图,靠的是“弱监督+多任务”双引擎
为了提升模型对用户意图的识别能力,腾讯采用了大规模弱监督训练策略。这种训练方式让 Youtu-Embedding 能识别不同表达方式但相同意图的句子。例如,“这款产品保修多久?”和“坏了可以免费修吗?”虽然表述不同,但都指向保修政策,模型能在语义空间中将它们归类为相似问题。
此外,腾讯还构建了一套创新的多任务微调框架。通过统一的数据格式和差异化损失函数,Youtu-Embedding 可以同时提升文本相似度计算、信息检索和分类任务的表现。而动态采样机制则让模型在训练过程中更合理地分配资源,实现各项任务的均衡发展。
实力认证:CMTEB 上表现亮眼
Youtu-Embedding 在中文语义评测基准 CMTEB 上取得了 77.46 分 的高分,稳居中文语义模型前列。这一成绩充分体现了其在语义理解方面的强大能力。
该模型适用于多种企业场景,包括:
– 智能问答系统
– 内容推荐引擎
– 知识库管理
– 检索增强生成系统(RAG)
尤其是在构建 RAG 系统时,Youtu-Embedding 展现出极高的潜力,为提升生成内容的准确性和相关性提供了有力支撑。
更多开源项目,推动AI应用快速发展
Youtu-Embedding 是腾讯优图实验室开源生态中的重要一环。除了它之外,腾讯还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目,持续为开发者提供丰富的工具和资源,加速 AI 技术在企业中的落地与创新。
想要体验 Youtu-Embedding?访问项目主页:https://github.com/TencentCloudADP/youtu-embedding