作加

国产芯片加持,京东开源xLLM引擎:大模型推理效率提升5倍,成本直降90%


近日,京东在人工智能基础设施领域迈出关键一步,正式开源了一款基于国产芯片自主研发的大模型推理引擎——xLLM。这款引擎不仅性能强劲,还大幅降低了部署成本,有望加速推动国产AI生态的发展。

xLLM的核心优势:更智能、更灵活、更高效

xLLM并非简单的推理工具,而是一套高度智能化的执行系统。其内置的动态调度器可以根据任务优先级智能分配计算资源,确保高价值请求优先处理。同时,引擎采用动态自适应的PD分离架构,能根据实时负载灵活调整处理实例比例,实现资源利用率最大化。

在多模态场景下,xLLM同样表现出色。它配备了EPD混合分离调度器,专为处理图像、文本、语音等复杂任务而设计,显著提升了AI应用的灵活性和响应能力。

技术架构深度优化,性能飞跃提升

在底层架构方面,xLLM充分利用国产芯片特性,构建了多级流水线执行引擎,可高效处理各类AI任务。开发团队还特别设计了一套计算优化套件,包括图融合、投机推理和动态负载均衡技术,极大提升了推理效率。

此外,xLLM还引入了基于Mooncake的多级KV缓存管理系统,实现了数据处理的高效管理与全局调度,让大模型运行更加流畅稳定。

来自实战的验证:效率提升5倍,成本降低90%

京东表示,xLLM并非实验室产物,而是源于其核心零售业务的实际需求。目前该引擎已在多个场景中落地应用,包括京东AI助手、智能客服、风控系统、供应链助手等。实际数据显示,系统效率提升了超过5倍,而机器成本却降低了90%,展现出极强的实用价值。

开源共建生态,携手高校推动国产AI发展

京东零售AI基础设施团队表示:“我们坚信,AI基础设施的生态建设离不开每一位开发者的参与。开源只是开始,未来我们将根据社区反馈,逐步开放更多高级功能,并与清华、北大、中科大等产学研伙伴携手,共同推动国产AI技术的持续创新。”

随着xLLM的开源,开发者和企业将有机会亲身体验这一高性能推理引擎的强大能力,同时也为国产AI基础设施的发展注入了新的活力。