OpenAI亮新招：不用向量的RAG来了！

喂喂喂，各位AI发烧友们，你们有没有想过，怎么能让AI在浩如烟海的文档里，像个超能小助手一样，精准找到咱们要的答案？传统搞法往往绕不开“向量化”这一步，简单说就是把文字变成计算机好理解的数字列表。但OpenAI最近就展示了一种挺神的RAG（检索增强生成）技术，居然不用咱们头疼的“向量化”！

大家可能知道，传统的RAG技术，很多时候都要先把海量文本转换成一堆数字，也就是“向量化”，方便AI去匹配内容。但OpenAI这个新例子，愣是绕过了这一步，也能达到类似的效果，主要用在智能客服领域，让大模型能从巨型文档里淘金，精准回答用户提问。比如，他们演示了一个基于一个超大PDF法律文件的知识问答系统。

那这到底是怎么玩的呢？过程大概是这样的：

文档“搬运工”：首先，系统会把那本厚厚的“天书”（比如一个上千页的法律文件PDF，演示中处理了前920页）里的内容一股脑儿提取出来，变成一长串的文字。
“庖丁解牛”与“火眼金睛”：这步是核心，而且会重复好几次！
- 一开始，AI会把文档内容大致切成几大块（比如代码里是20块）。
- 然后，把这些大块连同用户的问题一起“喂”给语言模型，让它从中挑出和问题最相关的部分。
- 挑出来的这些“精华”部分，会被再次细切成更小的片段，然后重复上面的筛选过程。
- 这个“切了又选，选了再切”的迭代过程（演示里重复了三次），能让模型一步步把焦点缩小到最最关键的那些段落上。特别有意思的是，模型每次“思考”的痕迹（也就是所谓的scratchpad）还会被保存下来，传递到下一轮，帮助它越来越精确。
“答案组织者”：当最相关的核心内容片段被筛选出来后，它们会和用户最初的问题一起被发送给语言模型，生成一个初步的答案。
“质量把关员”：别急，还没完！这个刚出炉的答案，连同用户的问题以及AI参考的那些原文片段，会再被送到另一个模型（或者由同一个模型扮演“审查员”角色）那里去“政审”。主要是检查答案是不是准确，是不是真的有原文依据，防止AI“一本正经地胡说八道”。审查后，可能还会给出一个“靠谱指数”（置信度评分）。

在这个OpenAI的例子中，不同的阶段还派上了不同的“选手”：

内容筛选：用的是GPT-4.1 mini。为啥是它？因为它“肚子大”，能容纳超多文字（100万token的上下文窗口呢！），而且相对便宜。那个93万token的示例文档，它刚好能吃下。
答案生成：这个光荣的任务交给了GPT-4.1。这时候追求的是答案的准确性，既然内容都筛得差不多了，成本压力就小一些了。
答案核验：负责最后把关的是O4，它的推理能力很强，特别适合判断答案到底准不准。

这种新方法，有人说已经有点“Agentic RAG”（智能体RAG）的意思了。

那么，它比传统RAG好在哪呢？

最直接的，不用预先搞什么向量化，省事儿！
文档内容有改动？即时生效，不用等重新处理。
它更像是模拟人看书找答案的过程，理论上，准确度可能会更高。
能查询的内容范围也更广。

当然，凡事有利有弊：

花钱如流水：每次查询的成本可不低（演示中跑一次就花了0.36美元）。
心急吃不了热豆腐：查询时间可能会长一些。
“胃口”再大也有上限：如果文档实在太太太长，token数量超出了模型能处理的极限，那就算是加载时做些调整，也还是无能为力。

OpenAI的这个“免向量RAG”探索真的让人眼前一亮！虽然目前看，成本和效率还是个挑战，但它为我们怎么从超大型文档里挖掘信息、理解内容，打开了一扇新的大门，未来可期啊！

OpenAI亮新招：不用向量的RAG来了！

更多文章

智能浏览器对决：OpenAI Atlas 与 Perplexity Comet 的实战较量

AI时代存储革命：SK海力士发布全新“AI-NAND”系列

AI视频革命再提速：豆包新模型10秒生成5秒高清片，成本暴降72%

让AI走进终端：Kimi CLI开启命令行智能新纪元