多模态检索增强
先说结论
多模态检索增强是指在 RAG 系统中,不只检索纯文本片段,而是同时处理图像、表格、文档版面、音视频帧和跨模态表示,让模型能够基于更完整的证据回答问题。
为什么我会单独记这一篇
传统 RAG 默认假设知识都能被切成纯文本 chunk,但真实世界里大量关键证据并不是纯文本:
- 图表中的趋势和数值关系在纯文本里会丢失。
- 表格的行列结构一旦摊平成文本,检索和问答都容易出错。
- 截图、票据、合同版面和 PDF 页面有强布局信息。
- 视频和语音中的时序信息无法靠单个文本段完整表达。
多模态检索增强的目标,是把“能看见、能定位、能跨模态对齐”的证据链接入 RAG。
核心模式
图文检索
- 输入可能是文本查图、图查图、图查文、图文混合查询。
- 常见方法是使用统一图文嵌入空间,把图像和文本投射到同一向量空间中检索。
- 典型场景:
- 商品图搜同款
- 截图问答
- 图表检索
- 视觉知识库问答
表格检索
- 表格不是普通文本,其核心价值来自行列关系、表头和单元格上下文。
- 常见做法:
- 保留表格结构后生成结构化表示
- 将表格转换成 cell-level / row-level / table-level 多粒度索引
- 检索后再结合表格问答模型或 LLM 做归纳
- 典型场景:
- 财务表问答
- 报表指标归因
- 票据和表单抽取
跨模态嵌入
- 用统一 embedding 模型对文本、图像甚至文档页面生成可比较向量。
- 这样系统可以支持:
- 文本问题检索图片证据
- 图片内容检索文本说明
- 文档页面与文本段落联合召回
典型系统架构
多模态数据源
├── 文本 / PDF / 网页
├── 图像 / 截图 / 图表
├── 表格 / 报表
└── 音视频 / 帧序列
↓
解析与结构保留
├── OCR / Layout Parsing
├── Table Parsing
├── Image Caption / Region Features
└── Frame Sampling / ASR
↓
多粒度索引与嵌入
├── text chunks
├── image embeddings
├── table units
└── page / frame embeddings
↓
混合召回 + 重排
↓
LLM / VLM 生成回答
↓
引用证据位置
设计时真正要权衡什么
- 统一嵌入 vs 模块化检索:统一嵌入简单,但细粒度结构控制较弱;模块化方案更复杂但可控。
- 页面级索引 vs 区域级索引:页面级实现简单,区域级更精确但索引和标注成本更高。
- 先转文本再检索 vs 原生多模态检索:前者工程成本低,后者能保留更多视觉和结构信息。
- 召回广度 vs 重排复杂度:多模态召回空间更大,重排和证据选择更关键。
- 检索可用性 vs 成本:图像、版面和表格嵌入通常比纯文本更昂贵。
容易踩的坑
- 只做 OCR,把图表和表格结构全部丢平。
- 图像召回正确,但回答时没有引用到具体区域或页面。
- 表格问答忽略单位、表头和时间维度,导致答案错误。
- 文本和图像索引完全独立,跨模态检索能力弱。
- 视频场景只抽少量关键帧,丢失时序信息。
工程落地时我会怎么做
- 文档类任务优先保留版面、表格和页码结构,不要先粗暴转成纯文本。
- 对图像、页面、表格分别建立多粒度索引:document-level、page-level、region-level、row-level。
- 多模态系统默认返回证据位置,如页码、框选区域、表格单元格坐标。
- 对财务、合同、报表类场景增加单位、时间、表头一致性校验。
- 混合使用文本检索、结构检索和跨模态向量检索,而不是只押注单一路径。
- 建立专项评测集,覆盖图文问答、图表理解、表格问答、截图理解和文档定位。
如果要对外讲,可以怎么概括
“多模态 RAG 的核心不是把图片喂给模型,而是让检索阶段也具备多模态能力。传统 RAG 最大的问题是把一切都压扁成文本,导致图表、表格和版面信息丢失。真正落地时,我会优先保留结构、做多粒度索引、让系统返回证据位置,并把文本检索和跨模态检索结合起来。”
最后记几条
- 多模态 RAG 解决的是纯文本 RAG 的证据损失问题。
- 图文检索、表格检索和跨模态嵌入是三条核心能力线。
- 表格和版面结构保留比单纯 OCR 更重要。
- 多粒度索引通常比单一粒度更稳。
- 高质量系统必须能引用证据位置,而不是只给结论。
参考资料
- OpenAI Images and vision guide
- OpenAI vision fine-tuning
- Azure Document Intelligence markdown elements
- Anthropic Citations API
- ColPali: Efficient Document Retrieval with Vision Language Models
- RAG-Anything