多模态检索增强

先说结论

多模态检索增强是指在 RAG 系统中，不只检索纯文本片段，而是同时处理图像、表格、文档版面、音视频帧和跨模态表示，让模型能够基于更完整的证据回答问题。

为什么我会单独记这一篇

传统 RAG 默认假设知识都能被切成纯文本 chunk，但真实世界里大量关键证据并不是纯文本：

图表中的趋势和数值关系在纯文本里会丢失。
表格的行列结构一旦摊平成文本，检索和问答都容易出错。
截图、票据、合同版面和 PDF 页面有强布局信息。
视频和语音中的时序信息无法靠单个文本段完整表达。

多模态检索增强的目标，是把“能看见、能定位、能跨模态对齐”的证据链接入 RAG。

核心模式

图文检索

输入可能是文本查图、图查图、图查文、图文混合查询。
常见方法是使用统一图文嵌入空间，把图像和文本投射到同一向量空间中检索。
典型场景：
- 商品图搜同款
- 截图问答
- 图表检索
- 视觉知识库问答

表格检索

表格不是普通文本，其核心价值来自行列关系、表头和单元格上下文。
常见做法：
- 保留表格结构后生成结构化表示
- 将表格转换成 cell-level / row-level / table-level 多粒度索引
- 检索后再结合表格问答模型或 LLM 做归纳
典型场景：
- 财务表问答
- 报表指标归因
- 票据和表单抽取

跨模态嵌入

用统一 embedding 模型对文本、图像甚至文档页面生成可比较向量。
这样系统可以支持：
- 文本问题检索图片证据
- 图片内容检索文本说明
- 文档页面与文本段落联合召回

典型系统架构

多模态数据源
  ├── 文本 / PDF / 网页
  ├── 图像 / 截图 / 图表
  ├── 表格 / 报表
  └── 音视频 / 帧序列
            ↓
     解析与结构保留
  ├── OCR / Layout Parsing
  ├── Table Parsing
  ├── Image Caption / Region Features
  └── Frame Sampling / ASR
            ↓
     多粒度索引与嵌入
  ├── text chunks
  ├── image embeddings
  ├── table units
  └── page / frame embeddings
            ↓
     混合召回 + 重排
            ↓
     LLM / VLM 生成回答
            ↓
       引用证据位置

设计时真正要权衡什么

统一嵌入 vs 模块化检索：统一嵌入简单，但细粒度结构控制较弱；模块化方案更复杂但可控。
页面级索引 vs 区域级索引：页面级实现简单，区域级更精确但索引和标注成本更高。
先转文本再检索 vs 原生多模态检索：前者工程成本低，后者能保留更多视觉和结构信息。
召回广度 vs 重排复杂度：多模态召回空间更大，重排和证据选择更关键。
检索可用性 vs 成本：图像、版面和表格嵌入通常比纯文本更昂贵。

容易踩的坑

只做 OCR，把图表和表格结构全部丢平。
图像召回正确，但回答时没有引用到具体区域或页面。
表格问答忽略单位、表头和时间维度，导致答案错误。
文本和图像索引完全独立，跨模态检索能力弱。
视频场景只抽少量关键帧，丢失时序信息。

工程落地时我会怎么做

文档类任务优先保留版面、表格和页码结构，不要先粗暴转成纯文本。
对图像、页面、表格分别建立多粒度索引：document-level、page-level、region-level、row-level。
多模态系统默认返回证据位置，如页码、框选区域、表格单元格坐标。
对财务、合同、报表类场景增加单位、时间、表头一致性校验。
混合使用文本检索、结构检索和跨模态向量检索，而不是只押注单一路径。
建立专项评测集，覆盖图文问答、图表理解、表格问答、截图理解和文档定位。

如果要对外讲，可以怎么概括

“多模态 RAG 的核心不是把图片喂给模型，而是让检索阶段也具备多模态能力。传统 RAG 最大的问题是把一切都压扁成文本，导致图表、表格和版面信息丢失。真正落地时，我会优先保留结构、做多粒度索引、让系统返回证据位置，并把文本检索和跨模态检索结合起来。”

最后记几条

多模态 RAG 解决的是纯文本 RAG 的证据损失问题。
图文检索、表格检索和跨模态嵌入是三条核心能力线。
表格和版面结构保留比单纯 OCR 更重要。
多粒度索引通常比单一粒度更稳。
高质量系统必须能引用证据位置，而不是只给结论。

多模态检索增强

多模态检索增强

先说结论

为什么我会单独记这一篇

核心模式

图文检索

表格检索

跨模态嵌入

典型系统架构

设计时真正要权衡什么

容易踩的坑

工程落地时我会怎么做

如果要对外讲，可以怎么概括

最后记几条

参考资料

延伸阅读