2023年6月26日

多模态检索增强

多模态检索增强是指在 RAG 系统中,不只检索纯文本片段,而是同时处理图像、表格、文档版面、音视频帧和跨模态表示,让模型能够基于更完整的证据回答问题。

知识库大模型检索增强ragmultimodal

多模态检索增强

先说结论

多模态检索增强是指在 RAG 系统中,不只检索纯文本片段,而是同时处理图像、表格、文档版面、音视频帧和跨模态表示,让模型能够基于更完整的证据回答问题。

为什么我会单独记这一篇

传统 RAG 默认假设知识都能被切成纯文本 chunk,但真实世界里大量关键证据并不是纯文本:

  1. 图表中的趋势和数值关系在纯文本里会丢失。
  2. 表格的行列结构一旦摊平成文本,检索和问答都容易出错。
  3. 截图、票据、合同版面和 PDF 页面有强布局信息。
  4. 视频和语音中的时序信息无法靠单个文本段完整表达。

多模态检索增强的目标,是把“能看见、能定位、能跨模态对齐”的证据链接入 RAG。

核心模式

图文检索

  • 输入可能是文本查图、图查图、图查文、图文混合查询。
  • 常见方法是使用统一图文嵌入空间,把图像和文本投射到同一向量空间中检索。
  • 典型场景:
    • 商品图搜同款
    • 截图问答
    • 图表检索
    • 视觉知识库问答

表格检索

  • 表格不是普通文本,其核心价值来自行列关系、表头和单元格上下文。
  • 常见做法:
    • 保留表格结构后生成结构化表示
    • 将表格转换成 cell-level / row-level / table-level 多粒度索引
    • 检索后再结合表格问答模型或 LLM 做归纳
  • 典型场景:
    • 财务表问答
    • 报表指标归因
    • 票据和表单抽取

跨模态嵌入

  • 用统一 embedding 模型对文本、图像甚至文档页面生成可比较向量。
  • 这样系统可以支持:
    • 文本问题检索图片证据
    • 图片内容检索文本说明
    • 文档页面与文本段落联合召回

典型系统架构

多模态数据源
  ├── 文本 / PDF / 网页
  ├── 图像 / 截图 / 图表
  ├── 表格 / 报表
  └── 音视频 / 帧序列
            ↓
     解析与结构保留
  ├── OCR / Layout Parsing
  ├── Table Parsing
  ├── Image Caption / Region Features
  └── Frame Sampling / ASR
            ↓
     多粒度索引与嵌入
  ├── text chunks
  ├── image embeddings
  ├── table units
  └── page / frame embeddings
            ↓
     混合召回 + 重排
            ↓
     LLM / VLM 生成回答
            ↓
       引用证据位置

设计时真正要权衡什么

  • 统一嵌入 vs 模块化检索:统一嵌入简单,但细粒度结构控制较弱;模块化方案更复杂但可控。
  • 页面级索引 vs 区域级索引:页面级实现简单,区域级更精确但索引和标注成本更高。
  • 先转文本再检索 vs 原生多模态检索:前者工程成本低,后者能保留更多视觉和结构信息。
  • 召回广度 vs 重排复杂度:多模态召回空间更大,重排和证据选择更关键。
  • 检索可用性 vs 成本:图像、版面和表格嵌入通常比纯文本更昂贵。

容易踩的坑

  • 只做 OCR,把图表和表格结构全部丢平。
  • 图像召回正确,但回答时没有引用到具体区域或页面。
  • 表格问答忽略单位、表头和时间维度,导致答案错误。
  • 文本和图像索引完全独立,跨模态检索能力弱。
  • 视频场景只抽少量关键帧,丢失时序信息。

工程落地时我会怎么做

  • 文档类任务优先保留版面、表格和页码结构,不要先粗暴转成纯文本。
  • 对图像、页面、表格分别建立多粒度索引:document-level、page-level、region-level、row-level。
  • 多模态系统默认返回证据位置,如页码、框选区域、表格单元格坐标。
  • 对财务、合同、报表类场景增加单位、时间、表头一致性校验。
  • 混合使用文本检索、结构检索和跨模态向量检索,而不是只押注单一路径。
  • 建立专项评测集,覆盖图文问答、图表理解、表格问答、截图理解和文档定位。

如果要对外讲,可以怎么概括

“多模态 RAG 的核心不是把图片喂给模型,而是让检索阶段也具备多模态能力。传统 RAG 最大的问题是把一切都压扁成文本,导致图表、表格和版面信息丢失。真正落地时,我会优先保留结构、做多粒度索引、让系统返回证据位置,并把文本检索和跨模态检索结合起来。”

最后记几条

  1. 多模态 RAG 解决的是纯文本 RAG 的证据损失问题。
  2. 图文检索、表格检索和跨模态嵌入是三条核心能力线。
  3. 表格和版面结构保留比单纯 OCR 更重要。
  4. 多粒度索引通常比单一粒度更稳。
  5. 高质量系统必须能引用证据位置,而不是只给结论。

参考资料

延伸阅读