【大模型RAG】识别-检索-生成:拍照搜题给出答案原理讲解

发布于:2025-06-11 ⋅ 阅读:(236) ⋅ 点赞:(0)

作业帮把一张题目照片“秒变”成标准答案与完整解析,靠的是 “多模态 OCR → 语义检索 → 答案渲染” 三段式流水线,而不是让大模型次次现场推理。下面整理了官方访谈、公开演讲、技术博客与大会 PPT 中能查到的关键信息,尽量还原其真实的工程落地路径。

 

作业帮的拍照搜题能力是把题目图片拆解成结构化数据后,用海量题库“记忆”答案——真正调用大模型推理只发生在极少数冷门题。具体做法是:先用包含 30 余个深度模型、平均 260 次神经网络推理的多模态 OCR 流水线,在约 200 ms 内把文本、公式、图形和表格全部数字化news.qq.comcn.chinadaily.com.cn;随后,将题干关键词与 BERT/BGE 句向量一并写入 Havenask 倒排+向量混合索引,3 亿+ 题库可在 P99 < 10 ms 内完成双路召回,并支撑峰值每分钟 100 万次查询infoq.cninfoq.cnqiye.chinadaily.com.cn;若命中率不足(≈5 %),系统才把 LaTeX + 文本交给检索增强的大语言模型计算,保证整体交互依旧在秒级内完成53ai.committrchina.com。GPU 集群(T4/A30 + TensorRT FP16)与 Fluid 算存分离进一步压缩延迟和成本infoq.cnnews.qq.com

 


核心流程总览

  1. 图像预处理与版面分析

  2. 30 + 深度模型级联的 OCR/公式/表格识别

    • 单次识别要调用约 260 次神经网络;文本、手写、公式、图形、表格各有专门检测-识别子网(geekpark.net, blog.csdn.net)。

    • 整张图平均 ≈ 200 ms 出结构化结果,得益于大规模 GPU 推理集群与模型并行流水线(cn.chinadaily.com.cn, news.qq.com)。

  3. 全文+向量混合检索

    • 把题干关键词、学科标签和句向量一起写入 Havenask 索引(作业帮 2023-24 年完成的检索重构);BM25 和向量余弦双路召回,再做多级粗排/精排(infoq.cn, 53ai.com)。

    • 主索引容量已达 ≈ 3 亿题,一分钟可处理 100 万次 查询峰值(geekpark.net)。

  4. 答案库命中与渲染

    • 如果检索得分>阈值,直接回填已审核的「答案 + 文字详解 + 视频讲解」模板。

    • 若罕见题未命中,则兜底转到符号计算 / LLM 解题服务(响应会比命中题慢 3-5 倍)(woshipm.com, blog.csdn.net)。


关键技术细节

1. OCR & 多模态识别栈

子任务 典型模型 / 框架 备注
印刷体/手写文字 CRNN、SVTR、ViT-STR 适配小学到高中手写体,多重字典纠错(finance.sina.com.cn)
数学公式 Faster-RCNN 检测 + Transformer-based MER 解码输出 LaTeX 覆盖分式、上下标、根号等结构(blog.csdn.net)
几何/曲线图 YOLOv5 变体 + Hough/形态学后处理 点、线、角度数值矫正
表格 TableDet + TSRFormer 还原单元格网格并逐格 OCR(infoq.cn)

工程要点:将每一小块文字/符号都转成 token,再拼接成题干序列;同时把图形、坐标、已识别数值作为附加特征写入索引,方便检索时做“图文混排”匹配。

2. 检索与存储

  • Havenask + Fluid 计算-存储分离

    • 题库 TB 级别,使用 Fluid 把索引热数据缓存到本地 SSD,算存解耦后查询 P99 延迟 < 2 ms(infoq.cn, infoq.cn)。

  • 多模态 Query 重写

    • OCR 输出 → 关键式抽取 → 学科/难度模型 → “主键词 + 同义短语 + 向量” 三路查询;再用 learning-to-rank 模型做最终排序(53ai.com)。

  • GPU RAG 兜底

    • 未命中时,把题干(LaTeX + 文本)丢给检索增强的大语言模型(> 33 B 参数),先把相似知识片段 TOP-N 检索回来,再生成步骤化解析;延时控制在 2-3 s 内。

3. 线上推理与 CI/CD

  • 推理集群:T4 / A30 混合;TensorRT + FP16 通道,比纯 CPU 省 85 % 延时、40 % 机器成本(nvidia.zhidx.com)。

  • 蓝绿发布:OCR/检索模型每日离线增量训练-> 镜像打包-> K8s 滚动灰度;Fluid Dataset 原子更新确保索引热切换零脏读(infoq.cn)。


发展脉络与对外信息来源

时间 里程碑 公开出处
2015 4.0 版本首上拍照搜题,识别从 10 s → 3 s 王岩采访(finance.sina.com.cn)
2017 首次把 GPU 引进在线推理,1 s 内返回 新浪科技稿(finance.sina.com.cn)
2019 整页拍、智能批改、猜题等功能落地 产品经理分析(woshipm.com)
2021 30 + 模型串联、200 ms 响应入选 MIT TR10 “远程技术”案例 GeekPark 报道(geekpark.net, cn.chinadaily.com.cn)
2023-24 搜索引擎整体迁移到 Havenask,成本 ↓ 40 %,向量检索原生支持 QCon PPT + 53AI 文章(infoq.cn, 53ai.com)
2025 在多模态 LLM 上做 RAG 兜底解题,支持视频讲题一键生成 53AI 行业分享(53ai.com)

小结

  • 第一性原理:把题目“拆成数据”——先图像→文本/公式→结构化,再用海量题库去“记忆”答案;只有少数冷门题才调用大模型推理。

  • 工业级优化:上线十年迭代三代系统,用 GPU 集群压缩 OCR 时延,用 Havenask 保证亿级题库毫秒级召回,用 Fluid 解决 TB 级索引弹性。

  • 面向未来:作业帮已把拍搜能力抽象成多模态检索平台,正往 RAG + 视频解析自动生成方向升级。对任何想做“拍照问答”产品的团队来说,它的 “识别-检索-渲染” 分层设计、计算-存储解耦实践与向量混检策略 都具有直接的借鉴价值。