大发官方网站手机app

热点资讯

百家乐

你的位置：大发官方网站手机app > 百家乐 >

dafa大发手机版app 百度口试官切中流弊：“多模态RAG，图片里的笔墨你OCR出来了，那图里的逻辑关系呢？”我千里默了

发布日期：2026-05-07 05:14 点击次数：132

包涵霍格沃兹测试学院公众号，回话「贵寓」，领取东说念主工智能测试建立技艺书册

一、口试终末一问：OCR抽出来的笔墨，和没抽相同

二、本色变化：多模态RAG的瓶颈不在“识别”，而在“通晓关系”

三、中枢计制拆解：从OCR到逻辑关系抽取的四层架构

四、典型案例 / 对比：Naive RAG vs Layout-aware vs Graph-based RAG

五、工程落地启示：你当今不错奈何升级评测体系

六、趋势判断：关系抽取会成为多模态RAG的标配智力

一、口试终末一问：OCR抽出来的笔墨，和没抽相同

上个月百度招一个AI测试建立岗，我面到第三轮，口试官忽然从手机里翻出一张截图递给我看。

张开剩余91%

是一张典型的业务经过图。左边三个圆角矩形写了“用户上传”“系统校验”“复返间隔”，中间三条箭头，其中一条从“系统校验”指向一个菱形判断框“信息齐备？”，分两支：是→“存入数据库”，否→“驳回”。

口试官问：你用多模态RAG作念文档问答，用户传这张图问‘上传后信息不齐备会怎么’，你认为你的系统能答对吗？

我下结实说：OCR能索求出‘信息齐备？’‘驳回’这些笔墨，再皆集空间位置把菱形和分支箭头绑定，应该能推理出‘驳回’这个间隔。

他持续问：那要是我问‘从上传到最终复返间隔，哪些旅途是得胜的’，你阿谁OCR+空间位置能画出两条齐备旅途吗？能辞别‘存入数据库’是得胜旅途，‘驳回’不是最终得胜吗？

我千里默了。因为我明晰，大部分多模态RAG的作念法——OCR抽笔墨、接个多模态模子作念caption、向量化后塞进Milvus——根柢回答不了这个问题。它们通晓的是“图里有什么笔墨”，而不是“这些笔墨和图形之间的逻辑关系是什么”。

口试官莫得为难我，只说了一句：多模态RAG的下一站，不是看懂图，是读懂图。

这不是百度一家的偏好。本年上半年战争的几个大厂格式，岂论是作念技艺文档问答照旧UI测试用例生成，各人运行发现：纯文本RAG能炫耀80%的场景，但一朝触及图表、经过图、架构图，传统的OCR+向量检索就像用吸管喝汤——能喝到几口，但始终不知说念汤里食材奈何组合的。

二、本色变化：多模态RAG的瓶颈不在“识别”，而在“通晓关系”

两年前咱们聊多模态RAG，焦点还在“奈何把图片转成文本让大模子看懂”。OCR、主见检测、图片描写生成，一套组合拳下来，看着挺全。

本年风向变了。因为各人发现，企业里面的文档里充斥着广博半结构化的图示：

系统架构图（组件之间的连线代表数据流向照旧调用关系）业务经过图（菱形是判断、圆角矩形是操作、箭头是流转） UI动效图（时辰轴上的气象挪动逻辑）

这种图的本色，是一种视觉化的关系型学问。笔墨仅仅节点上的标签，确切的信息藏在两方面：

节点之间的拓扑通顺（谁指向谁）通顺上的类型语义（是法例、判断、数据流、照旧包含）

OCR能告诉你矩形里有“存入数据库”，但不会告诉你这个矩形是从“信息齐备？=是”那条线指过来的。多模态大模子（如GPT-4V）能作念一定进度的图通晓，但老本高、延长大，不相宜大限度RAG索引。

问题的本色是：咱们需要从图片中抽取出一个结构化的“关系图”，而不是一袋衰败的笔墨。然后把这张图纳入检索和推理过程，时时彩app官方网站下载让大模子不光看到笔墨，还能沿着连线走一遍逻辑。

这即是口试官问“图里的逻辑关系”背后的技艺诉求。

三、中枢计制拆解：从OCR到逻辑关系抽取的四层架构

一个能贬责逻辑关系的多模态RAG系统，我把它拆成四层。画一张图：

第一层视觉元素抽取

主见：从图片中定位扫数“有有趣的视觉单位”

笔墨块：OCR检测+识别图形节点：矩形、菱形、圆形等（用主见检测模子，如YOLO微调）连线：箭头、直线、弧线（用线段检测或语义分割）

输出：鸿沟框+类别+笔墨内容

第二层关系图构建

主见：把衰败元素连成图结构

节点-连线匹配：判断每条连线通顺哪两个节点（基于IOU或端点距离）连线类型分类：箭头有标的，直线可能无向，虚线示意额外语义节点间团员：把矩形内的多行笔墨覆没成一个节点

输出：有向图 G=(V，E)，V包含节点文本和类型，E包含来源、尽头和连线类型

第三层逻辑语义注入

主见：识别图的内在逻辑类型

经过图语义：识别判断节点（菱形）、起止节点（跑说念形）、操作节点（矩形）架构图语义：识别层级关系（荆棘分层）、调用关系（箭头标的）、依赖关系（虚线）气象图语义：识别气象挪动条目（边上的标签笔墨）

不错用一个袖珍的GNN或多模态prompt调大模子完因素类，但无须太复杂，礼貌+少许样安分类即可

输出：带语义标签的图（举例 node.type=decision， edge.semantic=flow_condition）

第四层检索与推理适配

主见：让大模子粗略“读图”

图序列化：把图改动成文本描写，举例‘从节点A（用户上传）经箭头流向节点B（系统校验）。若校验通过，经箭头到达节点D（存入数据库）’ 子图检索：凭据用户问题中的实体（如‘驳回’），检索图中包含该实体的子图旅途推理：给定两个节点，索求扫数可达旅途，按节点法例生成文本

输出：供大模子回答的结构化荆棘文

这套架构的中枢在于第二层和第三层。大部分团队停步于第一层，口试时只可说出OCR+多模态模子，却讲不清“连线奈何匹配节点”“菱形和矩形奈何辞别”。而这恰是百度这类公司考试的深度。

四、典型案例 / 对比：Naive RAG vs Layout-aware vs Graph-based RAG

为了让你直不雅感受各别，我拿一张典型的业务经过图册本借阅系统来测三种决策。

图内容：节点A“读者请求”->节点B“查询馆藏”。节点B分两支：有库存->节点C“生成借阅记载”->节点D“出库”；无库存->节点E“加入预约队伍”。问题：“要是库存不及，后续经过是什么？”

决策一：Naive RAG（OCR+全文检索）

OCR抽出的笔墨齐集：{读者请求，Dafabet查询馆藏，有库存，生成借阅记载，出库，无库存，加入预约队伍}。检索“库存不及”，匹配到“无库存”和“加入预约队伍”。大模子看到一堆笔墨，猜谜底是“加入预约队伍”。然而它对“后续经过”中的流转法例莫得感知，可能漏掉“无库存”这个判断节点本人。对了，但脆弱。

决策二：Layout-aware RAG（OCR+空间位置+苟简逻辑）

零星诈欺了笔墨块的坐标。举例“无库存”位于节点B右下方，“加入预约队伍”在其右侧，不错想到出法例关系。回答“加入预约队伍”。发达比决策一好，但无法辞别“有库存”分支的两步“生成借阅记载->出库”算一个齐备旅途。要是问题换成“有库存的齐备经过是什么”，它可能只给出第一个节点。

决策三：Graph-based RAG（本文的四层决策）

构建出齐备的图：B（查询馆藏）出两条边：边1（有库存）指向C（生成借阅记载），C指向D（出库）；边2（无库存）指向E（加入预约队伍）。用户问“库存不及”，检索到边2，从B到E的旅途为[B， E]。再凭据大模子生成谜底：“先走到‘查询馆藏’，因为库存不及，参加‘加入预约队伍’，经过末端。”问“有库存齐备经过”，可索求旅途[B， C， D]生成“查询馆藏→生成借阅记载→出库”。

这个案例里，决策三惟一作念到了“沿着连线走齐备旅途”。

践诺工程中，决策一和二是绝大多数团队的初版。走到决策三的，基本在口试里能回答口试官的阿谁追问。

五、工程落地启示：你当今不错奈何升级评测体系

要是你是测试工程师或RAG系统建立者，以下三个切入点不错径直用。

第一，构建“逻辑关系”测试集。别只测“图里有哪些笔墨”。选10张经过图、架构图、气象图，每张图写5个需要沿关系推理的问题。举例“从A登程经过哪些节点才能到达B”“要是有两个分支都指向C，阐发什么”。跑一遍你的RAG，记载准确率。好多系统的准确率会从90%掉到30%以下。

第二，在预贬责Pipeline里加入“图构建”模块。不要求一运行作念齐备语义分类。先竣事最基本的节点-连线匹配：OCR检测笔墨块，同期用OpenCV的HoughLines检测直线和箭头，然后凭据端点坐标策画关联。一周内就能跑通原型。然后用这个模块替换本来的纯文本切片，对比端到端的问答后果。咱们里面作念过实验，加入这层后，经过图类问题的调回率进步了47%。

第三，想象“子图检索”的评测计算。传统RAG评测用调回率（检索到的干系文本块数目）。关于图，应该用旅途调回率——检索到的子图是否包含了用户问题所需的所关联键节点和边？比如问“齐备经过”，子图必须包含从新到尾的骨干旅途，缺一个节点就算失败。这个计算更容易露出问题。

我在某电商团队作念权谋时，他们的RAG一直贬责不好“商品上架审批经过图”干系问题。加了图构建模块后，居品司理响应说“AI终于能看懂先审后发回是先发后审了”。这其实即是关系被正确抽取的间隔。

六、趋势判断：关系抽取会成为多模态RAG的标配智力

大厂的文档QA系统正在大限度从纯文本向富体式挪动。本年看到的趋势有两个：

一是多模态大模子径直端到端通晓图表的智力在进步，但老本和延长抑制了它在RAG索引侧的应用——你不可能把每张图都扔给GPT-4V抽关系，太贵且太慢。因此，传统CV+礼貌的方法在预贬责阶段依然是最优解。

二是RAG的评测法度正在升级。畴昔比的是“谜底里是否包含正确谜底的枢纽词”，当今比的是“推理旅途是否正确”。百度在里面依然奉行了旅途级评测，口试官问你的问题即是他们确实切法度。

对将来从业者，这意味着：

在校生，别只炫耀于跑通LangChain的PDF问答Demo。找几张经过图，入手写一个从图像到图的想法剧本。这个格式写在简历上，比“老到多模态RAG”有效十倍。

低级工程师，把“图构建模块”集成到你现存的RAG里。比拟前后后果，写一篇技艺条记。口试时带着数据和代码去聊。

中高等工程师，你应该念念考的是通盘测试体系如何适配这种变化。传统QA对的是文本段落，当今QA的对象是图。需要想象新的测试用例生成战略，比如自动从经过图里胪列扫数旅途手脚问题集。

终末想问你一个问题：

你的RAG系统拿到一张包含轮回回退箭头的经过图时，能正确回答“什么条目下会回到前一步”吗？

要是不成，你今天就不错从一张苟简的经过图运行入手更正了。

本文部天职容参考了霍格沃兹测试建立学社整理的干系技艺贵寓dafa大发手机版app，主要触及软件测试、自动化测试、测试建立及 AI 测试等内容，侧重测试实践、用具应用与工程教授整理。

发布于：北京市斗鱼体育app官方网站

上一篇：Dafabet 公共媒体聚焦|好意思媒: “五一”假期旅游火热展现中国经济活力

下一篇：没有了

大发官方网站手机app

让建站和SEO变得简单

大发官方网站手机app

热点资讯

百家乐

dafa大发手机版app 百度口试官切中流弊：“多模态RAG，图片里的笔墨你OCR出来了，那图里的逻辑关系呢？”我千里默了