CN120448512B - 混合rag架构的铁路多模态知识库问答系统构建方法 - Google Patents
混合rag架构的铁路多模态知识库问答系统构建方法Info
- Publication number
- CN120448512B CN120448512B CN202510955213.8A CN202510955213A CN120448512B CN 120448512 B CN120448512 B CN 120448512B CN 202510955213 A CN202510955213 A CN 202510955213A CN 120448512 B CN120448512 B CN 120448512B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- model
- representing
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能铁路技术领域,提供一种混合RAG架构的铁路多模态知识库问答系统构建方法,包括:1、服务器本地模型部署与微调;2、数据处理和数据库搭建;建立基于MongoDB内容存储器和PostgreSQL向量检索库的铁路规范知识库数据库管理系统;对于多组数据,则基于混合检索和RRF算法进行搜索结果的优化和合并,最后进行重排序和搜索过滤;3、多模态知识库构建;使用多模态嵌入将图片和文本嵌入到向量数据库中,同时在文档存储中存储对应的原始图片和文本,在进行混合相似度检索时获取文档存储中图片,将原始图片和文本块传递给大模型生成回答;4、多平台扩展。本发明能较佳地构建铁路多模态知识库问答系统。
Description
技术领域
本发明涉及智能铁路技术领域,具体地说,涉及一种混合RAG架构的铁路多模态知识库问答系统构建方法。
背景技术
近年来,大语言模型(LLM)相关技术发展迅速,在交通安全、自动驾驶等多个交通基建领域展现出巨大的应用潜力,如MT-GPT框架可应用于交通基础设施的规划设计、运营维护、多方位决策等;还有学者基于LLM构建了交通安全、BIM正向设计等方面的问答系统,构建本地知识库并设计评价指标对系统进行性能评估;有学者尝试利用LLM对铁路系统进行预测性健康管理,分析揭示潜在的故障隐患并提供科学依据,有望进行铁路系统的故障诊断报告生成、维护规划和调度文案生成等。但在智能铁路领域,LLM研究仍存在大量空缺。
检索增强生成(RAG)在面向LLM的各种智能问答场景中得到了深入应用,也有研究聚焦提升其检索质量并增强生成鲁棒性和置信度。
但是,现有RAG技术仍然具有以下缺点:
1. 模态单一性:现有RAG系统大多仅处理非结构化的文本数据,或对多模态(尤其是图像+文本+结构化表格)的支持非常有限且生硬。它们难以有效融合和处理像规范图表等信息,以及隐藏在表格中的结构化数据,导致无法充分利用行业特有的多源异构数据。
2. 结构化数据处理薄弱:传统RAG通常将表格数据简单地视为“文本块”进行向量化,容易破坏了表格的行列关系、层级结构和内在语义关联。这导致检索时无法精准定位表格特定单元格,也难以理解跨表格的数据关系,影响从复杂行业规范等表格中提取精确答案的能力。
3. 检索质量优化不足:基础RAG通常仅依赖简单的向量相似度搜索,返回结果可能包含相关性不高或冗余信息。缺乏有效的检索质量优化机制来优化检索结果。
4. 专业领域适应性低:现有RAG技术多在通用领域,缺乏在铁路工程等复杂、高要求、真实的垂直多场景下的进行系统性验证,通用领域大模型在铁路等专业垂直行业的专业术语、规范表达上表现欠佳。
因此,需要一种混合RAG架构的铁路多模态知识库问答系统构建方法来解决上述问题。
发明内容
本发明的内容是提供一种混合RAG架构的铁路多模态知识库问答系统构建方法,其能够较佳地构建铁路多模态知识库问答系统。
根据本发明的混合RAG架构的铁路多模态知识库问答系统构建方法,其包括以下步骤:
步骤1:服务器本地模型部署与微调;
部署的模型包括语言模型和文本嵌入模型;
微调是基于DyLoRA微调框架,融合动态秩分配、分层适配与专家路由机制,在保持参数效率的同时提升模型表现;
步骤2:数据处理和数据库搭建;
数据包括docx、pdf格式的铁路可研报告、轨道运维报告、行业各种设计标准,还包括各种格式的设计图纸、规范表格及图片;
本地部署语言模型和文本嵌入模型后,使用开源项目进行模型的接口管理,建立基于MongoDB内容存储器和PostgreSQL向量检索库的铁路规范知识库数据库管理系统;PostgreSQL设置vector字段用于存储向量,而MongoDB用于向量原数据的信息存取,在检索时先召回向量,再根据向量的ID在MongoDB中寻找原数据内容;对于检索到的多组数据,则基于混合检索和RRF算法进行搜索结果的优化和合并,最后进行重排序和搜索过滤;
步骤3:多模态知识库构建;
使用多模态嵌入的方式将图片和对应的文本一起嵌入到向量数据库中,同时在文档存储中存储对应的原始图片和文本,在进行混合相似度检索时直接获取文档存储中对应的图片,将原始图片和文本块传递给大模型生成回答;对于宏观图片,基于多模态大模型对图片生成文本摘要,使用文本嵌入模型对文本摘要进行嵌入和检索;
步骤4:多平台扩展。
作为优选,步骤1中,语言模型是Transformer架构的自回归语言模型,基于海量文本数据进行预训练,学习语言的统计规律、世界知识和复杂模式;而文本嵌入模型的核心任务是将一段文本转换成一个固定长度的、稠密的向量进行嵌入。
作为优选,步骤1中,DyLoRA微调框架的公式如下所示:
;
其中,为模型微调的输出;是在微调中保持不变的预训练部分参数;表示模型专家路由系统的每组专家可学习的参数;和是微调模型时训练的两个低秩矩阵;表示秩,为秩最小值,为最大值;表示第层网络的敏感度分数;为稀疏系数;表示转置,表示自然常数。
作为优选,微调使用指令监督微调数据集,包括行业规范、可研报告、运维报告的万条铁路行业语料,指令监督微调数据集如下公式所示:
;
其中,表示由个独立样本组成的数据集;表示每个三元组样本;表示第个样本的指令,用于指导模型行为;表示第个样本的输入,提供任务的具体上下文或问题;表示第个样本的输出,是期望的响应或答案;
核心训练参数包括学习率、批次大小、训练轮数、最大样本数和梯度裁剪,根据模型参数和数据集大小灵活调整。
作为优选,混合检索包括语义向量检索和全文稀疏检索,语义向量检索通过计算空间向量的距离从而得出相似度,全文稀疏检索采用基于稀疏算法的关键词检索方式;
得到两者检索的结果后,通过归一化、重排序和搜索过滤,将相关内容作为提示词输入大模型作为输出的参考;重排序是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法;搜索过滤则是利用引用上限和最低相关度来提升检索的质量;
其中,语义向量搜索计算索引项与候选文档之间的语义向量相似度分数,公式如下所示:
;
式中,为查询向量,为每个候选文档向量;全文稀疏检索计算每个候选文档的稀疏检索分数,其公式如下所示:
;
式中,为索引项的一个词项;为词项在文档中的词频;为文档的长度;为文档集合的平均文档长度;控制词频饱和度,越大则的影响越大;控制文档长度归一化的强度;为词项的逆文档频率;为文档集合中文档总数;为包含词项的文档数;
在得到所有文档稀疏分数和向量相似度分数后,进行分数归一化的公式如下所示:
;
式中,为索引项;为所有候选文档;和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的均值;而和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的标准差。
作为优选,步骤2中,文本按规则进行分段切片处理后,转成可进行语义搜索的切片格式,对数据库的每条切片数据进行单独微调和修正;优化知识数据库结构的方法包括对相似相关内容进行合并和整理、对缺省问题无法进行匹配的情况进行处理、优化表名和表本体匹配错误情况。
作为优选,步骤2中,表格数据采取简化表格、表格转文字手段进行数据优化;针对大型的表格,采用表格大模型先进行表格编码再进行嵌入;
表格编码首先进行结构解析,包括识别表格的行列结构、解析合并单元格和提取层级关系,接着进行语义编码,包括线性化表示函数、语义嵌入表示过程,公式如下所示:
;
其中,表示的矩阵,起始行索引、起始列索引;和分别表示表格单元格覆盖逻辑区域的总行数范围和总列数范围;和分别为水平和垂直合并单元格数量;表示线性化序列的生成函数;为单元格文本集合;为字符串连接运算符;为列分隔符;为单元间隔符;表示张量积运算;表示预训练嵌入模型生成的文本嵌入向量;表示分词函数,进行文本分割;表示参数为的嵌入模型编码器。
作为优选,步骤3中,对于输入数据为的图像-文本对,其中原始图像,为关联文本,预处理和嵌入生成的公式如下:
;
其中,表示判断图像类型是否属于宏观图像;表示采用预训练图像分类模型;表示被该分类模型判别为宏观图像的图像;为Softmax函数;为宏观图像阈值,若,则触发摘要生成;表示多模态大模型;为摘要最大token数;表示图像嵌入向量和对齐后的文本嵌入向量的联合嵌入向量;和分别表示图像和文本的嵌入模态权重;为未与图像向量进行同维度对齐处理的原始文本嵌入向量,为用于对齐维度的投影矩阵,通过线性回归训练得到参数;和分别为图像嵌入模型和文本嵌入模型;和分别为图形嵌入维度和文本嵌入维度;
对于CAD矢量图格式,采取B样条曲线解析转向量方式,构建的特征向量公式如下所式:
;
其中,则表示一条次B样条曲线,为定义在上的次B样条基函数;为线形转换而来的特征向量,将曲线参数按固定顺序拼接为向量;代表节点矢量;为控制点;为B样条对应的权重因子。
步骤4中,将本地框架扩展到网页端、微信公众号、小程序和第三方软件,核心组件包含协议自适应的API网关与异步消息中间件;
采用统一API网关架构实现多端接入,网关内置协议转换层,支持将HTTP/WebSocket异构协议统一转换为gRPC协议;协议转换过程通过输入归一化函数如下所示:
;
其中,表示输入数据;当来自HTTP协议时,即,执行JSON到ProtoBuf的序列化转换;当输入数据来自微信生态时,即,执行XML到ProtoBuf的转换;为异构输入数据集,协议转换延迟控制在15ms内,;
针对高并发场景,引入消息队列进行异步削峰,其消息处理延迟模型为:
;
其中,表示消息处理总时间;表示将原始消息数据转换为可传输或存储的标准化格式的序列化时间;表示消息数量;为分区数;为单消息消费时延。
本发明的有益效果如下:
本发明将混合RAG技术应用于铁路行业,通过服务器搭建和本地模型部署、数据清洗和处理、多模态数据库构建、多部署平台测试等过程,构建了一个整合铁路设计规范、工程案例、研究报告、运维养修报告等多模态数据的智能问答系统,为设计人员提升知识获取效率与准确性,同时深度整合与利用多模态信息来赋能复杂决策与设计优化,保障合规性与减少设计错误,最终推动铁路行业向智能化、数字化转型。
附图说明
图1为实施例中一种混合RAG架构的铁路多模态知识库问答系统构建方法的流程图;
图2为实施例中铁路行业数据处理体系及数据库构建示意图;
图3为实施例中数据库检索原理示意图;
图4为实施例中混合检索示意图;
图5为实施例中多模态知识库构建示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1:
如图1所示,本实施例提供了一种混合RAG架构的铁路多模态知识库问答系统构建方法,其包括以下步骤:
步骤1:服务器本地模型部署与微调;
部署的模型包括语言模型和文本嵌入模型;本实施例相关程序使用Python编写,采用CUDA(Compute Unified Device Architecture) 加速,在Linux服务器上执行数据生成与处理、模型部署和推理。语言模型是典型的Transformer架构的自回归语言模型,基于海量文本数据进行预训练,学习语言的统计规律、世界知识和复杂模式;而文本嵌入模型的核心任务是将一段文本转换成一个固定长度的、稠密的向量进行嵌入(语义相似的文本,其对应向量在向量空间中的距离如余弦相似度也会很接近),是构建行业知识库必不可缺的模型。
模型微调指的是对大语言模型进行指令微调训练以适应特定任务,主要可以分为参数高效微调和全量参数微调两种方式。其中,参数高效微调(Parameter-EfficientFine-Tuning, PEFT),它仅更新模型中的部分参数,最小化微调参数数量和计算复杂度,显著降低训练时间和成本,实现高效的迁移学习。其中,本发明在传统LoRA微调方法的基础上,提出了DyLoRA(Dynamic Low-Rank Adaptation)微调框架,融合动态秩分配、分层适配与专家路由机制,在保持参数效率的同时提升模型表现,其公式如下所示:
;
其中,为模型微调的输出;是在微调中保持不变的预训练部分参数;表示模型专家路由系统的每组专家可学习的参数;和是微调模型时训练的两个低秩矩阵,一般通常有一个在初始化阶段被初始化为零,而另一个则采用随机高斯分布初始化,确保在微调初期时不会对原始模型的映射产生影响;表示秩,为秩最小值取8,为最大值取64;表示第层网络的敏感度分数;为稀疏系数,取0.3;表示转置,表示自然常数。
微调使用指令监督微调数据集,包括行业规范、可研报告、运维报告的万条铁路行业语料,指令监督微调数据集如下公式所示:
;
其中,表示由个独立样本组成的数据集;表示每个三元组样本;表示第个样本的指令,用于指导模型行为;表示第个样本的输入,提供任务的具体上下文或问题;表示第个样本的输出,是期望的响应或答案;
核心训练参数包括学习率、批次大小、训练轮数、最大样本数和梯度裁剪,根据模型参数和数据集大小灵活调整。其中,以70B参数量模型为例,动态秩分配使训练总参数量从0.161B降低到0.102B,总参数量减少37%左右,有效降低了训练能耗。
步骤2:数据处理和数据库搭建;
铁路行业的数据种类和数量繁多,包括docx、pdf格式的铁路可研报告、轨道运维报告、行业各种设计标准,还包括各种格式的设计图纸、规范表格及图片;为了构建规范的行业多模态知识库,需对不同格式的数据做不同的处理和优化,如图2所示,具体为:
2.1)数据收集;
数据包括预可研与可研报告、运维报告、行业设计规范,设计图纸、规范表格及图片等;
2.2)数据处理;
文本主要采用结合语义向量检索和全文稀疏检索的混合检索进行语义识别和拆分,并进行相似度指标量化;表格进行文本化处理或OCR识别,或采用表格大模型先进行表格编码再进行嵌入;图片则首先进行文字提取和图片矢量化嵌入,复杂图片或图纸使用多模态嵌入的方式将图片和对应的文本一起嵌入到向量数据库中,对于宏观图片则基于多模态大模型对图片生成文本摘要后进行嵌入和检索;CAD等矢量图进行B样条曲线解析等方法转向量或JSON等格式,也可训练专用深度学习模型;
2.3)数据融合与存储;
将文本、表格、图片、矢量图、矩阵和公式进行融合存储;融合后的数据输入到MongoDB内容存储器和PostgreSQL向量检索库;构建多层级铁路行业数据处理体系,并构建数据库。
本地部署语言模型和文本嵌入模型后,使用开源项目进行模型的接口管理,建立基于MongoDB内容存储器和PostgreSQL向量检索库的铁路规范知识库数据库管理系统,数据库检索原理如图3所示;PostgreSQL设置vector字段用于存储向量,而MongoDB用于向量原数据的信息存取,如在检索向量数据1时先召回索引向量1,再根据索引向量1的ID在MongoDB中寻找原数据内容1;对于检索到的多组数据,如原数据内容2、3,则基于混合检索和RRF算法对其索引2-4对应的向量数据2-4进行结果的搜索过滤、归一化和重排序,最后进行优化和合并。
本实施例采用的混合检索增强生成(hybird RAG)同时使用语义向量检索和全文稀疏检索来弥补各自的缺点,使得搜索结果更加丰富准确的同时降低大模型出现幻觉的可能,原理如图4所示。
语义向量检索通过计算空间向量的距离从而得出相似度,优点是具备相近语义理解、跨多语言理解(例如输入中文问题匹配英文知识点)、便于多模态理解与映射、提供容错空间(如拼写错误、模糊描述等),但也有依赖模型训练效果、精度不稳定等缺点;而全文稀疏检索采用基于稀疏算法的关键词检索方式,适合少量、低频字符的精确匹配。检索时需要进行搜索过滤,即利用引用上限(即每次搜索最多引用n个tokens的内容)和最低相关度(即会直接过滤掉一些低相关度的搜索结果)来提升检索的质量。
如图4中,通过语义向量检索和搜索过滤得到切片1、2…,而通过全文稀疏检索和搜索过滤得到切片a、b…,得到两者检索的结果后,通过归一化文档与向量相似度指标后再进行重排序,即可将相关内容作为提示词输入大模型作为输出的参考。其中,重排序是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法,如稀疏搜索得到的切片b归一化后的相似度指标为0.9,高于语义搜索得到的切片1、2等结果,可以作为输出的首要参考。
其中,语义向量搜索计算索引项与候选文档之间的语义向量相似度分数,公式如下所示:
;
式中,为查询向量,为每个候选文档向量;全文稀疏检索计算每个候选文档的稀疏检索分数,其公式如下所示:
;
式中,为索引项的一个词项;为词项在文档中的词频;为文档的长度;为文档集合的平均文档长度;控制词频饱和度,通常范围1.2-2.0,越大则的影响越大;控制文档长度归一化的强度,通常范围0.5-0.8,1表示完全归一化,0表示完全不归一化;为词项的逆文档频率;为文档集合中文档总数;为包含词项的文档数。
在得到所有文档稀疏分数和向量相似度分数后,进行分数归一化的公式如下所示:
;
式中,为索引项;为所有候选文档;和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的均值;而和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的标准差。
文本一般需要按一定的规则进行分段切片处理后,转成可进行语义搜索的切片格式,还可对数据库的每条切片数据进行单独微调和修正。此外,优化知识数据库结构的方法还包括对相似相关内容进行一定的合并和整理、对缺省问题无法进行匹配的情况进行处理、优化表名和表本体匹配错误情况等,可以在测试阶段针对不同情况进行优化。
表格数据由于出现频率高、解析难度高于文本,也一般需要采取简化表格(如减少单元格拆分、加入符号解释来便于进行索引)、表格转文字(将含义简单的表格用语言文本进行概括)等手段进行数据优化。而针对大型的表格,则可以采用专业表格大模型先进行表格编码再进行嵌入。
表格编码首先进行结构解析,包括识别表格的行列结构、解析合并单元格和提取层级关系,接着进行语义编码,包括线性化表示函数、语义嵌入表示过程,公式如下所示:
;
其中,表示的矩阵,起始行索引、起始列索引;和分别表示表格单元格覆盖逻辑区域的总行数范围和总列数范围;和分别为水平和垂直合并单元格数量;表示线性化序列的生成函数;为单元格文本集合;为字符串连接运算符;为列分隔符;为单元间隔符;表示张量积运算;表示预训练嵌入模型生成的文本嵌入向量;表示分词函数,进行文本分割;表示参数为的嵌入模型编码器。
步骤3:多模态知识库构建;
由于铁路行业内包括还包括各种格式的设计图纸及图片,而且大型规范表格在索引时以表格输出不合适,也更适合使用图片方式进行输出,因此需要构建包含图片格式的多模态知识库。
多模态数据进行嵌入的原理如图5所示,对于复杂图片或图纸,使用多模态嵌入的方式将图片和对应图名和介绍文本一起嵌入到向量数据库中,同时在数据库文档同一切片中存储对应的原始图片和文本,在进行混合相似度检索时索引得到相关文本后即可得到数据库中该内容的相关图片,将相关图片和相关文本块传递给大模型生成回答;对于宏观图片,则基于多模态大模型对图片生成文本摘要,使用文本嵌入模型对文本摘要进行嵌入和检索,将检索得到的文本摘要对应的相关图片和相关文本传递给大模型生成回答。
对于输入数据为的图像-文本对,其中原始图像,为关联文本,预处理和嵌入生成的公式如下:
;
其中,表示判断图像类型是否属于宏观图像;表示采用预训练图像分类模型;表示被该分类模型判别为宏观图像的图像;为Softmax函数;为宏观图像阈值,取0.8,若,则触发摘要生成;表示多模态大模型,如Qwen2.5-VL;为摘要最大token数,取1024;表示图像嵌入向量和对齐后的文本嵌入向量的联合嵌入向量;和分别表示图像和文本的嵌入模态权重;为未与图像向量进行同维度对齐处理的原始文本嵌入向量,为用于对齐维度的投影矩阵,通过线性回归训练得到参数;和分别为图像嵌入模型和文本嵌入模型;和分别为图形嵌入维度和文本嵌入维度;
对于CAD矢量图格式,采取B样条曲线解析转向量方式,构建的特征向量公式如下所式:
;
其中,则表示一条次B样条曲线,为定义在上的次B样条基函数;为线形转换而来的特征向量,将曲线参数按固定顺序拼接为向量;代表节点矢量;为控制点;为B样条对应的权重因子。
步骤4:多平台扩展。
步骤4中,将本地框架扩展到网页端、微信公众号、小程序和第三方软件,核心组件包含协议自适应的API网关与异步消息中间件;
采用统一API网关架构实现多端接入,网关内置协议转换层,支持将HTTP/WebSocket异构协议统一转换为gRPC协议;协议转换过程通过输入归一化函数如下所示:
;
其中,表示输入数据;当来自HTTP协议时,即,执行JSON到ProtoBuf的序列化转换;当输入数据来自微信生态时,即,执行XML到ProtoBuf的转换;为异构输入数据集,协议转换延迟控制在15ms内,;
针对高并发场景,引入消息队列进行异步削峰,这使得,在峰值负载下仍能维持稳定的消息吞吐;其消息处理延迟模型为:
;
其中,表示消息处理总时间;表示将原始消息数据转换为可传输或存储的标准化格式的序列化时间;表示消息数量;为分区数,默认配置8分区;为单消息消费时延。
本实施例的优点在于:
(1)提出融合语义向量检索与全文检索的混合RAG架构,结合RRF等重排序算法与搜索过滤机制,显著提升检索准确性与容错性,有效缓解大模型幻觉问题。实现多模态数据(文本、表格、图纸)的统一嵌入与跨模态关联,建立支持语义理解的行业知识库框架,为复杂决策提供多维度信息支撑。
(2)构建以MongoDB(内容存储库)与PostgreSQL(向量检索库)为核心的数据库系统,支持铁路设计规范、运维报告、工程案例等异构数据的高效管理与动态更新。通过表格简化、图像摘要生成等优化策略,解决非文本数据的解析与检索难题,提升知识库的实用性与覆盖率。
(3)在铁路线路设计、轨道养修、列车牵引等场景测试中,系统精准输出规范条款、病害处理方案及节能技术依据,确保回答符合行业标准,减少人工经验偏差。支持多平台(网页端、移动端、第三方软件)部署,实现设计人员跨场景实时知识查询,提升设计效率与合规性,为设计优化、故障预测、运维决策提供可扩展的技术范式,助力铁路系统向数字化、知识驱动型模式升级。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (9)
1.混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:包括以下步骤:
步骤1:服务器本地模型部署与微调;
部署的模型包括语言模型和文本嵌入模型;
微调是基于DyLoRA微调框架,融合动态秩分配、分层适配与专家路由机制,在保持参数效率的同时提升模型表现;
步骤2:数据处理和数据库搭建;
数据包括docx、pdf格式的铁路可研报告、轨道运维报告、行业各种设计标准,还包括各种格式的设计图纸、规范表格及图片;
本地部署语言模型和文本嵌入模型后,使用开源项目进行模型的接口管理,建立基于MongoDB内容存储器和PostgreSQL向量检索库的铁路规范知识库数据库管理系统;PostgreSQL设置vector字段用于存储向量,而MongoDB用于向量原数据的信息存取,在检索时先召回向量,再根据向量的ID在MongoDB中寻找原数据内容;对于检索到的多组数据,则基于混合检索和RRF算法进行搜索结果的优化和合并,最后进行重排序和搜索过滤;
步骤3:多模态知识库构建;
使用多模态嵌入的方式将图片和对应的文本一起嵌入到向量数据库中,同时在文档存储中存储对应的原始图片和文本,在进行混合相似度检索时直接获取文档存储中对应的图片,将原始图片和文本块传递给大模型生成回答;对于宏观图片,基于多模态大模型对图片生成文本摘要,使用文本嵌入模型对文本摘要进行嵌入和检索;
步骤4:多平台扩展。
2.根据权利要求1所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤1中,语言模型是Transformer架构的自回归语言模型,基于海量文本数据进行预训练,学习语言的统计规律、世界知识和复杂模式;而文本嵌入模型的核心任务是将一段文本转换成一个固定长度的、稠密的向量进行嵌入。
3.根据权利要求2所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤1中,DyLoRA微调框架的公式如下所示:
;
其中,为模型微调的输出;是在微调中保持不变的预训练部分参数;表示模型专家路由系统的每组专家可学习的参数;和是微调模型时训练的两个低秩矩阵;表示秩,为秩最小值,为最大值;表示第层网络的敏感度分数;为稀疏系数;表示转置,表示自然常数。
4.根据权利要求3所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤1中,微调使用指令监督微调数据集,包括行业规范、可研报告、运维报告的万条铁路行业语料,指令监督微调数据集如下公式所示:
;
其中,表示由个独立样本组成的数据集;表示每个三元组样本;表示第个样本的指令,用于指导模型行为;表示第个样本的输入,提供任务的具体上下文或问题;表示第个样本的输出,是期望的响应或答案;
核心训练参数包括学习率、批次大小、训练轮数、最大样本数和梯度裁剪,根据模型参数和数据集大小灵活调整。
5.根据权利要求4所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:混合检索包括语义向量检索和全文稀疏检索,语义向量检索通过计算空间向量的距离从而得出相似度,全文稀疏检索采用基于稀疏算法的关键词检索方式;
得到两者检索的结果后,通过归一化、重排序和搜索过滤,将相关内容作为提示词输入大模型作为输出的参考;重排序是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法;搜索过滤则是利用引用上限和最低相关度来提升检索的质量;
其中,语义向量搜索计算索引项与候选文档之间的语义向量相似度分数,公式如下所示:
;
式中,为查询向量,为每个候选文档向量;全文稀疏检索计算每个候选文档的稀疏检索分数,其公式如下所示:
;
式中,为索引项的一个词项;为词项在文档中的词频;为文档的长度;为文档集合的平均文档长度;控制词频饱和度,越大则的影响越大;控制文档长度归一化的强度;为词项的逆文档频率;为文档集合中文档总数;为包含词项的文档数;
在得到所有文档稀疏分数和向量相似度分数后,进行分数归一化的公式如下所示:
;
式中,为索引项;为所有候选文档;和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的均值;而和分别表示当前候选池中所有文档稀疏分数和向量相似度分数的标准差。
6.根据权利要求5所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤2中,文本按规则进行分段切片处理后,转成可进行语义搜索的切片格式,对数据库的每条切片数据进行单独微调和修正;优化知识数据库结构的方法包括对相似相关内容进行合并和整理、对缺省问题无法进行匹配的情况进行处理、优化表名和表本体匹配错误情况。
7.根据权利要求6所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤2中,表格数据采取简化表格、表格转文字手段进行数据优化;针对大型的表格,采用表格大模型先进行表格编码再进行嵌入;
表格编码首先进行结构解析,包括识别表格的行列结构、解析合并单元格和提取层级关系,接着进行语义编码,包括线性化表示函数、语义嵌入表示过程,公式如下所示:
;
其中,表示的矩阵,起始行索引、起始列索引;和分别表示表格单元格覆盖逻辑区域的总行数范围和总列数范围;和分别为水平和垂直合并单元格数量;表示线性化序列的生成函数;为单元格文本集合;为字符串连接运算符;为列分隔符;为单元间隔符;表示张量积运算;表示预训练嵌入模型生成的文本嵌入向量;表示分词函数,进行文本分割;表示参数为的嵌入模型编码器。
8.根据权利要求7所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤3中,对于输入数据为的图像-文本对,其中原始图像,为关联文本,预处理和嵌入生成的公式如下:
;
其中,表示判断图像类型是否属于宏观图像;表示采用预训练图像分类模型;表示被分类模型判别为宏观图像的图像;为Softmax函数;为宏观图像阈值,若,则触发摘要生成;表示多模态大模型;为摘要最大token数;表示图像嵌入向量和对齐后的文本嵌入向量的联合嵌入向量;和分别表示图像和文本的嵌入模态权重;为未与图像向量进行同维度对齐处理的原始文本嵌入向量,为用于对齐维度的投影矩阵,通过线性回归训练得到参数;和分别为图像嵌入模型和文本嵌入模型;和分别为图形嵌入维度和文本嵌入维度;
对于CAD矢量图格式,采取B样条曲线解析转向量方式,构建的特征向量公式如下所式:
;
其中,则表示一条次B样条曲线,为定义在上的次B样条基函数;为线形转换而来的特征向量,将曲线参数按固定顺序拼接为向量;代表节点矢量;为控制点;为B样条对应的权重因子。
9.根据权利要求8所述的混合RAG架构的铁路多模态知识库问答系统构建方法,其特征在于:步骤4中,将本地框架扩展到网页端、微信公众号、小程序和第三方软件,核心组件包含协议自适应的API网关与异步消息中间件;
采用统一API网关架构实现多端接入,网关内置协议转换层,支持将HTTP/WebSocket异构协议统一转换为gRPC协议;协议转换过程通过输入归一化函数如下所示:
;
其中,表示输入数据;当来自HTTP协议时,即,执行JSON到ProtoBuf的序列化转换;当输入数据来自微信生态时,即,执行XML到ProtoBuf的转换;为异构输入数据集,协议转换延迟控制在15ms内,;
针对高并发场景,引入消息队列进行异步削峰,其消息处理延迟模型为:
;
其中,表示消息处理总时间;表示将原始消息数据转换为可传输或存储的标准化格式的序列化时间;表示消息数量;为分区数;为单消息消费时延。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510955213.8A CN120448512B (zh) | 2025-07-11 | 2025-07-11 | 混合rag架构的铁路多模态知识库问答系统构建方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510955213.8A CN120448512B (zh) | 2025-07-11 | 2025-07-11 | 混合rag架构的铁路多模态知识库问答系统构建方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN120448512A CN120448512A (zh) | 2025-08-08 |
| CN120448512B true CN120448512B (zh) | 2025-09-05 |
Family
ID=96622639
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510955213.8A Active CN120448512B (zh) | 2025-07-11 | 2025-07-11 | 混合rag架构的铁路多模态知识库问答系统构建方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120448512B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118627625A (zh) * | 2024-08-12 | 2024-09-10 | 山东浪潮科学研究院有限公司 | 一种通过混合检索方法增强rag问答方法及系统 |
| CN119336864A (zh) * | 2024-09-14 | 2025-01-21 | 北京九恒星科技股份有限公司 | 一种基于语义向量化的大语言模型知识检索方法及系统 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109564572A (zh) * | 2017-04-27 | 2019-04-02 | 微软技术许可有限责任公司 | 生成用于自动聊天的问题-答案对 |
| CN119961388A (zh) * | 2024-12-07 | 2025-05-09 | 上海辰华网络技术服务有限公司 | 基于大模型检索增强生成及指令监督微调的电力领域知识问答优化系统 |
| CN120163254B (zh) * | 2025-05-19 | 2025-08-05 | 中国计量大学 | 基于混合微调与多维评估的知识库问答系统优化方法、装置及其可读存储介质 |
-
2025
- 2025-07-11 CN CN202510955213.8A patent/CN120448512B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118627625A (zh) * | 2024-08-12 | 2024-09-10 | 山东浪潮科学研究院有限公司 | 一种通过混合检索方法增强rag问答方法及系统 |
| CN119336864A (zh) * | 2024-09-14 | 2025-01-21 | 北京九恒星科技股份有限公司 | 一种基于语义向量化的大语言模型知识检索方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN120448512A (zh) | 2025-08-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
| CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
| CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
| CN107798624B (zh) | 一种软件问答社区中的技术标签推荐方法 | |
| CN113032418A (zh) | 一种基于树状模型的复杂自然语言查询转sql方法 | |
| WO2023108991A1 (zh) | 模型的训练方法、知识分类方法、装置、设备、介质 | |
| CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
| CN117520491A (zh) | 一种基于大语言模型的智能问答方法与装置 | |
| CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
| CN120277223B (zh) | 基于多模态大模型的动态向量知识库构建与检索方法 | |
| CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
| CN118981476A (zh) | 基于本地知识库的报告自动生成检索增强优化方法和系统 | |
| CN114330367B (zh) | 一种基于句子的语义相似度获得方法、装置以及设备 | |
| CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
| CN118964641B (zh) | 为企业构建ai知识库模型的方法及系统 | |
| CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
| CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
| CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
| CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
| CN119621921A (zh) | 一种用于特定专业领域的多模态知识问答检索方法及系统 | |
| CN119537528A (zh) | 基于自然语言模型的铁路知识问答方法和装置 | |
| CN120011533A (zh) | 一种基于知识蒸馏与思维链的轻量化信息抽取方法及系统 | |
| CN119719334A (zh) | 文本生成方法、装置、设备及存储介质 | |
| CN120448512B (zh) | 混合rag架构的铁路多模态知识库问答系统构建方法 | |
| CN112765940B (zh) | 一种基于主题特征和内容语义的网页去重方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |