摘要
本发明提供一种基于大模型的航空多领域数据自适应提取方法及系统,涉及数据检索技术领域,方法包括:获取航空领域多领域数据集并进行预处理得到预处理数据集;基于预处理数据集构建若干个倒排索引表;基于训练好的BGE模型将预处理数据集中各文本的各段落进行语义特征提取,得到语义特征向量库;基于训练好的BGE模型对用户输入的文本进行语义特征提取,得到输入特征向量;基于大模型计算得到余弦相似度集合和语素相似度集合;并将语素相似度集合进行归一化处理,得到归一化值集合;对归一化值集合和余弦相似度集合进行融合排序得到提取结果。本发明将同时将关键词提取和语义提取结果进行融合排序,保证提取的丰富性与排序的准确度。
技术关键词
文本
索引表
语义特征提取
航空
特征向量库
语句
键值
无监督
训练集
数据检索技术
表达式
特征提取模块
术语
词典
关键词
因子