摘要
本发明公开一种基于大语言模型的轨道交通知识库构建方法及系统,该方法包括:获取轨道交通领域的文本数据,通过文本提取工具将不同格式的所述文本数据转换为纯文本文件,去除所述纯文本文件中的无关格式标记、页眉页脚、图表和/或图像,并对所述纯文本文件进行分词和词性标注,生成多个文本块;提取关键词,设置过滤阈值排除位置权重低于过滤阈值的关键词,并按位置权重对剩余关键词进行排序,生成关键词列表,将关键词列表向量化,并构建倒排索引,关联关键词向量与文本块ID,并生成知识库;提取用户Query的关键词,将用户Query的关键词转换为向量表示,计算用户Query的关键词的向量与知识库中关键词向量之间的相似度,定位最相关的文本块ID。
技术关键词
知识库构建方法
大语言模型
文本
因子
构建系统
生成关键词
分词
格式
深度神经网络
词频统计
列表
图表
哈希算法
数据
唯一性
标记
图像
索引
意图
系统为您推荐了相关专利信息
配置数据处理方法
非结构化文本
历史性能数据
服务器集群配置
社区发现算法