摘要
本发明公开了一种语言模型对话式的知识库内容搜索方法、设备及介质,属于人工智能技术领域,用于解决现有的知识库内容搜索时,容易造成语义理解偏差、维度考量失衡、文档解析混乱以及大规模数据处理效率低下的技术问题。方法包括:将用户向知识库上传的不同类型文档进行文档解析处理,得到文档内容数据;对文档内容数据进行文本块的分片与合并处理,得到分块文档内容数据;将分块文档内容数据进行向量化的入库处理;并将入库的分块文档内容数据进行重组标记处理;根据用户的检索请求数据,对知识库进行相似文档块的搜索处理,得到搜索结果数据;对搜索结果数据中对应的文档块进行答案数据的提取处理,生成与检索请求数据对应的回答数据。
技术关键词
内容搜索方法
分块
文本
XGBoost模型
大语言模型
文件类型识别
格式
非易失性计算机可读存储介质
非易失性计算机存储介质
关系型数据库
内容搜索设备
分布式搜索引擎
布局结构
标记
分片
答案
文件头信息
连续性
上下文特征
系统为您推荐了相关专利信息
文档检索方法
文档关键词
样本
维基百科
文档检索系统
电子测试仪器
知识库构建方法
大语言模型
信息抽取方法
关系型数据库
序列
大语言模型
计算机程序产品
可读存储介质
计算机设备