摘要
本申请实施例提供了一种标记语言文档处理方法、装置、设备和存储介质,逐个解析标记语言文档,得到与若干个标题一一对应的若干个标题文档与若干个文档拼接信息;根据若干个文档拼接信息之间的第一相似度以及层级关系将若干个标题文档存储至预设数据库;使用用户发送的问题文本检索预设数据库中的备选标题文档;按照备选标题文档与问题文本的之间的第二相似度选取目标标题文档;将目标标题文档与问题文本输入大型语言模型,以获取针对问题文本的回答文本。本申请实施例提升了解析和检索标记语言格式文本方面的精准度和检索结果的相关性。
技术关键词
文本
层级
解析标记语言文档
关系
机器可读介质
语义
遍历方式
云平台
排序模型
拼接模块
处理器
输入模块
存储模块
节点
电子设备
分词
字段
系统为您推荐了相关专利信息
关键帧
文本
光学字符识别
风险检测方法
视频解码
动态知识图谱
知识图谱生成方法
节点
语义向量
序列
法律知识图谱
大语言模型
交互方法
生成回复信息
实体