摘要
本发明涉及一种面向案件信息检索增强生成的语义提取模型及方法,模型包括案件卷宗数据处理模块、基于语义的文档预拆分模块、基于规则的语义分割后处理模块、文档拆分结果处理及储存模块四个部分,针对案件卷宗类文档的数据形式,结合基于规则的文档分块方法和语义分析模型SeqModel的优势,实现了文档上下文语义内容的理解和有效分割。本发明方法的模型结构简单,通用性高,综合了自然语言处理语义分析模型和规则模型的优势,既考虑了上下文语义的依赖关系又关注了具体数据格式下的格式特点,可根据实际应用的文档数据领域,训练SeqModel模型并制定规则,实现大规模文档的高效拆分。
技术关键词
案件
数据处理模块
后处理模块
信息检索
语义分析模型
文档分块方法
语义提取方法
格式
语义分割模型
自然语言
池化方法
文本
编码器
符号
注意力机制
列表
键值