摘要
本申请提出一种文件处理方法、设备及产品,应用于自然语言处理领域。其中,文件处理方法包括:获取条款文件;通过文件解析模型对条款文件进行解析,得到文件内容,文件解析模型包括布局检测模型和多模态识别模型,布局检测模型用于检测条款文件中的布局元素,多模态识别模型用于对条款文件中表格类型和/或图像类型的布局元素进行内容识别;从文件内容中抽取得到条款信息。从而,结合布局检测模型和多模态识别模型,提高了条款文件解析的准确性,进而提高了条款抽取的准确性。
技术关键词
布局特征
数据输出格式
元素
目录
多模态
内容更新
计算机程序产品
处理器
文本
存储器
数据接口
自然语言
关系
层级
语义
图像
电子设备
表格