摘要
本发明涉及信息处理技术领域,公开了一种文件处理方法及装置,该方法包括:获取目标文件;目标文件包括若干个内容单元;内容单元的类型包括结构化数据和非结构化数据;对若干个内容单元分别进行语义提取,并对应生成多个内容单元之间的关联特征;基于关联特征对目标文件进行分类,生成至少一个分类标签;根据分类标签,从关联特征中提取领域信息;基于领域信息、分类标签以及多个内容单元之间的关联特征,生成目标文件的摘要。解决了传统方法在文件分类模糊、信息提取分散及摘要灵活性不足的问题。例如,可应用于招投标文件处理,精准识别技术参数与商务条款的关联性,生成结构化摘要,同时适用于合同审查、技术文档分析等场景。
技术关键词
摘要
语义向量
TextRank算法
多标签
文本段落
生成自然语言
数据
关系
逻辑
BERT模型
信息处理技术
表格
注意力机制
信息系统
模块
模板
系统为您推荐了相关专利信息
自主诊断方法
故障树模型
诊断特征
投影特征
异常事件
知识图谱生成方法
分层特征提取
特征提取模型
多层次特征
关系建模