摘要
本发明提供文档级事件论元提取方法及系统,方法包括:利用基于事件共指实体的文本标记模块进行语义相似度计算,检索、标记原始文本的事件共指实体,得到共指增强文本;基于双路编码器与解码器的模型结构,拼接原始文本、共指增强文本与对应事件描述模板,共享参数编码器编码得到文本表示,提取论元表示进行表示对齐,根据对齐损失函数进行模型优化;利用生成式事件论元识别和提取模块,处理得到文本表示,获取事件论元抽取生成序列,处理得到事件论元抽取结果。本发明解决了由于论元分散、论元与触发词间距离过大、文档冗余、误差传播,导致事件论元信息抽取准确性及模型泛化性较差的技术问题。
技术关键词
文本
参数编码器
实体
对齐模块
解码器
模板
标记
语义
损失函数优化
逻辑
序列
定义
模版
冗余
误差
关系
系统为您推荐了相关专利信息
实体关系抽取方法
航天设备
序列标注模型
文本规范化
sigmoid函数