摘要
本发明公开了一种面向多类信息融合的事件抽取方法,使用在大规模语料上完成预训练的模型作为编码器,并在事件抽取这一下游任务上进行微调,结合提示进一步优化文本的特征表示,引导模型对事件触发词进行抽取。该方法以拼接形式对文本单词的词性信息以及实体信息进行融合,使用双向长短期记忆网络捕获文本单词前后之间的关联信息。在完成以上信息的融合构造后,为保存模型对现有融合信息的理解能力,同时为了优化预训练模型与图网络的联合训练,该方法冻结了预训练模型的参数,同时引入新的统计词向量编码,在此基础上对句法信息进行融合。而针对正样本触发词在文本数据中不平衡的问题,使用能够有效缓解图网络异质性以及过平滑问题的改进图神经网络建模句法关系信息,在损失计算时使用焦点损失函数给予触发词更多的关注。本发明在有效融合了预训练模型语料以及多类文本词信息的基础之上,还考虑了样本不平衡所带来编码问题,在复杂的文本语料中完成了事件触发词的抽取,同时取得了较好的识别精度和分类性能。
技术关键词
事件抽取方法
事件触发词
焦点损失函数
句法信息
实体
预训练模型
节点
邻居
令牌
大规模语料
长短期记忆网络
分词
标签
词典
文本编码器
词性信息
可读存储介质
系统为您推荐了相关专利信息
自然语言文本
大语言模型
信息执行控制
关键词
计算机程序指令
重识别方法
行人重识别数据
文本编码器
图文
融合特征
波形钢腹板
连续梁桥施工
线形控制方法
数字孪生模型
桥梁线形