摘要
本发明公开了一种学科文本实体抽取与关键词生成方法及装置,方法包括:根据原始文本序列的多个字级词级拼接特征向量得到全局特征矩阵、局部特征矩阵和首尾加强特征矩阵,利用多头自注意力机制对矩阵进行特征融合得到融合特征矩阵,并通过解码融合特征矩阵得到存在知识点集合;存在知识点集合中包括存在于原始文本中的实体知识点;根据原始文本序列,利用BART和SoftMask生成包含原始文本的语义信息的词嵌入向量,并基于词嵌入向量得到生成知识点集合;生成知识点集合中包括不存在于原始文本中且与原始文本相关联的实体知识点;根据词语重要性分数、存在知识点集合和生成知识点集合进行筛选得到了更准确、全面的关键知识点集合。
技术关键词
知识点
关键词生成装置
文本
矩阵
融合特征
实体
生成方法
注意力机制
序列
解码
卷积模块
词嵌入向量
编码
词语
语义
指针
标签
算法
系统为您推荐了相关专利信息
三维模型
线性插值方法
生成方法
特征点
生成视频序列
冲击危险区域
回采工作面
分布特征
电极
观测装置
电子健康档案数据
数据处理方法
训练机器学习模型
文本特征向量
节点