摘要
本公开提供一种专利数据处理方法、装置及电子设备,包括:获取待处理专利数据集合中每项专利数据的文本信息以及非文本信息;对每项专利的摘要数据进行处理得到每项专利的摘要嵌入向量;利用词频逆文本频率算法确定每项专利的关键词信息;建立任意两项专利之间的文本关联关系以及非文本关联关系;利用建立的文本关联关系和非文本关联关系构建以专利为节点,以关联关系为边的图结构;基于图结构生成初始神经网络词嵌入模型的训练集,并对初始神经网络词嵌入模型进行训练,基于训练后的神经网络词嵌入模型得到待处理专利数据集合中每项专利的特征向量;基于得到的每项专利的特征向量对待处理专利数据集合进行处理。
技术关键词
词嵌入模型
文本
关键词
摘要
节点
关系
分词
著录项目
数据处理方法
线段
端点
训练集
关键性
算法
频率
电子设备
数据处理装置
数据处理模块
处理器