摘要
本发明公开了一种基于词汇增强和字符外部信息的中文实体识别模型和方法,解决了未能充分利用汉字外部信息和仅依赖词频确定匹配词静态权重的问题。中文实体识别模型依次连接有汉字信息提取部分、含有动态匹配词特征的汉字特征提取部分、增强字符嵌入和部件嵌入的双路编码器部分以及解码输出部分。实现方法包括有数据清洗、含有动态匹配词特征的汉字特征提取、增强字符嵌入和部件嵌入的双路编码和解码输出。本发明用双路编码结构将汉字的词汇、拼音和部件信息融合于模型;提取匹配词特征时用动态权重对匹配词嵌入加权,更均衡合理,避免权重分配过于偏向高频词,提高了泛化能力和识别精度。用于从非结构化的输入文本中抽取中文实体。
技术关键词
字符
词特征
特征提取模块
实体识别方法
拼音
卷积神经网络提取
上下文特征
动态
实体识别模型
门控循环单元
汉字部件
注意力机制
线性链条件随机场
解码
编码器
卷积神经网络结构
sigmoid函数
关系
系统为您推荐了相关专利信息
域名系统安全
域名查询请求
反向地址解析
变体域名
域名解析请求
充电设备
有序充电管理系统
非线性特征
调度特征
充放电循环次数
设备状态预测
切换通信信道
决策方法
幅值
决策系统
多模态特征
动作特征
情绪特征
情绪识别模型
查询特征