摘要
本发明涉及自然语言处理技术领域,且公开了一种融合多粒度特征的中文医疗文本命名实体识别方法,包括以下步骤:S1:数据预处理,获取需要进行命名实体识别的中文医疗文本数据和标注数据,对医疗文本数据进行预处理,生成训练集、验证集、测试集;S2:数据嵌入,对预处理后文本数据的每个字符通过预训练语言模型得到对应的字嵌入。本发明不仅能够更有效地整合不同粒度的特征,避免了信息孤立和过拟合的问题,使得特征融合更加高效,而且能够提高识别的准确性和效率,还能够生成的词嵌入对于文本中的噪声、拼写错误等问题具有较好的鲁棒性,并且更好地控制过拟合风险,提高模型的泛化能力。
技术关键词
多粒度特征
医疗文本数据
字符
预训练语言模型
交叉注意力机制
命名实体识别
数据嵌入
sigmoid函数
嵌入特征
训练集
笔画
词特征
词典
矩阵乘法运算
汉字
系统为您推荐了相关专利信息
打印控制方法
环形缓冲区
指针
字符
非暂态计算机可读存储介质
案件检索方法
检索装置
预训练语言模型
重排方法
sigmoid函数
指标优化系统
多源异构数据
动态
机器学习技术
数据获取模块
行人重识别模型
重识别方法
特征提取模块
特征提取器
块编码器
大语言模型
医疗文本数据
病历
排序系统
专家系统