一种融合多粒度特征的中文医疗文本命名实体识别方法

正文

推荐专利

申请号：CN202410856056

申请日期：2024-06-28

公开号：CN118862886A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，且公开了一种融合多粒度特征的中文医疗文本命名实体识别方法，包括以下步骤：S1：数据预处理，获取需要进行命名实体识别的中文医疗文本数据和标注数据，对医疗文本数据进行预处理，生成训练集、验证集、测试集；S2：数据嵌入，对预处理后文本数据的每个字符通过预训练语言模型得到对应的字嵌入。本发明不仅能够更有效地整合不同粒度的特征，避免了信息孤立和过拟合的问题，使得特征融合更加高效，而且能够提高识别的准确性和效率，还能够生成的词嵌入对于文本中的噪声、拼写错误等问题具有较好的鲁棒性，并且更好地控制过拟合风险，提高模型的泛化能力。

技术关键词

多粒度特征医疗文本数据字符预训练语言模型交叉注意力机制命名实体识别数据嵌入 sigmoid函数嵌入特征训练集笔画词特征词典矩阵乘法运算汉字

系统为您推荐了相关专利信息

打印控制方法、装置、电子设备和存储介质

打印控制方法环形缓冲区指针字符非暂态计算机可读存储介质

一种案件检索方法

案件检索方法检索装置预训练语言模型重排方法 sigmoid函数

基于机器学习的动态绩效评价指标优化系统

指标优化系统多源异构数据动态机器学习技术数据获取模块

一种基于提示学习的多模态目标重识别方法

行人重识别模型重识别方法特征提取模块特征提取器块编码器

一种基于大语言模型的医疗辅诊方法和装置

大语言模型医疗文本数据病历排序系统专家系统

一种融合多粒度特征的中文医疗文本命名实体识别方法

站点导航

APP 下载