一种融合多粒度特征的中文医疗文本命名实体识别方法

AITNT
正文
推荐专利
一种融合多粒度特征的中文医疗文本命名实体识别方法
申请号:CN202410856056
申请日期:2024-06-28
公开号:CN118862886A
公开日期:2024-10-29
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,且公开了一种融合多粒度特征的中文医疗文本命名实体识别方法,包括以下步骤:S1:数据预处理,获取需要进行命名实体识别的中文医疗文本数据和标注数据,对医疗文本数据进行预处理,生成训练集、验证集、测试集;S2:数据嵌入,对预处理后文本数据的每个字符通过预训练语言模型得到对应的字嵌入。本发明不仅能够更有效地整合不同粒度的特征,避免了信息孤立和过拟合的问题,使得特征融合更加高效,而且能够提高识别的准确性和效率,还能够生成的词嵌入对于文本中的噪声、拼写错误等问题具有较好的鲁棒性,并且更好地控制过拟合风险,提高模型的泛化能力。
技术关键词
多粒度特征 医疗文本数据 字符 预训练语言模型 交叉注意力机制 命名实体识别 数据嵌入 sigmoid函数 嵌入特征 训练集 笔画 词特征 词典 矩阵乘法运算 汉字
系统为您推荐了相关专利信息
1
打印控制方法、装置、电子设备和存储介质
打印控制方法 环形缓冲区 指针 字符 非暂态计算机可读存储介质
2
一种案件检索方法
案件检索方法 检索装置 预训练语言模型 重排方法 sigmoid函数
3
基于机器学习的动态绩效评价指标优化系统
指标优化系统 多源异构数据 动态 机器学习技术 数据获取模块
4
一种基于提示学习的多模态目标重识别方法
行人重识别模型 重识别方法 特征提取模块 特征提取器 块编码器
5
一种基于大语言模型的医疗辅诊方法和装置
大语言模型 医疗文本数据 病历 排序系统 专家系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号