摘要
本发明提供了一种基于双重语义对齐的中英双语中草药和靶点实体识别方法,包括设置中英文两种语言的实体对照语料库;利用编码器mBERT模型计算多语言对齐所需的损失函数;计算专业语义对齐所需的损失函数;计算正则化项;计算损失函数的总和并训练mBERT模型;在保持步骤五中训练后mBERT模型的部分参数不变的情况下,同时训练编码器mBERT模型和解码器CRF。本发明通过双重语义对齐技术,改进了传统实体识别方法,包括多语言对齐和专业语义对齐,以及部分微调策略,提高了跨语言文本中实体识别的准确性和鲁棒性,通过在基准数据集上的验证,证明了其相较于现有技术在性能上的显著提升。
技术关键词
实体识别方法
中草药
语义
编码器
多语言
计算机可读取存储介质
中英文对照
专业
解码器
对齐技术
词典
定义
处理器通信
模块
参数
识别装置
同义词
鲁棒性
系统为您推荐了相关专利信息
营销方法
分布式大数据
客户
图像解码器
数字营销系统
融合地理信息
旅游场景
生成方法
开放街道地图
数字高程模型
文本分类器
文本分类方法
文本分类装置
编码特征
抽取器