摘要
本发明公开了一种融合显性特征与隐性特征的古文命名实体识别模型,属于自然语言处理领域。方法包括:首先采用预训练GuwenBERT模型结合多头自注意力机制提取文本显性语义特征;其次通过旋转位置编码捕捉汉字相对位置,结合词性标注和部首解析模块分别获取语法特征与字形语义来构建隐性特征层;继而设计多头交叉注意力机制,引入可学习动态权重实现自适应特征融合,使显性特征与位置/词性/部首三类隐性特征进行交互;最终通过条件随机场进行全局标签解码。该模型创新性地整合了古文特有的语法规则和汉字形义特征,实验表明其F1值显著优于基线模型,适用于古籍数字化、历史文献分析等领域,为数字人文研究提供了有效的技术支撑。
技术关键词
隐性特征
前馈神经网络
Word2Vec模型
语义向量
交叉注意力机制
命名实体识别模型
特征提取模块
语义特征
命名实体识别方法
词语
文本
编码模块
生成汉字
序列
条件随机场
词性信息
语法特征
标签
系统为您推荐了相关专利信息
医学知识图谱
医学问答方法
语义向量
文本
医学影像病灶
新闻推荐系统
协同过滤算法
关键词
结构化数据格式
模型训练模块
航天器
融合图像信息
多头注意力机制
协同感知方法
分布式信息