一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法

AITNT
正文
推荐专利
一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法
申请号:CN202510786478
申请日期:2025-06-12
公开号:CN120671669A
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法,涉及自然语言处理技术领域,该方法通过采集电子文献、古籍数字化成果及标准语料库中的未分字藏文文本;对文本进行清洗、格式规整及VCC序列提取,标注构形角色并完成字符标准化处理;通过Unicode编码规范化及VCC结构验证,修正非法组合并统一同形异码编码;计算结构规范系数、语义聚合系数及结构合法性系数,动态评估数据清洗、模型语义一致性和语言路径合法性,针对不合格情况自动调整策略;采用融合残差连接与多头注意力机制的增强型模型结合CRF层,基于BMES标签体系和Viterbi算法,实现高精度分字预测与错误修正,为古藏文数字化处理提供了关键技术支撑。
技术关键词
语义注意力 多头注意力机制 Viterbi解码 文本 上下文特征 标签体系 路径匹配 序列 语言知识库 字符映射表 策略 覆盖率 数据压缩 多层注意力 动态规划算法 图谱
系统为您推荐了相关专利信息
1
旅游笔记生成方法、装置及电子设备
笔记生成方法 样本 模块 文本 数据
2
一种基于半规范化描述体系的预案流程图自动生成方法
自动生成方法 生成机制 自然语言 文本 生成算法
3
一种基于情绪可视化的虚拟现实交互方法及系统
虚拟现实交互方法 场景 虚拟现实设备 自然景观 心率监测设备
4
基于多模态大语言模型的芯片时序图标注方法及装置
大语言模型 标注方法 文本 多模态 信号线
5
电子病历智能编码方法和装置、系统、存储介质
智能编码方法 电子病历 智能编码装置 深度卷积生成对抗网络 多模态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号