一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法

正文

推荐专利

申请号：CN202510786478

申请日期：2025-06-12

公开号：CN120671669A

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法，涉及自然语言处理技术领域，该方法通过采集电子文献、古籍数字化成果及标准语料库中的未分字藏文文本；对文本进行清洗、格式规整及VCC序列提取，标注构形角色并完成字符标准化处理；通过Unicode编码规范化及VCC结构验证，修正非法组合并统一同形异码编码；计算结构规范系数、语义聚合系数及结构合法性系数，动态评估数据清洗、模型语义一致性和语言路径合法性，针对不合格情况自动调整策略；采用融合残差连接与多头注意力机制的增强型模型结合CRF层，基于BMES标签体系和Viterbi算法，实现高精度分字预测与错误修正，为古藏文数字化处理提供了关键技术支撑。

技术关键词

语义注意力多头注意力机制 Viterbi解码文本上下文特征标签体系路径匹配序列语言知识库字符映射表策略覆盖率数据压缩多层注意力动态规划算法图谱

系统为您推荐了相关专利信息

旅游笔记生成方法、装置及电子设备

笔记生成方法样本模块文本数据

一种基于半规范化描述体系的预案流程图自动生成方法

自动生成方法生成机制自然语言文本生成算法

一种基于情绪可视化的虚拟现实交互方法及系统

虚拟现实交互方法场景虚拟现实设备自然景观心率监测设备

基于多模态大语言模型的芯片时序图标注方法及装置

大语言模型标注方法文本多模态信号线

电子病历智能编码方法和装置、系统、存储介质

智能编码方法电子病历智能编码装置深度卷积生成对抗网络多模态特征

一种基于组字结构与AttentionBiLSTM的古藏文智能分字方法

站点导航

APP 下载