一种端到端的藏语字符音节级数据清洗方法

AITNT
正文
推荐专利
一种端到端的藏语字符音节级数据清洗方法
申请号:CN202511197824
申请日期:2025-08-26
公开号:CN120723886B
公开日期:2025-11-14
类型:发明专利
摘要
一种端到端的藏语字符音节级数据清洗方法,涉及藏语自然语言处理领域。通过分析藏语拼写错误特征,设计了一种基于预训练语言模型的双头编码器‑解码器架构,结合半掩码技术实现了字符级和音节级错误的分级检测与校正。该模型具有三大创新点:专门针对藏语多层级语言特性设计的神经网络架构;引入半掩码技术精准定位音节级错误区域;采用分级处理机制平衡模型性能与计算效率。实验结果表明,本方法在保持高准确率的同时,计算效率较传统两阶段模型提升30%以上。本方法不仅解决了藏语数据清洗中人工校验效率低、质量不稳定的问题,也为其他资源稀缺的少数民族语言文本处理提供了可借鉴的技术方案,对推动民族语言信息处理技术的发展具有重要意义。
技术关键词
数据清洗方法 字符 预训练语言模型 列表 矫正模型 文本 掩码技术 多层感知机 神经网络架构 解码器架构 信息处理技术 索引 变量 自然语言 两阶段 线性 编码器 双头
系统为您推荐了相关专利信息
1
数据处理方法、装置、设备及可读存储介质
参数 样本 芯片 数据处理方法 计算机设备
2
一种基于云计算的独立任务动态调度方法
动态调度方法 列表 主机 链表 调度器
3
一种毒品关键词智能比对方法
智能比对方法 关键词 文本 黑名单库 中文分词模型
4
验证码的生成、验证方法、装置、设备及存储介质
特征值 验证终端 验证码生成方法 字符 验证方法
5
一种多模态违禁词检测方法及系统
字符 词检测方法 神经网络模型 指数 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号