一种端到端的藏语字符音节级数据清洗方法

正文

推荐专利

一种端到端的藏语字符音节级数据清洗方法

申请号：CN202511197824

申请日期：2025-08-26

公开号：CN120723886B

公开日期：2025-11-14

类型：发明专利

摘要

一种端到端的藏语字符音节级数据清洗方法，涉及藏语自然语言处理领域。通过分析藏语拼写错误特征，设计了一种基于预训练语言模型的双头编码器‑解码器架构，结合半掩码技术实现了字符级和音节级错误的分级检测与校正。该模型具有三大创新点：专门针对藏语多层级语言特性设计的神经网络架构；引入半掩码技术精准定位音节级错误区域；采用分级处理机制平衡模型性能与计算效率。实验结果表明，本方法在保持高准确率的同时，计算效率较传统两阶段模型提升30%以上。本方法不仅解决了藏语数据清洗中人工校验效率低、质量不稳定的问题，也为其他资源稀缺的少数民族语言文本处理提供了可借鉴的技术方案，对推动民族语言信息处理技术的发展具有重要意义。

技术关键词

数据清洗方法字符预训练语言模型列表矫正模型文本掩码技术多层感知机神经网络架构解码器架构信息处理技术索引变量自然语言两阶段线性编码器双头

系统为您推荐了相关专利信息

数据处理方法、装置、设备及可读存储介质

参数样本芯片数据处理方法计算机设备

一种基于云计算的独立任务动态调度方法

动态调度方法列表主机链表调度器

一种毒品关键词智能比对方法

智能比对方法关键词文本黑名单库中文分词模型

验证码的生成、验证方法、装置、设备及存储介质

特征值验证终端验证码生成方法字符验证方法

一种多模态违禁词检测方法及系统

字符词检测方法神经网络模型指数文本

一种端到端的藏语字符音节级数据清洗方法

站点导航

APP 下载