摘要
本发明以纳西东巴文到中文的翻译任务为例,提供一种基于语义增强的弱语义低资源文字机器翻译方法,包括步骤:S1、设计纳西东巴文编码体系,建立纳西东巴文电子词典;S2、收集并标注足够数量的纳西东巴文‑中文平行句对,构建纳西东巴文‑中文平行语料库;S3、将数据集分为微调数据集和测试数据集,并将微调数据集进一步划分为训练集和验证集;S4、构建基于微调和自定义词表嵌入的语义增强模型;S5、提出结合词替换的迭代反向翻译方法,构造扩展数据集;S6、构建基于语义增强的弱语义低资源文字机器翻译模型,采用增量更新机制,将步骤S5生成的高质量伪平行语料作为增量,输入步骤S3中的语义增强模型,通过参数调整优化模型权重;S7、将待翻译的纳西东巴文编码句输入更新后的模型进行翻译,输出结果。本发明基于传统专家经验进行纳西东巴文到中文的翻译研究,能够实现对纳西东巴文的自动翻译,同时具备持续学习和适应新数据的能力,提升弱语义低资源文字的机器翻译效果,并为相关领域的研究提供技术支持。
技术关键词
纳西东巴文
语义
自定义词
机器翻译方法
机器翻译模型
增量更新
平行语料库
编码体系
电子词典
目标语言句子
低资源语言
数据
语法结构
编码方案
符号
机制
系统为您推荐了相关专利信息
关键词
融合外部知识
高维向量空间
节点
生成方法
固件
画像特征
漏洞挖掘方法
通信组件
静态分析技术
偏好特征
个性化内容推荐
注意力机制
sigmoid函数
兴趣