一种基于语义增强的弱语义低资源文字机器翻译方法

正文

推荐专利

申请号：CN202510848052

申请日期：2025-06-24

公开号：CN120745658A

公开日期：2025-10-03

类型：发明专利

摘要

本发明以纳西东巴文到中文的翻译任务为例，提供一种基于语义增强的弱语义低资源文字机器翻译方法，包括步骤：S1、设计纳西东巴文编码体系，建立纳西东巴文电子词典；S2、收集并标注足够数量的纳西东巴文‑中文平行句对，构建纳西东巴文‑中文平行语料库；S3、将数据集分为微调数据集和测试数据集，并将微调数据集进一步划分为训练集和验证集；S4、构建基于微调和自定义词表嵌入的语义增强模型；S5、提出结合词替换的迭代反向翻译方法，构造扩展数据集；S6、构建基于语义增强的弱语义低资源文字机器翻译模型，采用增量更新机制，将步骤S5生成的高质量伪平行语料作为增量，输入步骤S3中的语义增强模型，通过参数调整优化模型权重；S7、将待翻译的纳西东巴文编码句输入更新后的模型进行翻译，输出结果。本发明基于传统专家经验进行纳西东巴文到中文的翻译研究，能够实现对纳西东巴文的自动翻译，同时具备持续学习和适应新数据的能力，提升弱语义低资源文字的机器翻译效果，并为相关领域的研究提供技术支持。

技术关键词

纳西东巴文语义自定义词机器翻译方法机器翻译模型增量更新平行语料库编码体系电子词典目标语言句子低资源语言数据语法结构编码方案符号机制

系统为您推荐了相关专利信息

热点事件脉络追踪方法、装置、计算机设备和存储介质

核心热点嵌入特征语义追踪方法

一种基于本体的复合语义相关性量化方法及系统

节点语义量化系统终点映射方法

面向电价领域政策的大模型检索增强生成方法

关键词融合外部知识高维向量空间节点生成方法

基于多维特征画像的固件同源漏洞挖掘方法及系统

固件画像特征漏洞挖掘方法通信组件静态分析技术

融媒体用户个性化内容推荐与行为分析方法及系统

偏好特征个性化内容推荐注意力机制 sigmoid函数兴趣

一种基于语义增强的弱语义低资源文字机器翻译方法

站点导航

APP 下载