一种基于语义增强的弱语义低资源文字机器翻译方法

AITNT
正文
推荐专利
一种基于语义增强的弱语义低资源文字机器翻译方法
申请号:CN202510848052
申请日期:2025-06-24
公开号:CN120745658A
公开日期:2025-10-03
类型:发明专利
摘要
本发明以纳西东巴文到中文的翻译任务为例,提供一种基于语义增强的弱语义低资源文字机器翻译方法,包括步骤:S1、设计纳西东巴文编码体系,建立纳西东巴文电子词典;S2、收集并标注足够数量的纳西东巴文‑中文平行句对,构建纳西东巴文‑中文平行语料库;S3、将数据集分为微调数据集和测试数据集,并将微调数据集进一步划分为训练集和验证集;S4、构建基于微调和自定义词表嵌入的语义增强模型;S5、提出结合词替换的迭代反向翻译方法,构造扩展数据集;S6、构建基于语义增强的弱语义低资源文字机器翻译模型,采用增量更新机制,将步骤S5生成的高质量伪平行语料作为增量,输入步骤S3中的语义增强模型,通过参数调整优化模型权重;S7、将待翻译的纳西东巴文编码句输入更新后的模型进行翻译,输出结果。本发明基于传统专家经验进行纳西东巴文到中文的翻译研究,能够实现对纳西东巴文的自动翻译,同时具备持续学习和适应新数据的能力,提升弱语义低资源文字的机器翻译效果,并为相关领域的研究提供技术支持。
技术关键词
纳西东巴文 语义 自定义词 机器翻译方法 机器翻译模型 增量更新 平行语料库 编码体系 电子词典 目标语言句子 低资源语言 数据 语法结构 编码方案 符号 机制
系统为您推荐了相关专利信息
1
热点事件脉络追踪方法、装置、计算机设备和存储介质
核心 热点 嵌入特征 语义 追踪方法
2
一种基于本体的复合语义相关性量化方法及系统
节点 语义 量化系统 终点 映射方法
3
面向电价领域政策的大模型检索增强生成方法
关键词 融合外部知识 高维向量空间 节点 生成方法
4
基于多维特征画像的固件同源漏洞挖掘方法及系统
固件 画像特征 漏洞挖掘方法 通信组件 静态分析技术
5
融媒体用户个性化内容推荐与行为分析方法及系统
偏好特征 个性化内容推荐 注意力机制 sigmoid函数 兴趣
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号