摘要
本发明公开了一种基于检索增强的多语言机器翻译方法、装置、电子设备及存储介质。该方法收集了多语言数据集,对所述数据集进行了系统化的数据预处理;将预处理后的数据进行语种识别和领域划分,并进行分词和字节对编码;得到编码后的稠密向量,构建了包括英语,德语,法语,意大利语,汉语,日语的多语言检索增强数据库;将待翻译句子通过领域主题识别模型进行识别,将待翻译句子作为查询通过基于文本嵌入的检索算法和基于单词匹配的检索算法,检索出相似句对;通过提示模板指导大模型生成待翻译句子的翻译,并通过大模型译文质量评价选择出最佳译文。本发明通过检索增强的方式,有效地提高了模型对于低资源以及跨领域场景下的适应能力,提高了多语言机器翻译的翻译质量。
技术关键词
机器翻译方法
预训练语言模型
多语言
检索算法
数据
模板
语种识别
训练集
分词
向量检索方法
主题
文本检索方法
清洗单元
编码
识别模块
电子设备