摘要
本发明公开了一种基于主题信息的领域双语句对选择方法,借助双语句对与目标领域的主题相关性,从领域混杂的大规模双语语料库中选择与待翻译文本相关的句对子集,用以训练特定领域翻译系统,以提升领域文本的翻译质量。首先,该方法利用短语对在双语语料库中的上下文单词学习短语对的主题向量;其次,对于目标领域开发集和候选双语句对,利用从中抽取的短语对集合,获取它们的主题向量;最终,计算候选双语句对和领域开发集文本的主题相关度,相关性高的句对将被优先选择作为目标领域训练数据。还公开了一种基于主题信息的领域双语句对选择系统。本发明借助文本的主题相关度选择领域相关的双语句对,解决了特定领域训练数据不足的问题。
技术关键词
语句
机器翻译系统训练
双语平行语料库
双语语料库
抽取算法
训练主题模型
数学
文本
数据
模块
数值
指标
频率