摘要
针对主流机器翻译系统中多词表达语义翻译不精确的问题,本发明提出了一种面向多词表达的机器翻译差分测试方法。步骤如下:采用基于深度学习的分词工具划分为词汇单元,结合预训练序列标记模型分配句法标签,并利用依存分析工具spaCy对词之间的句法关系进行标注;将完成标注语料转换为标准CoNLL格式,通过自动化工具提取句子的多词表达式,建立句子级和短语级对应关系的测试数据集;将测试集输入多翻译系统生成译文,使用对齐工具AWESOME精准定位源语言与目标语言MWEs的对应关系;基于BERTScore计算翻译相似度,通过组内与组间双重校验机制,结合动态阈值识别误译、漏译和未译,完成机器翻译在多词表达上翻译准确性的评估。本发明提出的方法能够精准识别多词表达翻译错误,通过差分测试方法精细化评估机器翻译系统在短语级语义翻译的准确性。
技术关键词
测试方法
对齐工具
构建测试数据
机器翻译系统
依存句法分析
自动化工具
层级
目标语言句子
错误检测
格式
序列标注模型
标记
表达式
翻译器
标签
语义
开源工具
分词
系统为您推荐了相关专利信息
硅胶按键
参数优化模型
测试方法
强化学习模型
强化学习算法
关系抽取方法
句法依存关系
三元组
节点
神经网络模型
FPGA芯片
待测芯片
芯片测试板
芯片验证系统
测试主机
车辆数据记录系统
测试管理平台
测试方法
输入命令
测试场景
初始荷电状态
电池充电管理
电池测试方法
放电功能
通用输入输出接口