摘要
本发明属于机器翻译技术领域,提供了一种基于历史文档词统计与词对齐方法的术语对提取方法、装置及介质,其中方法包括:(1)基于历史文档构建语料库;(2)每个历史文档进行分词;(3)输入文档进行分词;(4)遍历集合中的所有词;(5)得到术语集合。本发明通过历史文档作为判断依据,可以解决某些高频词并非为术语,但被识别为术语的问题,且不需要引入词性判断步骤,减少了判断误差。
技术关键词
对齐方法
术语
机器翻译技术
正确率
存储计算机程序
中文分词
判断误差
存储器
处理器
代表
可读存储介质
系统为您推荐了相关专利信息
参数
策略
电子设备
计算机存储介质
存储计算机程序
神经网络系统
事件相机
闪耀光栅
光路系统
并行处理单元
文本生成图像
大语言模型
文本编码器
反馈优化方法
对齐模块