摘要
本发明涉及基于语言相似性增强的平行句对抽取方法及装置,属于自然语言处理技术领域。针对现有的平行句对抽取方法应用到中泰、中老任务时,泰语和老挝语训练数据稀缺导致模型对泰语和老挝语的表征能力弱、抽取效果不好的问题,提出了本发明,本发明主要包括融合语言增强特征的数据预处理、训练基于语言相似性增强的中老泰多语言平行句对抽取模型、中老泰多语言平行句对抽取三部分。根据这三个功能模块化制成基于语言相似性增强的平行句对抽取装置,从中泰及中老可比语料中抽取平行句对,本发明有效提升了中泰和中老平行句对抽取效果。
技术关键词
训练语言模型
发音
交互注意力
双语语料
文本
序列
编码器模块
抽取系统
词典
数据
抽取装置
语义
编码向量
模型优化方法
多头注意力机制
神经网络方法
多语言
锚点
系统为您推荐了相关专利信息
融合语义
语义向量
生成方法
多源异构数据融合
自然语言文本
定位方法
深度学习框架
索引
位置提取
生成深度学习
图像特征数据
语义
数据传输模块
数据采集模块
跨模态
智能分析方法
文本编码器
图像编码器
跨模态
文本特征向量