基于语言相似性增强的平行句对抽取方法及装置

正文

推荐专利

申请号：CN202411519517

申请日期：2024-10-29

公开号：CN119047457B

公开日期：2025-01-24

类型：发明专利

摘要

本发明涉及基于语言相似性增强的平行句对抽取方法及装置，属于自然语言处理技术领域。针对现有的平行句对抽取方法应用到中泰、中老任务时，泰语和老挝语训练数据稀缺导致模型对泰语和老挝语的表征能力弱、抽取效果不好的问题，提出了本发明，本发明主要包括融合语言增强特征的数据预处理、训练基于语言相似性增强的中老泰多语言平行句对抽取模型、中老泰多语言平行句对抽取三部分。根据这三个功能模块化制成基于语言相似性增强的平行句对抽取装置，从中泰及中老可比语料中抽取平行句对，本发明有效提升了中泰和中老平行句对抽取效果。

技术关键词

训练语言模型发音交互注意力双语语料文本序列编码器模块抽取系统词典数据抽取装置语义编码向量模型优化方法多头注意力机制神经网络方法多语言锚点

系统为您推荐了相关专利信息

一种多源异构数据融合的检索增强生成方法

融合语义语义向量生成方法多源异构数据融合自然语言文本

深度学习算子定位方法、电子设备、存储介质和程序产品

定位方法深度学习框架索引位置提取生成深度学习

用于训练基础模型的方法和系统

图像特征向量视频大语言模型文本基础

一种基于AI扩散模型的智能化数据处理系统及方法

图像特征数据语义数据传输模块数据采集模块跨模态

一种基于深度学习的安全检查工具智能分析方法与系统

智能分析方法文本编码器图像编码器跨模态文本特征向量

基于语言相似性增强的平行句对抽取方法及装置

站点导航

APP 下载