摘要
本申请提供了一种基于大模型的语言翻译数据处理方法及系统,通过对语言翻译数据进行编码分段,得到多个文本片段;对每个文本片段进行依存句法分析,确定每个文本片段的依存树结构,根据每两个文本片段之间的语义相似度和对应文本片段的依存树结构确定每两个文本片段之间显式语义的依赖关系;根据各个文本片段之间隐式语义的关联度和各个文本片段的分段损失对每两个文本片段之间的隐式语义关系进行依赖分析,得到每两个文本片段之间隐式语义的依赖关系;通过每两个文本片段之间显式语义和隐式语义的依赖关系构建语言翻译数据的段落标签,基于段落标签进行待翻译数据的翻译处理。采用本申请的方案,可实现长复杂文本的跨段语义指导翻译。
技术关键词
文本
翻译数据处理方法
依存句法分析
语义特征提取
分段
皮尔逊相关系数
标签
计算机设备
编码
补偿值
数据处理系统
可读存储介质
句法结构
处理器
模块
存储器
系统为您推荐了相关专利信息
图像生成模型
训练集
非暂态计算机可读介质
生成训练图像
令牌
行人再识别
文本
对齐方法
细粒度特征
图像特征提取
转换组件
集群
自动化管理方法
校验信息
自动化管理系统