同传翻译训练数据生成方法、相关设备及程序产品

AITNT
正文
推荐专利
同传翻译训练数据生成方法、相关设备及程序产品
申请号:CN202510984570
申请日期:2025-07-17
公开号:CN120493956B
公开日期:2025-11-07
类型:发明专利
摘要
本申请公开了一种同传翻译训练数据生成方法、相关设备及程序产品,涉及同声传译技术领域。本申请基于双语字幕音视频数据中的双语字幕信息,获取每一音频片段对应的第一源语言文本和第一目标语言文本,音频片段为双语字幕音视频数据中音频所包含的一个片段;对音频片段进行语音识别,得到音频片段对应的第二源语言文本;按照配置的源语言对齐规则,利用第一源语言文本对第二源语言文本进行对齐,得到源语言对齐文本并筛选源语言对齐文本对应的目标音频片段;基于目标音频片段,及目标音频片段对应的第一目标语言文本,生成同传翻译训练数据。本申请无需人工标注,节省了人工成本,且提高了训练数据获取效率。
技术关键词
文本 双语字幕 训练数据生成方法 音频 音视频 视频帧 外挂字幕 语音活动性检测 同声传译技术 元素 翻译模型 计算机程序产品 处理器 编辑 可读存储介质 存储器
系统为您推荐了相关专利信息
1
一种组件推荐方法、装置、设备和存储介质
推荐方法 项目 模板 兴趣 深度强化学习模型
2
一种基于图像识别的作业批改方法及其系统
作业批改方法 NFC技术 图像识别技术 学生 身份识别模块
3
文本分类模型的训练方法、装置、电子设备、存储介质及程序产品
多层级标签 生成训练样本 计算机执行指令 标签组 编码策略
4
一种基于大模型的对话处理方法及系统
话题 语义 波动特征 序列 矩阵
5
基于多设备协同的音频控制方法、装置、设备及存储介质
音频控制方法 多设备协同 空间位置关系 音频设备 测距模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号