一种实时语音翻译合成的音画字幕对齐方法及系统

正文

推荐专利

申请号：CN202510808154

申请日期：2025-06-17

公开号：CN120455752A

公开日期：2025-08-08

类型：发明专利

摘要

本发明提供了一种实时语音翻译合成的音画字幕对齐方法及系统，涉及语音处理技术领域；本发明通过分片级并行处理实现翻译语音与视频的毫秒级对齐，相比传统方案延迟大大降低，解决了直播时翻译后的语音画面不同步问题；本发明根据直播内容自动生成实时语音翻译，再分别处理得到对应的srt文件和翻译后m3u8分片；因此，无需人工提前进行翻译和字幕生成，也无需提前对原视频进行音频替换，节约了人力成本的同时提供了更加通用的直播流字幕方案；此外，本发明在切换语种时，播放器可以自行选择开始的时间点，从而使得本方法支持在线直播和直播回放等多种播放模式。

技术关键词

实时语音对齐方法分片字幕翻译语言嘴唇轮廓音频块抑制环境噪声视频播放器流媒体服务器对齐系统文本情感特征音频编码机器翻译对齐模块动态更新

系统为您推荐了相关专利信息

一种基于生成式AI与虚拟人技术的数学教学虚拟教师系统

虚拟教师系统知识点学生解题隐马尔可夫模型注意力机制

一种基于多元融合的虚拟社交系统

虚拟社交系统场景可视化实时语音数据分析模块社交互动方式

基于推理路径提示的多跳视觉问答方法

实体视觉问答方法问答模型文本编码器图像编码器

一种面向医学知识图谱的实体对齐方法及相关装置

医学知识图谱节点上下文语义信息概念实体对齐方法

一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置

语音识别模型嵌入式设备音频同步字幕自动化语音识别

一种实时语音翻译合成的音画字幕对齐方法及系统

站点导航

APP 下载