一种实时语音翻译合成的音画字幕对齐方法及系统

AITNT
正文
推荐专利
一种实时语音翻译合成的音画字幕对齐方法及系统
申请号:CN202510808154
申请日期:2025-06-17
公开号:CN120455752A
公开日期:2025-08-08
类型:发明专利
摘要
本发明提供了一种实时语音翻译合成的音画字幕对齐方法及系统,涉及语音处理技术领域;本发明通过分片级并行处理实现翻译语音与视频的毫秒级对齐,相比传统方案延迟大大降低,解决了直播时翻译后的语音画面不同步问题;本发明根据直播内容自动生成实时语音翻译,再分别处理得到对应的srt文件和翻译后m3u8分片;因此,无需人工提前进行翻译和字幕生成,也无需提前对原视频进行音频替换,节约了人力成本的同时提供了更加通用的直播流字幕方案;此外,本发明在切换语种时,播放器可以自行选择开始的时间点,从而使得本方法支持在线直播和直播回放等多种播放模式。
技术关键词
实时语音 对齐方法 分片 字幕 翻译语言 嘴唇轮廓 音频块 抑制环境噪声 视频 播放器 流媒体服务器 对齐系统 文本 情感特征 音频编码 机器翻译 对齐模块 动态更新
系统为您推荐了相关专利信息
1
一种基于生成式AI与虚拟人技术的数学教学虚拟教师系统
虚拟教师系统 知识点 学生解题 隐马尔可夫模型 注意力机制
2
一种基于多元融合的虚拟社交系统
虚拟社交系统 场景可视化 实时语音 数据分析模块 社交互动方式
3
基于推理路径提示的多跳视觉问答方法
实体 视觉问答方法 问答模型 文本编码器 图像编码器
4
一种面向医学知识图谱的实体对齐方法及相关装置
医学知识图谱 节点 上下文语义信息 概念 实体对齐方法
5
一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置
语音识别模型 嵌入式设备 音频 同步字幕 自动化语音识别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号