摘要
本申请涉及语言翻译技术领域,公开了一种便携式多语言智能采集与翻译系统,包括:多模态采集模块,用于采集音频信号和视频流;环境感知与调度模块,用于评估当前环境的复杂度以动态调整计算资源;目标语音构建模块,用于确定当前发言者并提取当前发言者的目标音频流,并基于目标音频流生成语音文本;分析模块,生成视觉情境元数据;翻译模块,用于生成初步翻译结果和对应的翻译置信度得分;交互输出模块,用于进行歧义澄清以生成最终的翻译结果。本发明通过对音频信号和视频流进行视听融合,并结合视频流对人脸位置及唇动信息在多人、嘈杂的环境中确定当前发言者,消除背景噪音和其他非目标说话人的干扰,提高后续语音识别和翻译的准确性。
技术关键词
翻译系统
发言者
多语言
视频流
复杂度特征
音频
生成语音
视觉
输出模块
文本
翻译模型
消除背景噪音
语言翻译技术
人脸位置
波束成形算法
分析模块
视听
系统为您推荐了相关专利信息
数据采集系统
多模态
数据采集方法
商业
动态加密系统
语句
机器翻译系统训练
双语平行语料库
双语语料库
抽取算法
检测评价方法
关键帧
信令
视频监控系统
抓取网络数据包