摘要
本发明提供一种手语播报视频生成方法、系统及存储介质,通过整合语音信息、非语音信息和视频信息,实现了对视频内容的全面理解和情感识别,然后基于情感识别结果生成手语播报视频。手语播报视频中的虚拟形象不仅能进行手语表达,还能根据情感识别结果调整表情和肢体动作,使情感传达更加细腻和真实。同时,本发明将节拍信号和字幕等富信息与手语播报视频同步生成,丰富了视频内容,提升了信息的完整性。本发明显著增强了听障人士对节目信息的理解和观看体验,达到全面、准确地反映视频中的内容的技术效果。
技术关键词
视频生成方法
情感类别
手语
多模态情感识别
非语音
文本
音频特征
面部关键点
注意力
跨模态
参数
多模态特征
字幕
生成程序
视频生成系统
建立映射关系
扇形面积