摘要
本发明涉及语音语义技术领域,可应用于金融科技及医疗健康等业务系统平台中,揭露了一种语义协同虚拟主播视频生成方法、装置、设备及介质,所述方法包括:获取虚拟主播模板视频,对虚拟主播模板视频的每帧图像中动作和文本之间的关联特征进行分析,得到图像关联特征,获取初始用户文本,识别初始用户文本的多维文本情感,利用多维文本情感对初始用户文本进行内容扩展,得到更新用户文本,利用更新用户文本生成用户文本音频,将图像关联特征、更新用户文本和用户文本音频进行加权融合,得到虚拟主播特征,利用虚拟主播特征对虚拟主播模板视频进行更新,得到虚拟主播完整视频。本发明可以有效提高虚拟主播视频中文本、音频和虚拟主播动作的一致性。
技术关键词
文本
视频生成方法
语义协同
音频
图像
面部特征点
生成用户
模板
关键点
注意力
语音语义技术
噪声样本
情感特征
坐标
编码向量
视频生成装置
矩阵
处理器
系统为您推荐了相关专利信息
车轮悬架
方向盘转角信息
加速度
车辆前方图像
车身
燃烧状态参数
优化控制系统
多光谱成像
火炬
可见光图像
印刷设备
在线检测系统
印刷品
激光检测机构
AI人工智能