基于多模态统一嵌入空间引导的听话人视频生成方法

AITNT
正文
推荐专利
基于多模态统一嵌入空间引导的听话人视频生成方法
申请号:CN202511324193
申请日期:2025-09-17
公开号:CN120833425B
公开日期:2025-12-05
类型:发明专利
摘要
本申请公开了基于多模态统一嵌入空间引导的听话人视频生成方法,方法包括:获取说话人的第一真实视频,并提取对应的视频特征和音频特征作为发起用户特征;通过预先训练的情感预测模型,根据发起用户特征进行情感预测,得到听话人的接收情感特征;通过模态自适应混合专家编码器,将发起用户特征与接收情感特征融合,得到融合特征;通过预先训练的动作生成模型,基于交叉注意力层,根据融合特征生成听话人对应的动作数据;根据动作数据进行渲染,生成听话人对应的头部视频。专注于生成核心的动作数据,而非直接生成原始像素视频,后续渲染步骤相对独立,降低了实时生成的计算复杂度,提升了响应的实时性潜力。
技术关键词
情感类别 情感特征 音频特征 视频生成方法 融合特征 编码器 时序 序列 运动 情感分类模型 多模态 面部关键点 人脸 图像 相机旋转 表情特征 参数 注意力 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号