摘要
本申请提供一种表情预测方法、表情预测模型的训练方法和可读存储介质。该方法包括:获取包含待测音频文件和待测音频文件对应的表情信息的待测数据,将待测数据输入到表情预测模型中,得到表情隐向量序列,该表情预测模型是依据基于注意力的扩散模型建立,并训练完成的模型,根据表情隐向量序列,得到待测数据的表情结果。从而,如果待测数据是待测音频文件和待测音频文件对应的表情信息,则使用依据基于注意力的扩散模型建立的表情预测模型,得到表情隐向量序列,得到待测数据的表情结果。实现了根据音频文件进行人物面部表情的预测,在表情预测的过程中,通过其他模式的信息的语义,引导强化表情预测结果,使得表情预测结果更加准确。
技术关键词
样本
音频编码器
序列
拼接模块
注意力
人脸模型
数据
随机噪声
标签
编码模块
图文
视频
文本
面部
三维模型
可读存储介质
资产
系统为您推荐了相关专利信息
文本
动态
Sigmoid函数
三次样条插值法
序列
教学管理方法
语义标签
三维空间结构
三维点云数据
轨迹
语义标签
标注方法
点云地图
地图元素
语义地图构建
三维环境信息
预报方法
变压器模块
服务行业技术
海洋环境预报