摘要
本发明提供了一种基于GAN的数字医生表情、动作与情感交互模拟系统,包括数据集构建模块、音频编码器、动作掩码编码器、Transformer转换器、训练模块和数字医生生成模块。数据集构建模块用于构建高质量的医疗场景数据集;音频编码器采用预训练模型从音频中提取高级特征表示;动作掩码编码器用于提取与视频帧尺寸相同的二值图像中的动作特征信息;Transformer转换器用于实现多模态数据的融合;训练模块用于对GAN网络进行训练;数字医生生成模块通过训练好的生成器生成逼真的全身动作和表情序列。本发明系统能够根据当前系统中语音对话更准确的生成数字医生的表情和动作,避免传统在线诊疗系统中用户不满意、数字医生表情生成不佳等问题。
技术关键词
模拟系统
音频特征
医疗场景
转换器
音频编码器
在线诊疗系统
视频帧
预训练模型
模块
动作特征
注意力机制
输出特征
数据
网络
多模态
关键点
掩码矩阵
系统为您推荐了相关专利信息
采集控制器
数据处理电路
数据采集电路
AD转换器
多通道
负温度系数热敏电阻
高速模数转换
低压差线性稳压器
恒流源
直流转换器
信号输入模块
射频信号输出模块
量子芯片
时钟同步
时钟模块
分布式发电并网
数学模型
坐标系
逆变器
反步滑模控制
音频适配器
多模态
音频编码器
图像特征向量
语义