一种基于GAN的数字医生表情、动作与情感交互模拟系统

AITNT
正文
推荐专利
一种基于GAN的数字医生表情、动作与情感交互模拟系统
申请号:CN202510693254
申请日期:2025-05-27
公开号:CN120495486A
公开日期:2025-08-15
类型:发明专利
摘要
本发明提供了一种基于GAN的数字医生表情、动作与情感交互模拟系统,包括数据集构建模块、音频编码器、动作掩码编码器、Transformer转换器、训练模块和数字医生生成模块。数据集构建模块用于构建高质量的医疗场景数据集;音频编码器采用预训练模型从音频中提取高级特征表示;动作掩码编码器用于提取与视频帧尺寸相同的二值图像中的动作特征信息;Transformer转换器用于实现多模态数据的融合;训练模块用于对GAN网络进行训练;数字医生生成模块通过训练好的生成器生成逼真的全身动作和表情序列。本发明系统能够根据当前系统中语音对话更准确的生成数字医生的表情和动作,避免传统在线诊疗系统中用户不满意、数字医生表情生成不佳等问题。
技术关键词
模拟系统 音频特征 医疗场景 转换器 音频编码器 在线诊疗系统 视频帧 预训练模型 模块 动作特征 注意力机制 输出特征 数据 网络 多模态 关键点 掩码矩阵
系统为您推荐了相关专利信息
1
一种多通道粒子噪声采集控制器
采集控制器 数据处理电路 数据采集电路 AD转换器 多通道
2
一种基于负温度系数热敏电阻的海洋剖面温度快速测量的传感器
负温度系数热敏电阻 高速模数转换 低压差线性稳压器 恒流源 直流转换器
3
用于超导量子计算控制、读取和反馈的装置及系统
信号输入模块 射频信号输出模块 量子芯片 时钟同步 时钟模块
4
一种分布式发电并网逆变器的波动抑制改进控制方法
分布式发电并网 数学模型 坐标系 逆变器 反步滑模控制
5
一种多模态生成式对话任务处理方法、装置及设备
音频适配器 多模态 音频编码器 图像特征向量 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号