摘要
本发明公开了一种基于多模态的手语合成服务方法,包括以下步骤:S10,进行端‑云协同渲染设置:将边缘端部署为轻量化模型生成基础动作,云端部署为运行MoMask与3D渲染引擎;S20,进行多模态数据采集:通过麦克风采集语音信号,摄像头采集48×48像素面部灰度图像,IMU传感器采集动作姿态数据;S30,将采集的多模态数据进行情感特征提取:进行语音情感识别输出六类情感概率分布,进行面部表情识别输出七类表情概率分布;S40,进行跨模态特征融合:基于置信度加权策略动态融合语音与面部特征,生成3维情感强度向量;S50,进行手语动作生成:通过RVQ分层量化与MoMask Transformer,生成情感适配的3D骨骼序列。
技术关键词
手语
令牌
语音情感识别
面部表情识别
IMU传感器
多模态数据采集
面部特征
序列
云端
Unity3D引擎
跨模态
基础
线性预测倒谱系数
表情特征
情感特征
频谱特征
动态
语音特征
系统为您推荐了相关专利信息
光照强度数据
环保设备
机器学习模型
图像分析
分析方法
数据安全保护方法
生物特征识别
国密SM4算法
登记阶段
电力
补丁
图像缺陷检测
网络模块
交叉注意力机制
上采样