摘要
本发明提出了一种基于大语言模型的语音驱动肢体动作生成方法。本发明采用动作示例直接控制的方式来生成语音驱动的肢体动作生成。本发明方法保留了动作示例中的丰富细节信息,避免了传统方法中将动作示例转换为伪标签而导致的信息损失问题;另外还提出了一个基于动作示例控制的语音驱动肢体动作生成的综合框架,支持多种形式的控制输入,实现了多模态控制,该框架还支持对人体肢体部位分别进行精确控制。本发明不仅通过直接使用动作示例进行控制,保留了更多细节信息;还支持多种形式的控制输入,使用更加灵活,且生成的肢体动作更加自然,与语音内容节奏的匹配度更高。因此本发明在对于数字人和人机交互等领域具有重要的应用价值。
技术关键词
动作生成方法
大语言模型
令牌
运动编码器
序列
矢量量化
文本
多模态
阶段
框架
音频
姿势控制
编码策略
生成语音
姿态估计
视频
系统为您推荐了相关专利信息
水位预测方法
大坝
神经网络模型
水电站
注意力机制
边坡
滑坡灾害监测预警方法
支持向量机算法
矩阵
预警模型
零知识证明
细粒度访问控制方法
信息隐私保护方法
加密
字段