一种基于大语言模型的语音驱动肢体动作生成方法

AITNT
正文
推荐专利
一种基于大语言模型的语音驱动肢体动作生成方法
申请号:CN202510459957
申请日期:2025-04-14
公开号:CN120526794A
公开日期:2025-08-22
类型:发明专利
摘要
本发明提出了一种基于大语言模型的语音驱动肢体动作生成方法。本发明采用动作示例直接控制的方式来生成语音驱动的肢体动作生成。本发明方法保留了动作示例中的丰富细节信息,避免了传统方法中将动作示例转换为伪标签而导致的信息损失问题;另外还提出了一个基于动作示例控制的语音驱动肢体动作生成的综合框架,支持多种形式的控制输入,实现了多模态控制,该框架还支持对人体肢体部位分别进行精确控制。本发明不仅通过直接使用动作示例进行控制,保留了更多细节信息;还支持多种形式的控制输入,使用更加灵活,且生成的肢体动作更加自然,与语音内容节奏的匹配度更高。因此本发明在对于数字人和人机交互等领域具有重要的应用价值。
技术关键词
动作生成方法 大语言模型 令牌 运动编码器 序列 矢量量化 文本 多模态 阶段 框架 音频 姿势控制 编码策略 生成语音 姿态估计 视频
系统为您推荐了相关专利信息
1
一种Seq2Seq-LSTM大坝水位预测方法及相关装置
水位预测方法 大坝 神经网络模型 水电站 注意力机制
2
用于辅助诊断胃癌的甲基化标志物及其应用
甲基化标志物 诊断胃癌 引物 试剂盒 序列
3
测试验收接线方案生成方法、装置、电子设备及存储介质
二次设备 主接线图 二次系统 特征值 语义
4
一种基于大数据的滑坡灾害监测预警方法与系统
边坡 滑坡灾害监测预警方法 支持向量机算法 矩阵 预警模型
5
一种伤病员信息隐私保护方法及系统
零知识证明 细粒度访问控制方法 信息隐私保护方法 加密 字段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号