摘要
本发明公开了一种利用大语言模型驱动数字人动作的方法及系统,方法包括调用大模型识别当前及前续会话内容,预测人物的情绪和动作,输出连贯的情绪和动作标签;根据不同情绪与动作的映射关系,结合深度学习与规则库构建方法,建立涵盖多样行为模式的数字人规则库;根据识别出的当前会话的情绪和动作标签,在数字人规则库中调用绑定的表情和动作渲染逻辑,生成实时会话视频流;实时逐帧播放生成的数字人会话视频流。优点为:能够让数字人更自然的结合会话内容,生成带有表情和动作的视频流,并通过循环执行以达到实时播放数字人对话视频流的效果,减少了传统方法中可能出现的表情动作僵硬或与会话内容不匹配情况。
技术关键词
大语言模型
规则库构建方法
标签
会话
量化编码方法
多轮对话
深度Q学习
生成视频流
逻辑
动作表情
加权技术
语义
平滑方法
缓存策略
平滑算法
播放模块
关系
刷新率
网络结构
系统为您推荐了相关专利信息
事件定位方法
监测点
LSTM算法
供水管
事件识别
定位标签
定位基站
信号飞行时间
卡尔曼滤波
连续性