摘要
本申请涉及大语言模型技术领域,具体涉及基于大语言模型的多模态数字人交互方法及系统,该方法包括:获取用户与数字人进行交互时单次对话的视频数据、音频信号、文本数据;提取所述音频信号的包络线,确定单次对话的情绪评估值、语义对比度;对所述视频数据中每帧图像所包含的情绪进行识别,组成单次对话的情绪序列;得到单次对话的语义偏差量;得到单次对话的语义引导值;结合情感对话生成模型,生成对应的情感对话。本申请能够降低对用户所表达意图的理解和情绪的感知存在的偏差,更加准确地判别出用户的情绪状态,以使得生成的情感回复内容与用户情感状态相匹配,提高用户交互体验感。
技术关键词
人交互方法
大语言模型
对话生成模型
语义
多义词
对比度
文本
包络提取算法
序列
偏差
数据
音频
神经网络算法
视频
交互系统
图像
处理器
信号
存储器
标签