摘要
本发明公开了基于多模态感知的AI智能交互方法、装置、设备及介质。该方法包括:接收用户输入的语音信号,并转换为文本信息后识别出语义关键词、用户意图类型及情感倾向,并生成结构化语义指令;采集用户面部图像并检测出用户存在状态、视线方向及情绪类型,并生成用户状态数据;根据结构化语义指令从数字人视频素材库中匹配出候选视频集;根据用户状态数据优化视频匹配策略以选择出匹配度最高的候选视频作为目标视频;加载并播放目标视频;同时基于用户状态数据中的用户存在状态、视线方向优化目标视频的播放策略。本发明利用用户的存在状态、视线及情绪的动态优化交互策略,显著提升数字人响应的真实感与场景适应性。
技术关键词
智能交互方法
视频
语义关键词
预训练语言模型
多模态
意图类别
生成用户
属性匹配
语义标签
面部
文本
大语言模型
智能交互装置
主题
策略
指令
卷积神经网络模型