基于多模态感知的AI智能交互方法、装置、设备及介质

正文

推荐专利

申请号：CN202510910717

申请日期：2025-07-02

公开号：CN120821368A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了基于多模态感知的AI智能交互方法、装置、设备及介质。该方法包括：接收用户输入的语音信号，并转换为文本信息后识别出语义关键词、用户意图类型及情感倾向，并生成结构化语义指令；采集用户面部图像并检测出用户存在状态、视线方向及情绪类型，并生成用户状态数据；根据结构化语义指令从数字人视频素材库中匹配出候选视频集；根据用户状态数据优化视频匹配策略以选择出匹配度最高的候选视频作为目标视频；加载并播放目标视频；同时基于用户状态数据中的用户存在状态、视线方向优化目标视频的播放策略。本发明利用用户的存在状态、视线及情绪的动态优化交互策略，显著提升数字人响应的真实感与场景适应性。

技术关键词

智能交互方法视频语义关键词预训练语言模型多模态意图类别生成用户属性匹配语义标签面部文本大语言模型智能交互装置主题策略指令卷积神经网络模型

基于多模态感知的AI智能交互方法、装置、设备及介质

站点导航

APP 下载