适用于群聊的多模态交互方法及装置

正文

推荐专利

适用于群聊的多模态交互方法及装置

申请号：CN202510898939

申请日期：2025-07-01

公开号：CN120412595A

公开日期：2025-08-01

类型：发明专利

摘要

本申请提供适用于群聊的多模态交互方法及装置，其中所述适用于群聊的多模态交互方法包括：识别采集到的视频中的人物目标，并确定采集到的音频中的音源方向；根据所述音源方向，将所述音频中包含的音源与所述人物目标匹配，确定人物音源关系；对所述音频进行语义分析，并结合所述人物音源关系，构建交互综合信息；基于所述交互综合信息，与所述人物目标进行交互。显著拓宽了机器人交互的使用范围，能够应用于机器人与多人群聊的场景，使机器人能够区分每句话分别是场景中的哪个人说的，并且提供给机器人交互过程中充分的场景信息以及其它相关信息，从而使机器人能够充分理解交互内容，给出准确的、个性化的回复。

技术关键词

交互方法人物特征音频机器人交互生成交互信息人脸检测技术关系视频计算机可执行指令语义交互内容交互装置匹配模块处理器场景识别模块年龄

系统为您推荐了相关专利信息

一种基于虚拟现实的人机交互方法及装置

人机交互方法三维虚拟环境虚拟现实设备眼球追踪设备手势识别设备

一种视频扩展处理方法及系统

视频段视频生成模型字幕视频编辑器音频

情绪识别方法及相关装置、智能座舱和存储介质

多模态特征动作特征情绪特征情绪识别模型查询特征

一种通过文字驱动的数字人物说话视频生成方法及系统

文字特征视频生成方法运动特征人脸多模态注意力

一种基于改进通道剪枝算法的数字媒体处理方法及系统

通道剪枝局部敏感哈希媒体算法阶段

适用于群聊的多模态交互方法及装置

站点导航

APP 下载