摘要
本申请提供适用于群聊的多模态交互方法及装置,其中所述适用于群聊的多模态交互方法包括:识别采集到的视频中的人物目标,并确定采集到的音频中的音源方向;根据所述音源方向,将所述音频中包含的音源与所述人物目标匹配,确定人物音源关系;对所述音频进行语义分析,并结合所述人物音源关系,构建交互综合信息;基于所述交互综合信息,与所述人物目标进行交互。显著拓宽了机器人交互的使用范围,能够应用于机器人与多人群聊的场景,使机器人能够区分每句话分别是场景中的哪个人说的,并且提供给机器人交互过程中充分的场景信息以及其它相关信息,从而使机器人能够充分理解交互内容,给出准确的、个性化的回复。
技术关键词
交互方法
人物特征
音频
机器人交互
生成交互信息
人脸检测技术
关系
视频
计算机可执行指令
语义
交互内容
交互装置
匹配模块
处理器
场景
识别模块
年龄
系统为您推荐了相关专利信息
人机交互方法
三维虚拟环境
虚拟现实设备
眼球追踪设备
手势识别设备
多模态特征
动作特征
情绪特征
情绪识别模型
查询特征
文字特征
视频生成方法
运动特征
人脸
多模态注意力