摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于视觉特征的物体交互分析方法、装置、设备及介质,包括:获取预测帧的多尺度视觉特征,检测显著物体,结合历史视频帧生成动作描述对并构建动作上下文,提取语言特征序列与视觉特征序列,拼接并映射为统一维度,利用自注意力机制实现交互融合,重组为多尺度融合特征图,输出交互物体的空间位置分布、动作类别与时间接触特征。本发明通过历史视频帧的动作描述信息与显著物体列表联合生成文本化动作上下文,结合多尺度视觉特征与语言特征序列,通过统一映射、跨模态交互与特征融合,提升物体交互分析在多变环境中的准确性与稳定性。
技术关键词
视觉特征
融合特征
序列
接触特征
分析方法
交互物体
生成多尺度
视频帧
注意力机制
跨模态
时间偏移量
语义
列表
编码
分析装置
空间结构
系统为您推荐了相关专利信息
移动终端系统
高维特征向量
IC卡
交易风险预测
编码器
驾驶员面部识别
局部特征信息
疲劳检测方法
轻量级神经网络
全局特征提取
早期无创
标志物
多任务深度学习模型
组学特征
时序特征
邮件
温度监测方法
温度感应设备
温度预测模型
信息采集终端