摘要
本公开提供了一种宠物行为的预测方法、装置、设备和存储介质,该方法包括:获取宠物的类型、图像数据、音频数据以及描述宠物行为的文本数据;对图像数据、音频数据以及文本数据分别进行特征提取并进行多模态特征融合,得到宠物的融合特征;基于宠物的类型和融合特征,采用预先构建宠物行为预测大模型对宠物的行为进行预测,得到宠物的行为预测结果。本公开在进行宠物行为的预测时,不仅引入了视觉模态数据,还同步融合音频模态的听觉特征与主人文本描述的情境语义,并通过跨模态动态加权机制消除单一视觉数据的行为歧义,并捕捉声音信号中的情绪线索及文本描述的隐性状态,从而全面构建宠物行为的多维认知模型,显著提升预测准确性。
技术关键词
融合特征
多模态特征融合
文本
音频
统计特征
非易失性计算机可读存储介质
计算机程序指令
图像
时间段
语义
跨模态
多模态数据采集
多模态数据融合
时序
注意力机制
信息熵
多任务
控制器
系统为您推荐了相关专利信息
水电机组
在线监测数据
在线诊断方法
特征提取模型
时序特征
预训练语言模型
数据查询方法
实体消歧
文本
分块
双臂机器人
多模态特征
决策
特征提取模块
注意力机制