摘要
本发明提出一种融合带货短视频多模态信息的消费者参与预测方法与系统,该方法包括:分别获得文本模态特征矩阵、音频模态特征矩阵和视觉模态特征矩阵;通过文本模态特征矩阵、音频模态特征矩阵和视觉模态特征矩阵构建预测模型;以映射到相同目标维度的共享空间的方式得到线性变换后的文本特征表示、线性变换后的音频特征表示和线性变换后的视觉特征表示;通过跨模态交叉注意力机制和拼接操作,得到拼接向量表示;通过拼接向量表示,结合预测模型得到预测结果。本发明通过深度学习模型充分利用短视频中的文本、音频和视觉信息,以提高预测消费者参与行为的准确性。
技术关键词
模态特征
多模态信息
交叉注意力机制
矩阵
音频特征
视觉特征
编码器
跨模态
视频
文本特征向量
音频信号处理
构建预测模型
开源工具
深度学习模型
残差网络
系统为您推荐了相关专利信息
四旋翼无人机
模型预测控制方法
模型预测控制器
姿态动力学模型
无人机模型
缺陷分析方法
计算机可执行指令
采集设备
预训练模型
设备状态诊断
约束优化模型
约束优化算法
协同方法
粒子群优化算法
位置更新
推广方法
多模态特征
纹理特征分类
配料
动态光学