摘要
本发明提出基于模态语义空间对齐的学习视频推荐方法、介质、设备,涉及多模态语义空间对齐技术领域,方法包括:提取用户行为向量、学习视频不同模态的向量,包括:文本、图像、音频以及结构向量;利用多层感知机将提取到的不同模态的向量投影到公共语义空间,在公共语义空间内,将结构向量分别与文本向量、图像向量以及音频向量进行向量拼接;将拼接后的向量进行模态对比和模态匹配,通过优化不同模态之间的语义对齐,得到学习视频的多模态特征向量;将多模态特征向量进行融合,通过余弦相似度计算用户行为向量与融合多模态特征向量的相似性,并对所有视频进行排序推荐。本发明可以充分理解学习视频的模态语义结构,实现精准匹配和推荐。
技术关键词
视频推荐方法
语义
音频
节点
多层感知机
图像
知识点
计算机可读指令
生成结构
多模态
标签
关系
文本特征向量
邻居
BERT模型
RNN模型
特征提取方法
注意力
系统为您推荐了相关专利信息
消息
协议
待测服务器
模糊测试系统
动态污点分析
无人机集群
巡检系统
拓扑特征
超图模型
电力设备节点
数据分布
数据管理系统
媒体资源管理
多模态
存储库
状态空间模型
单目深度估计方法
事件相机
空间模块
编码器