摘要
本发明公开了一种基于多模态时空图网络的直播电商产品的检索方法,通过RealtimeSTT工具将语音数据实时转换为文本,利用图像识别与视频分析技术提取关键信息并生成特征数据,将图像、视频和文本三种不同模态的信息的全局表征对齐到统一语义空间,计算均方误差度量视觉和文本嵌入在相同空间内的一致性。通过构建图结构,深入挖掘视频与图像之间的时空关系,有效解决跨域异质性问题,并引入调节视觉和文本特征的全局权重,将视觉与文本特征融合生成联合表示,从而满足多样化的检索需求,显著提升直播与电商平台之间产品检索的准确性,提升了检索系统的鲁棒性和适应性,特别适用于复杂的多模态商品检索任务。
技术关键词
文本
检索方法
多头注意力机制
图像编码器
相互作用模块
电商
全局视觉特征
图像视觉特征
定义
视频分析技术
视频帧
图像块
多模态信息
关系
时序
系统为您推荐了相关专利信息
交通事件检测方法
多模态
标记
视频帧
交通事件检测系统
表观缺陷检测方法
火药
大语言模型
特征金字塔
多尺度信息
通信故障诊断方法
综合数据处理
指数
分析故障原因
数据采集终端
人工智能自动化
报告
文本编码器
医学人工智能
评价方法
医学检查数据
智能体系统
识别特征
影像
识别方法