一种基于多模态时空图网络的直播电商产品的检索方法

正文

推荐专利

申请号：CN202510595154

申请日期：2025-05-09

公开号：CN120492670A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于多模态时空图网络的直播电商产品的检索方法，通过RealtimeSTT工具将语音数据实时转换为文本，利用图像识别与视频分析技术提取关键信息并生成特征数据，将图像、视频和文本三种不同模态的信息的全局表征对齐到统一语义空间，计算均方误差度量视觉和文本嵌入在相同空间内的一致性。通过构建图结构，深入挖掘视频与图像之间的时空关系，有效解决跨域异质性问题，并引入调节视觉和文本特征的全局权重，将视觉与文本特征融合生成联合表示，从而满足多样化的检索需求，显著提升直播与电商平台之间产品检索的准确性，提升了检索系统的鲁棒性和适应性，特别适用于复杂的多模态商品检索任务。

技术关键词

文本检索方法多头注意力机制图像编码器相互作用模块电商全局视觉特征图像视觉特征定义视频分析技术视频帧图像块多模态信息关系时序

系统为您推荐了相关专利信息

一种交通事件检测方法、介质、设备及系统

交通事件检测方法多模态标记视频帧交通事件检测系统

基于大语言模型和3D高斯溅射的火药柱表观缺陷检测方法

表观缺陷检测方法火药大语言模型特征金字塔多尺度信息

一种基于机器学习的配电网通信故障诊断方法

通信故障诊断方法综合数据处理指数分析故障原因数据采集终端

人工智能自动化报告评价方法及系统

人工智能自动化报告文本编码器医学人工智能评价方法

一种基于医疗大模型RAG优化的检查多部位识别方法及智能体系统

医学检查数据智能体系统识别特征影像识别方法

一种基于多模态时空图网络的直播电商产品的检索方法

站点导航

APP 下载