一种基于多模态时空图网络的直播电商产品的检索方法

AITNT
正文
推荐专利
一种基于多模态时空图网络的直播电商产品的检索方法
申请号:CN202510595154
申请日期:2025-05-09
公开号:CN120492670A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于多模态时空图网络的直播电商产品的检索方法,通过RealtimeSTT工具将语音数据实时转换为文本,利用图像识别与视频分析技术提取关键信息并生成特征数据,将图像、视频和文本三种不同模态的信息的全局表征对齐到统一语义空间,计算均方误差度量视觉和文本嵌入在相同空间内的一致性。通过构建图结构,深入挖掘视频与图像之间的时空关系,有效解决跨域异质性问题,并引入调节视觉和文本特征的全局权重,将视觉与文本特征融合生成联合表示,从而满足多样化的检索需求,显著提升直播与电商平台之间产品检索的准确性,提升了检索系统的鲁棒性和适应性,特别适用于复杂的多模态商品检索任务。
技术关键词
文本 检索方法 多头注意力机制 图像编码器 相互作用模块 电商 全局视觉特征 图像视觉特征 定义 视频分析技术 视频帧 图像块 多模态信息 关系 时序
系统为您推荐了相关专利信息
1
一种交通事件检测方法、介质、设备及系统
交通事件检测方法 多模态 标记 视频帧 交通事件检测系统
2
基于大语言模型和3D高斯溅射的火药柱表观缺陷检测方法
表观缺陷检测方法 火药 大语言模型 特征金字塔 多尺度信息
3
一种基于机器学习的配电网通信故障诊断方法
通信故障诊断方法 综合数据处理 指数 分析故障原因 数据采集终端
4
人工智能自动化报告评价方法及系统
人工智能自动化 报告 文本编码器 医学人工智能 评价方法
5
一种基于医疗大模型RAG优化的检查多部位识别方法及智能体系统
医学检查数据 智能体系统 识别特征 影像 识别方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号