摘要
本发明公开了一种基于语音意图的跨模态数据检索方法,包括:步骤1、输入查询请求对应的语音,通过语音识别算法将语音转换为文本;步骤2、对文本进行意图解析输出结构化意图表示,对语音识别结果的关键词进行分词,并结合领域词库提取领域标签;步骤3,对本地的数据生成图像特征向量、视觉特征向量、生成文本特征向量和结构化特征;并将各特征及其领域标签存储到ES向量数据库中,每个向量关联对应的领域标签;步骤4,根据用户输入的查询信息开展两阶段匹配,进行多模态检索;步骤5,基于意图解析结果对搜索结果进行过滤,利用过滤条件,筛选得到最终查询结果;步骤6,基于用户反馈进行模型优化,通过在线学习模块实时维护更新向量库。
技术关键词
数据检索方法
意图类别
文本特征向量
语音识别算法
图像特征向量
标签
编码器
关键词
矩阵
两阶段
滑动窗口采样
声学特征
关键帧
数据生成图像
语义
分词
注意力
系统为您推荐了相关专利信息
细胞分割方法
局部图像特征
文本
高维特征向量
图像块
决策方法
动态记忆体
模块
TOPSIS算法
矩阵
可视化监测系统
多源异构数据处理
可视化布局算法
可视化界面
风险评估模型
虚假信息检测方法
特征融合网络
图像特征提取
信息检测模块
特征提取模块