摘要
本发明涉及序列级对齐方法及其多模态检索方法。通过序列级对比学习机制,能够有效地捕捉模态间的局部对齐关系,获取跨模态的关键信息,使对齐精度得以显著提高,放大了细粒度对齐对提升检索、匹配、识别等任务的重要性,显著提高了执行这些任务时的精度。将音频模态引入多模态运动检索框架,结合文本、视频和运动模态,实现了更自然、直观的用户交互。通过扩展现有的文本‑动作数据集,在此基础上扩充了音频模态,为音频驱动的运动检索任务提供了数据支持。此外,还专门生成了口语化文本和音频。这不仅填补了空白,还为未来的研究和应用奠定了数据基础。
技术关键词
序列
对齐方法
多模态检索方法
矩阵
数据
音频
样本
度量
文本
跨模态
视频
运动
精度
参数
机制
框架
基础
关系