摘要
本发明公开了基于AI多模态大语言模型的“情感‑节奏‑视觉”三元组动态对齐算法,涉及跨模态数据处理技术领域。该方法包括:多模态数据采集与预处理,同步获取音频、视频、文本数据并进行清洗和时间戳标准化;跨模态特征提取,通过 LLaMA‑2 模型提取文本情感语义、DTW 算法获取音频时序节奏、DenseNet 模型提取视频视觉特征;基于 ST‑CrossAttention 的动态时空对齐,融合多模态特征并分配权重;生成可解释性输出及分析报告。本系统包括多模态采集模块、特征提取模块、对齐引擎和输出模块。本发明能实现多模态数据的精准对齐与情感融合,提升情感分析的准确性和可解释性,适用于影视分析、人机交互等场景。
技术关键词
大语言模型
三元组
视觉
DTW算法
特写镜头
融合多模态特征
多模态数据采集
运动向量
编码向量
交叉注意力机制
动态权重分配
动态时间规整
联合损失函数
语义特征提取
焦点
时序
跨模态
系统为您推荐了相关专利信息
引导定位装置
机械手
视觉传感器
防撞结构
环形阵列