基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法

正文

推荐专利

申请号：CN202511240662

申请日期：2025-09-01

公开号：CN121034352A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于AI多模态大语言模型的“情感‑节奏‑视觉”三元组动态对齐算法，涉及跨模态数据处理技术领域。该方法包括：多模态数据采集与预处理，同步获取音频、视频、文本数据并进行清洗和时间戳标准化；跨模态特征提取，通过 LLaMA‑2 模型提取文本情感语义、DTW 算法获取音频时序节奏、DenseNet 模型提取视频视觉特征；基于 ST‑CrossAttention 的动态时空对齐，融合多模态特征并分配权重；生成可解释性输出及分析报告。本系统包括多模态采集模块、特征提取模块、对齐引擎和输出模块。本发明能实现多模态数据的精准对齐与情感融合，提升情感分析的准确性和可解释性，适用于影视分析、人机交互等场景。

技术关键词

大语言模型三元组视觉 DTW算法特写镜头融合多模态特征多模态数据采集运动向量编码向量交叉注意力机制动态权重分配动态时间规整联合损失函数语义特征提取焦点时序跨模态

系统为您推荐了相关专利信息

一种机械手视觉引导定位装置

引导定位装置机械手视觉传感器防撞结构环形阵列

一种服务器故障处理方法、装置以及介质

预训练模型服务器策略知识图谱数据库模式

基于视觉大模型的金相颗粒图像分割方法及装置

涂层视觉微调方法图像分割方法图像编码器

一种基于显示屏动态背景图像增强的晕车缓解方法和系统

动态背景图像增强数据融合算法晕车显示设备

一种表单处理方法及相关装置、设备和存储介质

标签表单元素关系大语言模型

基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法

站点导航

APP 下载