基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法

AITNT
正文
推荐专利
基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法
申请号:CN202511240662
申请日期:2025-09-01
公开号:CN121034352A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于AI多模态大语言模型的“情感‑节奏‑视觉”三元组动态对齐算法,涉及跨模态数据处理技术领域。该方法包括:多模态数据采集与预处理,同步获取音频、视频、文本数据并进行清洗和时间戳标准化;跨模态特征提取,通过 LLaMA‑2 模型提取文本情感语义、DTW 算法获取音频时序节奏、DenseNet 模型提取视频视觉特征;基于 ST‑CrossAttention 的动态时空对齐,融合多模态特征并分配权重;生成可解释性输出及分析报告。本系统包括多模态采集模块、特征提取模块、对齐引擎和输出模块。本发明能实现多模态数据的精准对齐与情感融合,提升情感分析的准确性和可解释性,适用于影视分析、人机交互等场景。
技术关键词
大语言模型 三元组 视觉 DTW算法 特写镜头 融合多模态特征 多模态数据采集 运动向量 编码向量 交叉注意力机制 动态权重分配 动态时间规整 联合损失函数 语义特征提取 焦点 时序 跨模态
系统为您推荐了相关专利信息
1
一种机械手视觉引导定位装置
引导定位装置 机械手 视觉传感器 防撞结构 环形阵列
2
一种服务器故障处理方法、装置以及介质
预训练模型 服务器 策略 知识图谱数据库 模式
3
基于视觉大模型的金相颗粒图像分割方法及装置
涂层 视觉 微调方法 图像分割方法 图像编码器
4
一种基于显示屏动态背景图像增强的晕车缓解方法和系统
动态背景 图像增强 数据融合算法 晕车 显示设备
5
一种表单处理方法及相关装置、设备和存储介质
标签 表单 元素 关系 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号