摘要
本发明属于网络空间认知域技术领域,公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的重要特征,生成相关描述并促进描述信息共享,抽取出关键信息与核心概念实现不同模态间的深度整合,最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合,提供清晰且精确的视觉信息,解决文本生成内容角度单一,减少了文本生成中的表达模糊性的问题。
技术关键词
文本生成方法
多模态
视频
图像
交叉注意力机制
融合特征
非结构化文本信息
实体
关键帧提取方法
视觉
社交
文本生成系统
媒体
概念
面部微表情
核心
语义层面
系统为您推荐了相关专利信息
轴向调节机构
检测探针
上料组件
机器人
图像分析仪
三维数字模型
医学影像数据
孔结构
执行温度补偿
骨长入
电梯井道底坑
异物检测方法
地面
轮廓
异物检测装置