摘要
执行经由自动多模态图构造的基于知识的音频‑文本建模。接收音频数据集,所述音频数据集包括音频数据的片段,其中音频数据的片段中的每个与描述音频数据的相应片段的音频内容的对应元数据配对。从语义网络识别感兴趣的图节点,所述图节点描述音频数据集内容的知识领域的语义。将大语言模型(LLM)用于使元数据分类到图节点中,并用于为针对其不存在元数据的图节点推断补充数据,从而产生提取的知识图谱。利用LLM验证提取的知识图谱,以执行提取的知识图谱的图节点之间的边的关系验证,从而减轻补充数据的分类和推断中的幻觉效应。
技术关键词
音频
图谱
识别感兴趣
节点
多模态
语义
数据分类
非暂时性计算机可读介质
机器学习模型
字幕
文本
网络
效应
定义
关系
语音
标签
人类
系统为您推荐了相关专利信息
语音特征数据
多模态
情感分类模型
视觉特征
融合特征
文件检查方法
计算机程序代码
电子设备
芯片系统
代码缺陷
LSTM神经网络
关联分析方法
语义
关联分析系统
文本主题词
安全控制模块
协同系统
多模态环境
负载均衡算法
多传感器融合