摘要
VEM‑Token声乐情绪多模态token化歌声和伴奏深度学习方法,是区别于现有的人工智能将信息分割成文字化的token词元后,再进行识别的方法。本发明将声乐文件进行频谱化,检测节拍,按照声乐节拍将频谱化的声乐文件分割成VEM‑Token序列,按照歌词、歌声、伴奏、歌者情绪、伴奏情绪、视频、图像等多模态,建立VEM坐标系、VEM函数和VEM库,进行VEM‑Token识别,分离出歌声流和伴奏流,依据声乐专家,对声乐样本进行多模态的情绪评分,采用监督学习和深度学习算法获得VEM参数,学习获得声乐样本的多模态情绪。对于与其它声乐作品,能够识别声乐多模态情绪、输出歌词谱、VEM‑Token歌声谱、VEM‑Token伴奏谱和VEM‑Token乐谱。接入包括常用大模型等AI系统,开发成能听歌会识谱的声乐智能体Agent。
技术关键词
声乐
卷积循环神经网络
标记
序列
坐标系
贝叶斯模型
深度学习方法
自然语言
自定义函数
样本
动态包络线
乐器
五线谱
多模态情绪
刻度
多声道
离散小波变换
系统为您推荐了相关专利信息
时序预测方法
序列特征
双向长短期记忆网络
时序预测模型
综合工具
环卫机器人
卷积网络模型
预测控制模型
垃圾
数据
定点监测装置
多模态数据分析
健康状态评估方法
压力管道
健康状态评估系统