M2UGen
M2UGen是一款融合了音乐理解和多模态音乐生成任务的先进模型。它基于腾讯PCG ARC实验室的研发,结合了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。这一创新性的框架使得M2UGen能够处理多种模态的输入,包括文本、图像和视频,并生成相应的音乐。
功能特点
M2UGen的功能特点主要体现在以下几个方面:
- 多模态音乐生成:M2UGen支持从文本、图像和视频生成音乐。用户只需输入相应的描述或素材,模型即可生成与之匹配的音乐。
- 音乐理解与编辑:除了生成音乐外,M2UGen还能够理解已有的音乐,并支持对其进行编辑。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度等。
- 强大的数据集支持:为了训练M2UGen,研究团队生成了大规模的多模态音乐指导数据集,包括MU-LLaMA模型生成的1.2k多小时音乐字幕数据集等。这些数据集为模型的训练提供了丰富的素材。
- 开源与社区支持:M2UGen的模型代码库已在Github开源,并在Huggingface上开放了模型权重和训练所需数据集(需申请)。同时,研究团队还提供了交互式的演示视频和文本生成演示,帮助用户更好地理解和使用模型。