M2UGen

M2UGen是一款融合了音乐理解和多模态音乐生成任务的先进模型。它基于腾讯PCG ARC实验室的研发，结合了MERT等编码器进行音乐理解，ViT进行图像理解，ViViT进行视频理解，并使用MusicGen/AudioLDM2模型作为音乐生成模型（音乐解码器）。这一创新性的框架使得M2UGen能够处理多种模态的输入，包括文本、图像和视频，并生成相应的音乐。

功能特点

M2UGen的功能特点主要体现在以下几个方面：

多模态音乐生成：M2UGen支持从文本、图像和视频生成音乐。用户只需输入相应的描述或素材，模型即可生成与之匹配的音乐。
音乐理解与编辑：除了生成音乐外，M2UGen还能够理解已有的音乐，并支持对其进行编辑。用户可以轻松移除或替换特定乐器，调整音乐的节奏和速度等。
强大的数据集支持：为了训练M2UGen，研究团队生成了大规模的多模态音乐指导数据集，包括MU-LLaMA模型生成的1.2k多小时音乐字幕数据集等。这些数据集为模型的训练提供了丰富的素材。
开源与社区支持：M2UGen的模型代码库已在Github开源，并在Huggingface上开放了模型权重和训练所需数据集（需申请）。同时，研究团队还提供了交互式的演示视频和文本生成演示，帮助用户更好地理解和使用模型。