「能说会唱」的MiniMax,拔出国产AI的瑞士军刀(会说话的歌)

「能说会唱」的MiniMax,拔出国产AI的瑞士军刀(会说话的歌)

文 | 阑夕

今天听到一首歌,旋律隐隐熟悉,似乎有成为爆款BGM的潜质。

从开始的古筝起始,随着鼓点加入,进到古风歌词——几段正歌人声清隽,副歌部分悠长不绝,诉说一个久远的故事……

请中央音乐学院的博士好友一听,他评价编曲、作词都还不错,也认真给出了一点建议。

然而,这首三分多钟的完整歌曲,是只用了一句提示词、通过MiniMax Music生成的。

知此情形,音乐博士好友很受震撼;而真正亲历、见证了这几年AI音乐发展的人士,深度体验后,内心的波澜大概不亚于他。

一曲一世界,一句一乾坤。

MiniMax Music测评:曲风由你

AI音乐之乾坤,唯创作才有发言权。使用MiniMax Music消耗数千积分后,浅谈些感受。

生成上一首歌曲的提示词并不艰深:「模仿『周杰伦』的旋律,写一首爱情相关的歌,有古风元素,模仿《七里香》和《说好的幸福呢》旋律结合」。而效果听来却有意外之喜,尤其对几乎从未尝试过独立音乐创作的普通朋友,易上手程度可以说已接近「0门槛」。

用到的模型是MiniMax最新更新的自研音乐模型 Music 1.5,产品功能很简洁,分为简单模式(Simple)和高级模式(Advanced)两种。前者可以「一句成曲」,而后者「专业可控」。

简单模式下,仍输入较简单的提示词,输出结果却是曲风突变。

「创作一首有爵士风格、R&B元素的流行歌曲,表达年轻一代创业者的先锋和创新态度,用电吉他、Bass、架子鼓等,混合摇滚特征和现代音乐独创性。」

首先必须承认,Music 1.5的指令依循性很好。提示词涉及的电吉他、贝斯、架子鼓,特征都很鲜明,前奏先声夺人谱出跳动感,乐器本身音色特点和想要的歌曲风格匹配度高。

而随着人声的注入,爵士、R&B、摇滚和现代的风格得以彰显,起调明亮的乐器声作为伴奏则是稍稍后移,在间奏和结尾又自然呈现。

要知道,如果把提示词作为「命题作业」给到音乐学院的学生,单独一个音轨的吉他伴奏,录音棚中便是不知多少次的从头再来。

而今天,实现如上一首完整作品,所需仅仅一段话、一模型、数积分而已。

那么,如果更进一步细化结构层次和指令颗粒度呢?

用Markdown形式和更代码化的提示词,效果也没让我失望。最长的提示词,带来了近期我最满意的一首AI音乐作品。

不过需要注意的是,简单模式下,长提示词需要控制在300字符内,这也让我自然而然开启了高级模式的探索。

在高级模式下,指令篇幅来到了3000字符。输入「 / 」会有编曲的分层提示。

完成了前奏、主歌、副歌等的设计后,在设置中可以一键选择风格、情绪、场景等。

按照官方表达,Music 1.5 支持 「16种风格 × 11种情绪 × 10个场景」 自定义音乐特征,理论上有1760种不同的乐曲类型组合。

相比之前「一句话成曲」能进一步感受到控制力的提升。如果把音乐创作拆解为工作流,此刻Music 1.5已经用公式化的结构和标签,让曾经的节点和Pipeline变成的一个个的可点击选项。

因为是相同模型的原因,歌曲本身的演绎完成度和艺术性,比起之前的几个测试案例,变化似乎并不显著;但在高级模式下,能根据需要选择乐器类型、歌词内容、风格搭配……相比简单模式下用提示词控制,明显会更有掌控感。

哪怕以音乐学院博士的眼光来评判,选项的细分程度也已经达到了专业水准。可以想见,在MiniMax Music团队,必然有乐理专家和职业音乐人的支持。

唯一发现的暂时还不够可控的,是纯音乐选项,在当前最新版本中不论提示词如何强调,依然无法消除人声。通过增加选择按钮的方式等,并不是难题,预计也将很快得到完善或取舍。

总体来看,模型的控制力和音乐性,是衡量音乐模型质量的两个核心指标。

从控制力来说,Music 1.5能在4分钟的音乐中保持高完成度,其背后对于Long Context的编排,可类比2023年Kimi横空出世的长文本。音乐全链路、多场景,都达到了超出业余的水准。

从音乐性讲,无论风格的典型性还是编曲层次感,再或者人声的自然度、结构的动态变化,都堪称令人喜悦。

当然,相比Suno细分功能的丰富度,MiniMax Music尚显简陋,生成的音乐结尾处理略生硬,存在戛然而止、声音突然中断的抽卡现象。但作为中国的AI之声,其肉眼可见的进步速度,更值得我们期待。

AI音乐,不止重塑音乐行业

相较于处于AI舞台中央的『大语言模型』、视频模型,AI音乐的战场似乎并未被充分重视。

然而,一款再先进的视频模型,没有声音也只是默片;没有音乐的注入,即便有了文字、图片、视频,灵魂仍然残缺。

在MiniMax的技术图谱内,声音模型一直被摆在重要位置,并和其他模型彼此促进。从技术发展初期,在行业玩家尚未察觉之时,就下重注长线布局,这也是今天MiniMax的模型矩阵都能占据领先位置的原因。

看MiniMax的全栈AI能力生态,从算力到数据、从模型到应用,不仅能发挥协同效应、产模一体自闭环,同时可以凭借对外赋能、API逻辑、出海经验,在商业上真正全面落地。

不要忘了,MiniMax在语音上已经是全球双榜第一,这意味着它在「声音」领域的技术积累有天然优势。

今年的上海WAIC,开幕式的主讲嘉宾是诺奖得主、AI教父辛顿,而另一位启幕嘉宾则是闫俊杰,MiniMax的创始人。二者演讲内容的一个共同点是,都站在了AI与全人类关系的立场上。相比Hinton,MiniMax更加乐观,相信AI属于每个人,一定会更普惠地服务大众。在AGI的道路上,看似是「微小拼图」的AI音乐,也终究会在人类科技史、艺术史上书写天籁的一笔。

早在2023年,a16z已经旗帜鲜明提出,AI将重塑音乐全产业链。从23年初谷歌的MusicLM文生音乐,到Meta开源MusicGen。再之后,Suno横空出世,凭借其音乐审美和产品完成度,第一次在音乐生成领域树立标杆。

a16z甚至展示了AI音乐的行业应用光谱,从即时交互的音乐信息流,到专业级的音乐工具、技术栈,不同于Spotify的新一代音乐媒介正在诞生。AI音乐专辑、互动式音乐平台等形态,也将不再是痴人说梦。

对MiniMax Audio来说,性价比就是最永恒的优势。效果可媲美Suno、局部亮点突出,价格仅为suno的一半不到。具体来看,Suno V3.5的单价大概是3毛,一首歌要几十美金,这是Suno的问题,也是机会窗口。

正如海螺AI在不到一年的时间里反超Sora,类似的戏码似乎也正在MiniMax Music和Suno之间上演。

在产品设计和控制功能上,正视当前存在的差距和不足,坚定落地「低价高质策略」也将带来真正的行业革新。

从产业来看,虚拟陪伴、AI偶像、音乐电台、影视娱乐……都将随着AI音乐能力的注入,让多模态交互和体验升级产生新的可能。

不妨让想象更狂野一点:人类和AI正在建立新的合作范式,而协作创作音乐就是一个极致的开始。

人类擅长情感表达与审美判断,AI 擅长结构生成与无限延展。当二者结合,创作不再是单向度的劳动,而是碳基与硅基的共创,既具备技术的精确性,又不失人性的温度。

纯粹的AI音乐作品仍显生硬,而人类艺术家的特权和创造力也正在丧失。通过「碳基+硅基」的组合,MiniMax让我看到了硅碳合一的未来。

从2023年的Talkie让我看到多模态融合陪伴,到海螺AI的一念成真、视觉重塑,以及MiniMax Agent对效率生产方式的重新组织,再到今天的Music 1.5,正在书写音乐新历史。

原本的设想里, AI 音乐有机会真正走进 B 端与 C 端的双重舞台

B 端:广告、游戏、影视配乐,AI 音乐能显著降低成本。C 端:个人用户、短视频创作者、乐队玩家,随手生成高质量的原创曲,不再受限于版权©️与门槛。

现在想来,碳基和硅基边界的重新厘定、人和AI的融合创作与消费,都将彻底颠覆现有的一切。十年后回看,今天的作曲家、音乐制作人,也许和千百年前的乐师没有本质区别,而迥乎不同的,是AI音乐。

最后分享一个小彩蛋:把『DeepSeek』疯狂思考输出的名场面写成一首歌。

AI时代,你的歌,你说了算……

特别声明:[「能说会唱」的MiniMax,拔出国产AI的瑞士军刀(会说话的歌)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

男孩小区电梯门口被原矛头蝮咬伤 物业称蛇来自旁边山坡(小区男孩电梯事故视频)

9月11日,有网友在『社交平台』发布视频称,重庆彭水县一名小男孩在小区电梯口被蛇咬伤,小区内还有多处发现了蛇。该网友发布的视频及图片显示,一名小男孩在电梯处被蛇咬伤,正在医院治疗。此外,小区车库负一楼和负二楼及电梯处也发现了蛇

男孩小区电梯门口被原矛头蝮咬伤 物业称蛇来自旁边山坡(小区男孩电梯事故视频)

AY-Z2061 医用钳锁合啮合力测试仪 YYT1750—2020 讲解描述(医用钳子怎么打开)

医用钳锁合啮合力测试仪核心解析一、核心功能与技术原理功能定位该设备专为评估医用钳(如抓取钳、持针钳、剥离钳等)的锁合性能设计,通过量化锁合过程中的啮合力,确保其符合医疗器械安全标准(如YYT1750—20…

AY-Z2061 医用钳锁合啮合力测试仪 YYT1750—2020 讲解描述(医用钳子怎么打开)

老电影《八千里路云和月》幕后故事(请问八千)

老电影《八千里路云和月》是联华影艺社拍摄的剧情片,由史东山执导,陶金、白杨主演,于1947年2月上映 。 抗战胜利后,周恩来提出要在上海建立电影制片机构作为党的文艺阵地,史东山等进步人士于是成立联华影艺社,《

老电影《<strong>八千里路云和月</strong>》幕后故事(请问八千)

张明敏歌声回荡家国情怀如何燃动天安门(歌唱家张明敏)

那一句“洋装虽然穿在身,我心依然是中国心”,唱出了无数海外游子和香港同胞的心声。这首歌跨越了地域的界限,让人们在歌声中感受到了中华民族强大的凝聚力和向心力。他在天安门广场的这一亮相,也将成为历史长河中一颗璀璨…

张明敏歌声回荡家国情怀如何燃动天安门(歌唱家张明敏)

预制菜知情权 推动透明化消费(预制品菜)

9月12日晚8时30分左右,罗永浩在『抖音』、B站、微博等平台开启直播,回应了近日与餐饮品牌西贝的争议。他重申自己不反对预制菜,但强调此举是为了推动预制菜透明化,维护消费者知情权

预制菜知情权 推动透明化消费(预制品菜)