【资料图】
零门槛进行绘画创作,文心一格让每个人都能成为“艺术家”;通过简单问答即可尝试编程,ChatGPT让程序员的编码工作不再神秘……生成式人工智能热潮正在席卷整个科技行业。根据文字描述可以生成音乐吗?当然可以。Meta近日开源的Audio-Craft就能做到,旨在帮助研究人员和开发人员训练自己的模型,从而推进该领域的发展。
Meta表示,这款人工智能工具以其拥有和特别授权的音乐作为训练数据,可以把用户的文本描述转化为音乐。AudioCraft融合了AudioGen、MusicGen和EnCodec3种模型。其中,预先训练好的AudioGen模型可以生成环境声音和音效,比如狗叫声、汽车鸣笛声或木地板上的脚步声,结合用两万个小时授权音乐训练而成的MusicGen以及Encodec编码器/量化器/解码器,三者配合下可帮助用户高效生成高质量的音乐。
值得一提的是,AudioCraft使用En-Codec从原始信号中学习并标记音频,通过这一步骤建立音乐样本的“词汇表”(音频标记),然后将其输入到自回归语言模型中。该模型利用标记内容的结构生成新的模型,从而更好捕获数据中的长距离依赖关系,这对于音乐生成至关重要。最后,新模型根据文本描述生成新的标记,这些标记反馈给En-Codec用于合成声音和音乐。
生成任何类型的高质量音频都需要对复杂信号在不同尺度上进行建模。可以说,音乐是一种极具挑战性的音频类型,因为其由不同跨度的音程、多种乐器的音色等复合而成。
如前所述,AudioCraft是开源的,开发人员可以更加方便地获取代码和文档等资源,并且能够在开源社区中与其他开发人员交流、协作和分享经验,Meta希望借此进一步推动音乐生成领域的创新发展。Meta认为,MusicGen或将成为一种新的乐器,就像最初的音乐合成器一样。
但是,Hacker News评论员指出,虽然AudioCraft大部分都是开源的,其模型权重所使用的CC-BY-NC许可协议则要求对原作品进行非商业用途的分享与再创作,对商业使用存在限制,并不符合完全开源的条件。相比之下,完全开源的协议如GPL(General Public License)则没有限制作品的商业使用。
具体来说,非商业使用条款破坏了开源倡议组织(Open Source Initiative)对开源的定义中的第六点,这可能是由于Meta使用了其拥有授权的音乐源去计算模型权重。
关键词:
相关的文章>>
热门搜索:
资讯
更多图说健康
更多主要有无精打采,没有精神,不思进[t7] 取;情绪不稳定、易发脾...
病人血压突然升高,并伴有恶心、呕吐、剧烈头痛、心慌甚至视线...
患者精神症状消失3个月(慢性复发患者精神症状消失6个月)以上,...
疏风解毒胶囊的作用与功效是什么?疏风解毒胶囊可以起到解毒利咽...
艾叶的功效与作用有哪些?1、散寒止痛艾叶为菊科蒿属植物艾的叶...
治疗白发的偏方有哪些?1 桑白皮30克,五倍子15克,青葙子60...
常见疾病
更多体育健身
更多去年美网,同样是7人踏入单打正赛的赛场,最终5人闯入32强,创...
64岁许家印首次被证实早已离婚:现在常驻广州,不随意会见外人,...
云南陆良清河·荷花里城乡融合型乡村振兴示范区开园(侯玉峰摄...
合肥机电技师学院是中专。根据查询合肥机电技师学院官网信息显...
猴子是人类的近亲,但它们的智商相对较低。本文将探讨猴子智商...
08月30日,欧晶科技被深股通减持2 24万股,最新持股量为74 37万股,占