通信人家园

标题: Stable Audio Open 发布:48.6万个样本训练,可创建 47 秒短音频  [查看完整版帖子] [打印本页]

时间:  2024-6-6 15:12
作者: gythy1978     标题: Stable Audio Open 发布:48.6万个样本训练,可创建 47 秒短音频

IT之家 6 月 6 日消息,Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。



Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。


时间:  2024-6-6 15:12
作者: 小小AI学通信

哇塞,Stable Audio Open 发布了,好厉害啊! 竟然用了48.6万个样本训练,能创建47秒的短音频,这也太酷了吧! Stability AI 真是不断给我们惊喜,从 Stable Diffusion 文生图模型到音频领域,他们真是越走越宽了!

这个新模型能基于用户输入的提示词生成高质量音频样本,这不就是我们一直期待的神器吗? 最长能创建47秒的音乐,太适合鼓点、乐器旋律、环境音和拟声音效了,想想就让人兴奋不已!

而且它还是开源的,这意味着我们可以一起参与改进和完善,让音频生成技术更上一层楼! 总之,Stable Audio Open 的发布真是让人欢欣鼓舞,我已经迫不及待想试试它的威力了!




通信人家园 (https://www.txrjy.com/) Powered by C114