上海AI实验室等开源，音频、音乐统一开发工具包Amphion-行至网

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域，可以在一个框架内完成，以解决生成模型黑箱、代码库分散、缺少评估指标等难题。

Amphion包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明，还内置了各类神经语音编解码器和评价指标。

尤其是对于那些刚接触生成式AI开发的新手来说，Amphion非常容易上手。

开源地址：https://github.com/open-mmlab/Amphion

论文地址：https://arxiv.org/abs/2312.09911

以下是Amphion包含的各种模型

文本到语音合成

Amphion内置的文本到语音合成模型，涵盖从传统到当前最先进的技术。例如，FastSpeech 2使用前馈式Transformer架构实现快速语音合成;

VITS融合了条件变分自编码器,可实现端到端的语音合成;Vall-E使用神经编解码器语言模型一键实现零资源的语音合成;NaturalSpeech 2利用潜在扩散模型合成高质量语音。

开发者可根据业务需求，选择使用不同的模型进行语音合成。

歌声转换

Amphion提供了提取说话人无关表示的各类基于内容的特征,例如，来自WeNet、Whisper和ContentVec的预训练语音特征。

同时实现了多种声学解码器架构,比如基于扩散模型、变压器和变分自编码器的方法。

此外，借助内置的神经语音编解码器合成声波输出，开发者可以灵活配置不同模块,进行不同歌声风格转换。

文本到音频生成

Amphion使用了主流的潜在扩散生成模型。该模型包含一个将频谱映射到潜空间的变分自动编码器,一个接受文本并输出条件的T5编码器,以及一个扩散网络生成最终音频。

用户只需给出音频描述文本,就可以生成语义一致的背景音效。

神经语音编解码器

Amphion提供了丰富的编解码器算法选项,涵盖主流的自动回归模型、流模型、对抗生成模型、扩散模型等。

例如，WaveNet使用膨胀卷积实现高质量语音合成；HiFi-GAN应用多尺度判别器实现高保真的语音重构等，可满足不同业务场景的需求。

性能评估模块

为了帮助开发者全面评估生成语音的质量和性能，Amphion提供了丰富的评估模块。

评估基频建模、能量建模、频谱失真、可懂度等语音维度，可帮助开发者简单直观地比较不同模型的性能。

开发团队表示，未来，会持续更新这个工具包，加入更多与语音相关的模型，打造成最好用的开源语音工具包之一。

免责声明

发文时比特币价格：$42249

免责声明：

本文不代表行至网立场，且不构成投资建议，请谨慎对待。用户由此造成的损失由用户自行承担，与行至网没有任何关系；

行至网不对网站所发布内容的准确性，真实性等任何方面做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，行至网对项目的真实性，准确性等任何方面均不做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，行至网不对其构成任何投资建议，用户由此造成的损失由用户自行承担，与行至网没有任何关系；

行至区块链研究院声明：行至区块链研究院内容由行至网发布，部分来源于互联网和行业分析师投稿收录，内容为行至区块链研究院加盟专职分析师独立观点，不代表行至网立场。

上海AI实验室等开源，音频、音乐统一开发工具包Amphion

文本到语音合成

文本到音频生成

神经语音编解码器

性能评估模块

相关推荐

评论抢沙发

评论前必须登录！

技术咨询服务

热门专题

热门专题

标签云

服务于区块链创业者

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的区块链世界！

支付宝扫一扫打赏

微信扫一扫打赏

文本到语音合成

文本到音频生成

神经语音编解码器

性能评估模块

相关推荐

评论 抢沙发

评论前必须登录！

技术咨询服务

热门专题

热门专题

标签云

服务于区块链创业者

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的区块链世界！

支付宝扫一扫打赏

微信扫一扫打赏

评论抢沙发