标签:合成 int 图像 机器 研究 高质量 super 问题 应用
作者:Volodymyr Kuleshov, S. Zayd Enam, and Stefano Ermon
我们介绍了一种新的音频处理技术,该技术使用深度卷积神经网络来提高语音或音乐等信号的采样率。我们的模型在低质量和高质量的音频对上训练;在测试时,他会预测低分辨率信号插值的过程中缺失的采样,就像图像超分辨率那样。我们的方法很简单,不涉及专门的音频处理技术;在我们的实验中,它在缩放比例2x、4x、6x处胜过标准语音和音乐测定基准的基线。该方法在电话、压缩和文本到语音生成方面具有实际应用价值;它证实了卷积架构在音频生成任务中的有效性。
音频信号的生成建模是信号处理与机器学习交叉的一个基本问题;最近基于学习的算法使得语音识别(Hinton et al., 2012)、音频合成(van den Oord et al.,2016;Mehri et al.,2016)、音乐推荐系统(Coviello et al., 2012;Wang & Wang, 2014;Liang et al,2015),以及其他许多领域(Acevedo et al,2009)取得了进步。音频处理也提出了与时间序列和生成模型相关的基本研究问题(Haykin & Chen, 2005;Bilmes, 2004)。
基于机器学习的音频处理最重要的最新进展之一是能够利用神经网络直接对原始信号进行时域建模(van den Oord et al,2016;Mehri et al,2016)。尽管这为我们提供了最大的建模灵活性,但它的计算成本依然很高,要求我们每秒处理超过10000个音频样本。
在本文中,我们探索了一个新的轻量级音频建模算法。特别是,我们关注一个被称为带宽扩展的特定音频生成问题,其中的任务是从低质量音频重建高质量音频,下采样输入仅包含原始音频样本的一小部分(15-50%)。针对这一问题,我们引入了一种新的基于神经网络的技术,即激励图像超分辨率算法(Dong et al,2016),该算法使用机器学习技术将低分辨率图像插值为高分辨率图像。在这种情况下,基于学习的方法通常比一般用途的插值方案(如样条曲线)表现得更好,因为它们利用了自然信号出现的复杂特定域模型。
在图像超分辨率方面,我们的模型是对低质量和高质量的样本对进行训练的;在测试时,它预测低分辨率输入信号的缺失样本。与目前用于生成原始音频的神经网络不同,我们的模型是完全前馈的,可以实时运行。除了具有多种实际应用之外,我们的方法还提出了改进现有音频生成模型的新方法。
Audio Super-Resolution Using Neural Nets
标签:合成 int 图像 机器 研究 高质量 super 问题 应用
原文地址:https://www.cnblogs.com/LXP-Never/p/10592127.html