深度学习语音降噪_Matlab深度学习语音降噪__matlab深度学习去噪,深度学习语音降噪资源-CSDN文库

共1个文件

m：1个

版权申诉

5星 · 超过95%的资源 175 浏览量 2021-10-01 08:33:37 上传评论 19 收藏 5KB ZIP 举报

在现代的语音处理技术中，深度学习已经成为一种强大的工具，特别是在语音降噪方面。本案例主要探讨了如何在MATLAB环境中利用深度学习方法对语音信号进行有效的噪声抑制。以下是关于这个主题的详细知识：我们需要理解深度学习的基本概念。深度学习是机器学习的一个分支，它模仿人脑的工作原理，通过构建多层神经网络来识别和处理复杂模式。在语音降噪场景中，深度学习网络可以学习到噪声和纯净语音之间的特征差异，并据此进行噪声消除。在MATLAB中，我们可以使用深度学习框架——Deep Learning Toolbox来构建和训练模型。这个工具箱提供了丰富的神经网络架构，如全连接网络（FCN）和卷积神经网络（CNN）。这两个网络在本示例中被用来对比它们在语音降噪上的性能。全连接网络是一种基础的神经网络结构，其中每个输入节点都与每个隐藏层节点相连。在语音降噪任务中，FCN可以捕捉输入语音信号的全局特征，但由于其对输入序列的顺序不敏感，可能无法充分利用时间序列信息。相比之下，卷积神经网络尤其适合处理具有空间或时间结构的数据，如语音信号。CNN通过卷积层提取局部特征，并且能较好地保留输入序列的时间信息。因此，在语音降噪中，CNN通常能更有效地捕捉到声音信号的时空模式，从而提高降噪效果。在实现过程中，我们需要准备有噪声语音和对应的纯净语音样本作为训练数据。这些数据可能来自实际环境或者通过模拟添加噪声得到。然后，我们将数据预处理为适合网络输入的形式，比如梅尔频率倒谱系数（MFCCs）或其他声学特征。接下来是网络模型的构建。对于FCN，我们可能会构建多层全连接层，每层后接激活函数，最后是输出层，用于预测噪声去除后的语音。而对于CNN，我们会包含卷积层、池化层和全连接层，利用卷积层提取特征，池化层降低维度，全连接层进行分类或回归。在训练过程中，我们会用到反向传播算法来优化网络权重，常用的优化器有梯度下降、Adam等。损失函数通常是均方误差（MSE），用于衡量预测值与真实值之间的差距。训练完成后，我们可以使用测试集评估模型的性能，例如通过信噪比（SNR）提升来量化降噪效果。 "深度学习语音降噪.m"可能是实现以上步骤的MATLAB脚本文件，包含了网络构建、训练、验证和测试的完整代码。通过阅读和理解这个脚本，我们可以深入学习如何在实际项目中应用深度学习进行语音降噪。总结起来，MATLAB深度学习语音降噪案例展示了如何使用全连接网络和卷积网络进行噪声抑制，强调了选择合适网络架构的重要性，并提供了实现这一过程的MATLAB代码。这种技术在噪声环境中的语音通信、语音识别等领域有着广泛的应用价值。

资源推荐

资源详情

资源评论

收起资源包目录

深度学习语音降噪.zip （1个子文件）

深度学习语音降噪.m 14KB

[cleanAudio,fs] = audioread("SpeechDFT-16-8-mono-5secs.wav"); sound(cleanAudio,fs) noise = audioread("SpeechDFT-16-8-mono-5secs.wav"); % noise = load("volvo.mat"); % Extract a noise segment from a random location in the noise file ind = randi(numel(noise) - numel(cleanAudio) + 1, 1, 1); noiseSegment = noise(ind:ind + numel(cleanAudio) - 1); speechPower = sum(cleanAudio.^2); noisePower = sum(noiseSegment.^2); noisyAudio = cleanAudio + sqrt(speechPower/noisePower) * noiseSegment; sound(noisyAudio,fs) t = (1/fs) * (0:numel(cleanAudio)-1); subplot(2,1,1) plot(t,cleanAudio) title("Clean Audio") grid on subplot(2,1,2) plot(t,noisyAudio) title("Noisy Audio") xlabel("Time (s)") grid on %% 检查数据集 %% 此示例使用 Mozilla 通用语音数据集 [1] 的一部分来训练和测试深度学习网络。该数据集包含受试者口述短句的 48 kHz 录音。下载该数据集并解压缩下载的文件。 url = 'http://222.178.203.72:19005/whst/63/_rrczlZsgvnqjrzbnl//supportfiles/audio/commonvoice.zip'; downloadFolder = tempdir; dataFolder = fullfile(downloadFolder,'commonvoice'); if ~exist(dataFolder,'dir') disp('Downloading data set (956 MB) ...') unzip(url,downloadFolder) end %% 使用 audioDatastore 为训练集创建数据存储。要以牺牲性能为代价来加快示例的运行时间，请将 reduceDataset 设置为 true adsTrain = audioDatastore(fullfile(dataFolder,'train'),'IncludeSubfolders',true); reduceDataset = true; if reduceDataset adsTrain = shuffle(adsTrain); adsTrain = subset(adsTrain,1:1000); end %% 使用 read 获取数据存储中第一个文件的内容。 [audio,adsTrainInfo] = read(adsTrain); %% 收听语音信号。 sound(audio,adsTrainInfo.SampleRate) %% 对语音信号绘图。 figure t = (1/adsTrainInfo.SampleRate) * (0:numel(audio)-1); plot(t,audio) title("Example Speech Signal") xlabel("Time (s)") grid on %% STFT 目标和预测变量 %本节说明如何从一个训练文件中生成目标和预测变量信号。 %首先，定义系统参数： windowLength = 256; win = hamming(windowLength,"periodic"); overlap = round(0.75 * windowLength); ffTLength = windowLength; inputFs = 48e3; fs = 8e3; numFeatures = ffTLength/2 + 1; numSegments = 8; %% 创建一个 dsp.SampleRateConverter (DSP System Toolbox) 对象以将 48 kHz 音频转换为 8 kHz。 src = dsp.SampleRateConverter("InputSampleRate",inputFs, ... "OutputSampleRate",fs, ... "Bandwidth",7920); %% 使用 read 从数据存储中获取音频文件的内容。 audio = read(adsTrain); %% 确保音频长度是采样率转换器抽取因子的倍数。 decimationFactor = inputFs/fs; L = floor(numel(audio)/decimationFactor); audio = audio(1:decimationFactor*L); %% 将音频信号转换为 8 kHz。 audio = src(audio); reset(src) %% 使用洗衣机噪声向量创建一个随机噪声段。 randind = randi(numel(noise) - numel(audio),[1 1]); noiseSegment = noise(randind : randind + numel(audio) - 1); %% 向语音信号添加噪声，使 SNR 为 0 dB。 noisePower = sum(noiseSegment.^2); cleanPower = sum(audio.^2); noiseSegment = noiseSegment .* sqrt(cleanPower/noisePower); noisyAudio = audio + noiseSegment; %% 使用 stft (Signal Processing Toolbox) 基于原始和含噪音频信号生成幅值 STFT 向量。 cleanSTFT = stft(audio,'Window',win,'OverlapLength',overlap,'FFTLength',ffTLength); cleanSTFT = abs(cleanSTFT(numFeatures-1:end,:)); noisySTFT = stft(noisyAudio,'Window',win,'OverlapLength',overlap,'FFTLength',ffTLength); noisySTFT = abs(noisySTFT(numFeatures-1:end,:)); %% 基于含噪 STFT 生成包含 8 个段的训练预测变量信号。连续预测变量之间的重叠是 7 个段。 noisySTFT = [noisySTFT(:,1:numSegments - 1), noisySTFT]; stftSegments = zeros(numFeatures, numSegments , size(noisySTFT,2) - numSegments + 1); for index = 1:size(noisySTFT,2) - numSegments + 1 stftSegments(:,:,index) = (noisySTFT(:,index:index + numSegments - 1)); end %% 设置目标和预测变量。两个变量的最后一个维度对应于由音频文件生成的非重复预测变量/目标对组的数量。每个预测变量为 129×8，每个目标为 129×1。 targets = cleanSTFT; size(targets) predictors = stftSegments; size(predictors) %% 使用 tall 数组提取特征 %为了加快处理速度，使用 tall 数组从数据存储中所有音频文件的语音段中提取特征序列。与内存数组不同，在您调用 gather 函数之前，tall 数组通常不会实际进行计算。这种延迟计算使您能够快速处理大型数据集。当使用 gather 最终请求输出时，MATLAB 会尽可能地合并排队的计算，并执行最少次数的数据遍历。如果您有 Parallel Computing Toolbox?，您可以在本地 MATLAB 会话中或在本地并行池中使用 tall 数组。如果安装了 MATLAB? Parallel Server?，您还可以在群集上运行 tall 数组计算。 %首先，将数据存储转换为 tall 数组。 reset(adsTrain) T = tall(adsTrain) %上面的输出内容指示行数（对应于数据存储中的文件数）M 未知。M 是占位符，直到计算完成才会填充该值。 % 从 tall 表中提取目标幅值 STFT 和预测变量幅值 STFT。此操作会创建新 tall 数组变量以用于后续计算。函数 HelperGenerateSpeechDenoisingFeatures 执行在 STFT 目标和预测变量部分中已着重介绍的步骤。cellfun 命令将 HelperGenerateSpeechDenoisingFeatures 应用于数据存储中每个音频文件的内容。 [targets,predictors] = cellfun(@(x)HelperGenerateSpeechDenoisingFeatures(x,noise,src),T,"UniformOutput",false); %% 使用 gather 计算目标和预测变量。 [targets,predictors] = gather(targets,predictors); %% 将所有特征归一化为具有零均值和单位标准差是很好的做法。 %分别计算预测变量和目标的均值和标准差，并使用它们来归一化数据。 predictors = cat(3,predictors{:}); noisyMean = mean(predictors(:)); noisyStd = std(predictors(:)); predictors(:) = (predictors(:) - noisyMean)/noisyStd; targets = cat(2,targets{:}); cleanMean = mean(targets(:)); cleanStd = std(targets(:)); targets(:) = (targets(:) - cleanMean)/cleanStd; %% 将预测变量和目标重构为深度学习网络需要的维度。 predictors = reshape(predictors,size(predictors,1),size(predictors,2),1,size(predictors,3)); targets = reshape(targets,1,1,size(targets,1),size(targets,2)); %% 在训练期间，您将使用 1% 的数据进行验证。验证对于检测网络过拟合训练数据的情况非常有用。 %将数据随机分成训练集和验证集。 inds = randperm(size(predictors,4)); L = round(0.99 * size(predictors,4)); trainPredictors = predictors(:,:,:,inds(1:L)); trainTargets = targets(:,:,:,inds(1:L)); validatePredictors = predictors(:,:,:,inds(L+1:end)); validateTargets = targets(:,:,:,inds(L+1:end)); %% layers = [ imageInputLayer([numFeatures,numSegments]) fullyConnectedLayer(1024) batchNormalizationLayer reluLayer fullyConnectedLayer(1024) batchNormalizationLayer reluLayer fullyConnectedLayer(numFeatures) regressionLayer ]; %% miniBatchSize = 128; options = trainingOptions("adam", ... "MaxEpochs",3, ... "InitialLearnRate",1e-5,... "MiniBatchSize",miniBatchSize, ... "Shuffle","every-epoch", ... "Plots","training-progress", ... "Verbose",false, ... "ValidationFrequency",floor(size(trainPredictors,4)/miniBatchSize), ... "LearnRateSchedule","piecewise", ... "LearnRateDropFactor",0.9, ... "LearnRateDropPeriod",1, ... "ValidationData",{validatePredictors,validateTargets}); %% doTraining = true; if doTraining denoiseNetFullyConnected = trainNetwork(trainPredictors,trainTargets,layers,options); else s = load("denoisenet.mat"); denoiseNetFullyConnected = s.denoiseNetFullyConnected; cleanMean = s.cleanMean; cleanStd = s.cleanStd; noisyMean = s.noisyMean; noisyStd = s.noisyStd; end %% numWeights = 0; for index = 1:numel(denoiseNetFullyConnected.Layers) if isa(denoiseNetFullyConnected.Layers(index),"nnet.cnn.layer.FullyConnectedLayer") numWeights = numWeights + numel(denoiseNetFullyConnected.Layers(index).Weights); end end fprintf("The number of weights is %d.\n",numWeights); %% layers = [imageInputLayer([numFeatures,numSegments]) convolution2dLayer([9 8],18,"Stride",[1 100],"Padding","same") batchNormalizationLayer reluLayer repmat( ... [convolution2dLayer([5 1],30,"Stride",[1 100],"Padding","same") batchNormalizationLayer

评论收藏

内容反馈

版权申诉