[提取特定人音频的方法]单通道目标说话人的提取与识别

wlza

作者

科学研究了混和音视频讯号下最终目标骂人人的双引擎音视频辨识难题。他们明确提出借助最终目标骂人人的适应能力词句所提供的远距骂人人重要信息来抽取和辨识该骂人人。采用那些远距重要信息。他们能创建两个独立于混和声场数目的骂人人抽取神经互联网。它能追踪相同的耳机。混和音视频辨识是现代方式辨识混和音视频时面临的两个难题。他们把此种知情的骂人人抽取方案称为SpeakerBeam。SpeakerBeam借助前段时间开发的语句自适应广度神经互联网(CADNN)，该互联网允许透过骂人人自适应层追踪来自最终目标骂人人的音视频，该自适应层的参数能调整。等待代表最终目标骂人人charac的远距特点。申辩。SpeakerBeam以前调查过speaker ex。除雪采用话筒侦测器。在本文中，他们证明了它对双引擎耳机的抽取也是有效的。骂人人自适应层既能用作创建只辨识最终目标骂人人的骂人人自适应电学数学模型，也能用作创建基于超值价的骂人人抽取互联网，在辨识前从混和音视频讯号中抽取最终目标音视频。他们还表明，后一类耳机抽取互联网能与两个电学数学模型共同强化，以不断提高ASR性能。

除雪，适应，强壮的ASR 1。概要

1. 介绍

随着音视频驱动的智能家居的部署。人们对噪音DokuWiki自动音视频辨识(ASR)越来越钟爱[1,2]。前段时间，透过将现代讯号处置方式与广度自学结合，借助话筒侦测器取得了新进展[3-6]。相对而言，双引擎DokuWiki音视频辨识依然是两个具备诱惑力的任务，的的干扰耳机。

已经有很多科学研究旨在借助广度自学分立混和中观察到的音视频讯号[8-101]。最初的尝试是体能训练DNN输入与混和讯号一样多的讯号。不过。此种方式存有一些不足之处。首先，它被管制为由具备相同特点的讯号组成的混和讯号，如相同异性恋的[8]。事实上，如果没此种的管制，就不可能控制别的输入相关联别的耳机，因此数学模型很难体能训练。他们称这个难题为框架级分期付款难题。除此之外，那些方式对它能处置的耳机数目施予了限制性管制，即使它是由他们建议解除那些管制。它化解了帧级排序难题

前段时间，deep clustering[9]和deep吸引子互联网[11]被明确提出来释放那些管制。它透过自学两个DNN来输入频率响应箱的内嵌重要信息来化解帧级排序难题，此种内嵌频率响应中同一骂人人相关联的频率响应就会非常吻合。丁空间。然后透过控制点内嵌矢量来计算每个源的音视频分立超值价。虽然DNN对混和中骂人者的数目没限制性管制，但控制点关键步骤需要知道或估计骂人者的数目。除此之外，acros表达依然存有两个排序难题，即使不能保证取值骂人者的内嵌矢量在相同的处置段中具备相似的值

排序维持不变体能训练[12]是另两个方式,这降低了帧级别排序难题培训阶段透过修改最终目标函数,此种条码交换找到最吻合的相匹配与款自学数学模型的输入能分立和追踪ut terance内耳机(131年,概括未明数目的耳机[14]除此之外,分期付款维持不变体能训练能很容易地用作jointl强化音视频分立和电学数学模型[13,151]。不过，词句间的排序难题依然没得到化解。

在对所有讯号进行分立和辨识时，重点科学研究了一类只抽取最终目标讯号的骂人人抽取DNN。他们采用两个只记录最终目标骂人人声音的自适应词句来通知骂人人抽取DNN要抽取别的骂人人。他们称此种计划为SpeakerBeam。在第16章中，他们展示了实现高最终目标骂人人抽取性能的关键是采用一类为电学数学模型17的骂人人自适应而明确提出的语句自适应DNN（CADNN）体系结构，它能根据表示最终目标骂人人特点的远距特点来调整其参数。由于SpeakerBeam只输入两个最终目标耳机，因此它不假设知道混和物中存有的源的数目。除此之外，由于它能跨词句追踪最终目标骂人人，因此能全局性地化解分期付款难题。请注意，能够跨词句追踪最终目标骂人人具备非常实际的意义。例如，它为构建个性化智能家居提供了可能性，那些设备能专注于辨识来自最终目标骂人人（例如设备所有者）的命令或音视频

本文探讨了双引擎情况下耳机波束的抽取能力。他们科学研究了三种相同的结构，即自适应电学数学模型（SpeakerBeam-AM）、基于掩码的骂人人抽取前端（SpeakerBeam-FE）和联合系统组合带面罩的运动鞋抽取和重新定位(耳机波束- it)本文的其余部分组织如下。在第二节中，他们介绍了这个难题，并给出了单chanel耳机光束的原理和相同的实现方式。第三节讨论与先前作品的关系。然后他们在第4节报告实验结果，并在第5节总结论文

2. 双引擎SPEAKERBEAM

让他们首先介绍这个难题，并描述他们在本文中科学研究的相同的耳机波束配置。

2.1。难题公式化

他们在短期傅里叶变换(STFT)域中对观测到的混和讯号建模，Y (t) f，Y (t, f)=x (s) (t, f - n (t, f),(1)其中X() (t, f)是最终目标骂人人s, N(t)相关联的音视频讯号。f)是由干扰耳机和背景噪音组成的干扰讯号(在实验中他们只考虑干扰耳机)，t和f分别是时间和频率指标。他们用yt表示包含讯号Y(t)的log mel滤波组系数的特点矢量。f).他们的最终目标是从混和讯号中只辨识最终目标音视频X() (t. f)。

2。2 抽取DNN，输入音视频fea

他们将最终目标骂人人抽取任务视为音视频抽取DNN的两个骂人人适应器，它输入观察到的混和讯号的音视频特点，并输入两个频率响应掩码，该掩码从观察到的混和讯号中抽取最终目标骂人人。在[18]中，此种超值价用作话筒侦测器配置来计算波束形成系数。在这里，他们关注的是单话筒的配置，从DNN中获得的频率响应超值价被简单地应用到混和中，以估计最终目标音视频为:x(2) (t,f)=M() (t,f) Y(t,f)(21其中X(s) (t, f)是估计的最终目标音视频，M() (t, f)是用骂人人抽取算法计算的频率响应掩码DNN

在没任何引导的情况下，骂人人抽取神经互联网无法知道混和讯号中的别的讯号是最终目标讯号。因此。他们采用自适应词句抽取骂人人特点并指导系统。顺应性词句A()(t。f)由两个只包含最终目标骂人者的音视频讯号组成，并且在混和中与最终目标音视频相同。他们采用下面描述的speaker adaptive laver作为DNN的两个lavers来适应音视频抽取DNN到最终目标speaker。

2.2.1。演讲者适应层

他们前段时间明确提出了一类CADNN作为基于特点的远距DNN自适应的替代方式[17,19]。CADNN就是DNN，它有两个speaker适应层，如图1所示，该适应层由各子层贡献的加权和组成，h(或)=0米两个(0)(3)其中h(i)和h(o)分别为适应层的输入和输入，F)为适应层输入的两个变换，a(a)为

图1所示。骂人人适应层和序列概要远距互联网示意图。

与最终目标骂人者相关联的适应权值s, mn是子laver的指数。M是子lavers的数目。o(.)是两个激活函数，如sigmoid或ReLU。这里他们采用仿射变换和Fm (h())=wmh()-bm，其中Wm和bm分别是权值矩阵和偏置矢量。respectivelv。耳机自适应层对抽取最终目标耳机所需的偏置矩阵和权值矩阵进行自适应，能极大地改变互联网行为。

2.2.2。适应权值计算的概要

自适应层的行为由自适应权值控制，该权值允许互联网自适应抽取特定的最终目标骂人人。他们采用[18.201 as中明确提出的序列摘要方案，直接从适应表述A() (t, f)推导出那些适应权值(s)=1Cloud, 29 (4 (6) (t, f))(4)一样)=)……a)]是包含骂人人s的自适应权值的矢量，TA是自适应词句的长度，g()是输入自适应词句的振幅谱的远距神经互联网，| a (s)(t)。f)。

注意，g()是与主互联网联合体能训练的。直接从自适应词句中计算最终目标骂人人相关权重a(a)，避免了采用骂人人的中间特点表示如i-vector，从而为骂人人抽取任务[18]提供了最优的骂人人表示。

2.3。联合培训耳机波束(耳机波束- jt)

SpeakerBeam-FE透过最小化交叉熵w.rt理想二进制掩码[18]来自学speaker抽取DNN。不过，这可能不是辨识的最佳方式。例如，所获得的超值价可能会抑制辨识器的重要重要信息，或过度泄漏干扰耳机。透过对音视频增强前端和ASR后端进行iointly体能训练，能化解音视频增强前端和ASR后端之间的此种不相匹配难题。

在这里，他们采用了类似于[22]的策略，即他们将音视频抽取DNN与具备确定性特点抽取模块的电学数学模型连接起来，该模块将抽取的音视频频谱转换为具备语句的log-mel滤波器组系数。

2.4。耳机波束电学数学模型(耳机波束- am)

在[15]中，分期付款维持不变体能训练能直接体能训练两个电学数学模型来进行分立和辨识。那些结果表明，两个很好的适应最终目标骂人人的电学数学模型能专注于辨识来自最终目标骂人人的音视频讯号而忽略干扰。耳机波束- jt的另一类选择是简单地采用最终目标耳机的特性调整两个acoustio数学模型。

他们建议采用耳机适应层作为电学数学模型的层之一，使其自适应耳机。他们采用了第2.2.1节和第2.2.2节中所述的speaker adaptive laver和sequence summary方案。SpeakerBeam-AM与他们之前采用CADNN对电学数学模型进行自适应的工作类似[191]，相同的是，自适应权值是采用序列摘要方案而不是i-vector来获得的。

?3。与以前工作的关系

借助远距特点对基于dnn的电学数学模型进行自适应科学研究[19.20.23.241]。现代的方式只是简单地将远距特点连接到DNN(远距输入DNN)的输入上[20,23,24]。但是，简单地将speaker表示输入到互联网的输入中，只实现了输入层的偏置自适应，这可能不足以引导互联网抽取最终目标speaker[16]。

在[24]中，明确提出了一类从家庭助手唤醒关键字中抽取骂人人表示的相关方案。骂人人表示用作端点检测和电学数学模型自适应。不过。他们将LSTM的最后两个输入作为耳机表示，并将其作为基于dnn的电学数学模型的远距输入特点。在他们的初步实验中，他们观察到采用简单平均运算Ea.(4)的优越性能。在他们的情况下，这可能更好地捕捉骂人者的整体特点，即使适应词句相对较长。

在单信道和多信道情况下，已经科学研究了音视频增强DNN和电学数学模型的联合体能训练[15,22]。251. 借助SpeakerBeam，他们还联合体能训练了计算骂人人特点的远距互联网，以获得最终目标音视频编码的最优骂人人表示。定义。请注意。与此同时，他们也在科学研究[26]话筒侦测器的耳机波束联合培训。

4. 实验

他们采用混和物测试了相同的耳机波束配置?两个耳机。图2说明了他们科学研究过的SpeakerBeam配置，并详细说明了它的互联网架构。

4.1。数据

为了评估所明确提出的方式，他们采用来自华尔街日报(WSJ) cor pus[27]的录音创建了双引擎音视频混和。他们采用83名骂人者的7138个词句作为体能训练集，410个词句作为10名骂人者的发展集，330个词句作为评估集。他们将来自相同耳机的干扰声音与同一套耳机混和。体能训练集的信噪比(SIR)平均为0 dB。它与[261]中采用的相同。为了评估相同输入SIR条件下的性能，他们创建了5个开发和评估集，仅将SIR在C和20 dBs之间变化。在这个初步实验中，所有的录音都有中等混响(约0.2秒)，但没背景噪音。

图2所示。三种相同耳机波束配置的原理图。括号中的数字表示适应laver的节点数目和子lavers数目。远距互联网由两个具备50个节点和ReLU激活的FC laver和两个输入FC层组成，输入FC层具备线性激活，然后进行平均操作。他们对所有隐藏层激活函数都采用ReLU

4.2。设置

4.2.1。准备基线电学数学模型

基线电学数学模型由5个完全连接的隐藏lavers和2048个节点和ReLU激活功能组成。输入laver有2024个相关联于HMM状态的节点。该数学模型在单骂人者的录音上进行体能训练，并从两个GMM-HMM svstem中获得校准。电学数学模型的输入由40个log mel滤波组系数和11帧的语句扩展窗口组成。特点是每句话平均规格化。AM和所有其他数学模型都采用ADAM optimizer[28]进行了培训。作为比较，他们还测试了基于远距输入特点的顺应性(auxiliary input AM)，采用第2.2.2节的序列摘要方案对顺应性词句进行处置得到的骂人人特点

4.2.2. 耳机Beam-AM

speaker波束am采用了类似于基线电学数学模型的互联网架构，但其第二层被两个自适应的laver所取代，如图2-(a)所示。该互联网的输入由混和讯号的音视频特点组成。远距互联网的输入为401维振幅谱系数的自适应词句。耳机波束-AM的权重被初始化为基线AM的权重，即使与从随机初始化的数学模型开始相比，它的性能略有提高。

?4。2。3。SpeakerBeam-FE

耳机波束- fe的配置如图2-(b)所示。SpeakerBeam-FE的输入由401维幅谱组成，该谱由窗口尺寸为25msed的STFT计算，并有10msec的位移。对骂人人抽取DNN进行体能训练，使交叉熵最小。在speaker波束- fe辨识实验中，他们对经过speaker波束- ee处置的混和体能训练讯号进行了基线电学数学模型的再体能训练。

4.2.4。SpeakerBeam-JT

耳机波束- jt的配置如图2-(c)所示。另外，对SpeakerBeam-JT的参数进行了初始化预处置模块，即SpeakerBeam-FE的超值价估计互联网和对单讲话者音视频进行体能训练的基线电学数学模型。

4.3。结果

表I显示了作为输入SIRs的函数的eval集的单词错误率(WER)。他们采用开发集来选择最佳的解码配置(语言数学模型权重)。他们省略了开发集上的结果，即使它表现出类似的趋势

透过辨识单骂人人音视频和混和单骂人人音视频来获得基线结果。毫不奇怪，辨识混和讯号是非常具备诱惑力的，特别是对于低输入SIRs。除此之外，在电学数学模型输入处采用最终目标骂人人表示(远距输入AM)并不能提高该任务的性能。这一点。表明简单的偏置适应不足以追踪最终目标骂人人。

下面三行表显示了相同SpeakerBeam配置的结果。与混和结果相比，扩音器波束am和扩音器波束fe都大大降低了响应功率。除此之外，耳机波束- jt能进一步大大提高性能，在较高的输入SIRs。透过与带远距输入特点的调幅算法的结果比较，证实了骂人人自适应层是抽取骂人人的关键。值得注意的是，即使SpeakerBeam-AM是两个不采用BLSTM的相对简单的数学模型，它也已经大大提高了基准性能，并且优于SpeakerBeam-FE。拥有更强大架构的耳机波束am的科学研究将是他们未来工作的一部分。

耳机波束- am和耳机波束- fe的性能在输入SIR超过10dBs时停止显著提高。这可能是由于培训和测试条件不相匹配造成的。即使体能训练数据主要包括o dB附近的输入SIR。SpeakerBeam-FE。体能训练标准的不相匹配(IBM和ASR标准)似乎也导致了较差的表现，较高的输入先生和耳机波束- jt缓解了这一难题。

对于SpeakerBeam-JT，他们采用预先体能训练过的模块来初始化数学模型参数。此种的预体能训练提高了性能，但是，他们依然能观察到合理的性能，即使所有的模块被随机初始化，例如输入SIRs为0 dB, WERs为35.1%。

4.4。讨论

为了更好地理解SpeakerBeam-FE和SpeakerBeam-JT的区别，他们比较了在输入SIR为0 dB时抽取的eval set音视频讯号的辨识结果和声谱图。用耳机读出已辨识的句子

包括在下划线中显示的几个辨识错误:本公司有500名海外的日本经理，大部分*该职位预计在未来5年内上升60%。随着SpeakerBeam-JT的出现，这句话被正确地辨识为:本公司在海外有500名日籍经理，大多数都在关键岗位上，预计这一数字在未来5年内会增长60%。

图3绘制了划线文本周围部分音视频的单一最终目标音视频、混和音视频以及采用SpeakerBeam-FE和SpeakerBeam-JT抽取的音视频的光谱图。如图3-(c)所示。耳机波束能减少干扰讯号，输入相对平滑的频谱。不过，部分干扰讯号依然存有，如红色矩形标记的区域所示。相对而言。用耳机波束- jt获得的声谱图不太平滑。而进一步减少干扰耳机。就辨识能力而言，这似乎更好

5. 结论

在本文中，他们科学研究了三种耳机波束配置来抽取和辨识最终目标耳机采用两个单一的话筒。那些方案借助了骂人人适应层。它能根据最终目标耳机的特性对数学模型参数进行很大的控制，因此允许在混和环境中只追踪最终目标耳机。结果表明，骂人人自适应电学数学模型能在一定程度上化解这一难题，但与两个电学数学模型联合体能训练骂人人波束- fe时效果最好。

虽然SpeakerBeam并没明确采用混和耳机中的耳机数，但在这个初步的科学研究中，他们将实验重点放在两种耳机的混和上。未来的工作将包括在相同情况下进行调查，包括在混和音响中采用的耳机数目，以及在有背景噪音的情况下进行调查，以及扩展体能训练数据。除此之外，他们还将科学研究进一步的改进，结合耳机波束- fe和耳机波束- am，使两个模块成为耳机自适应。

阅读全文

发布于 2022-09-27 17:09:08

喜欢 0

分享空间
分享微博
手机扫一扫

海报

160

上一篇：[提取特定人音频的方法]一种基于多尺度通道分离卷积特征提取的说话人聚类方法下一篇：[提取特定人音频的方法]如何提取视频里的音频文件？目前80%都是采用这些方法，一次性盘点完整！

推荐阅读