[提取特定人音频的方法]音频特征提取方法和工具汇总

大多数音视频特点源于音频辨识各项任务,它们能简化原初的正弦波取样讯号,从而快速电脑对音视频中语法涵义的知觉。从20世纪90年代末开始,这些音视频特点也被应用于打击乐器辨识等音乐创作自动提取各项任务中,更多针对音视频音乐创作设计的特点也不断涌现。

认识音视频特点不同类型不在于对某一个特点精确进行分类而是增进知觉特点的力学意义,通常对于音视频特点他们能从以下层次界定:

(1)特点是由数学模型从讯号中间接抽取却是如前所述数学模型的输入获得的统计,如平均值、标准差等;

(2)特点表示的是screening却是自上而下上的值,screening通常以帧为单位而自上而下则全面覆盖较长的天数层次;

(3)特点的抽象化某种程度,下层特点抽象化某种程度最高也是很易从原初音视频讯号中抽取,它能进一步被处理为高二级的中间特点代表曲谱中常见的音乐创作原素,如音调、拍子的初始天数等;高层人士特点最为抽象化大多用于音乐创作的音乐风格和情绪各项任务;

(4)依照特点抽取操作过程的差别能分为:从原初讯号中间接抽取的特点(零率)、将讯号切换为振幅获得的特点(如谱心质)、需经过某一的数学模型获得的特点(如曲调)、受人耳感官知觉启迪改变定量特点孔径获得的特点(如MFCCs)。

他们以特点抽取操作过程的差别为主要进行分类计算方法,列举各种类型下比较常见的特点:

同时他们也发现部分特点绝非完全归属于其中一个类型例如MFCC,因为抽取MFCC会将讯号从频域切换至频域然后依照仿效人类感官积极响应的MEL孔径冷却系统获得的,因此它归属于既归属于频域特点又归属于交互特点。

上面详列举一些常见抽取音视频特点的辅助工具和使用网络平台。

中文名称门牌号网络连接词汇Aubioc/pythonEssentiac++/pythonLibrosapythonMadmompythonpyAudioAnalysispythonVamp-pluginsc++/pythonYaafepython/matlab

音视频数字讯号是一系列数字代表频域中连续变化的样本,也就是常常说的正弦波图。要对数字讯号进行分析操作需对讯号进行取样和定量。

取样是指连续天数的离散化的操作过程,其中均匀取样是指每隔相等天数间隔取样一次,每秒需要采集的声音样本个数叫做取样振幅,音视频文件中常常见到的44.1kHz、11kHz就是指的取样(频)率。

定量将连续正弦波转变为离散化的数字,先将整个幅度划分为有限个定量阶距的集合,幅度的划分能是等间距或不等间距的把落入某个阶距内的样本值赋予相同的定量值。音视频文件中的位深代表的就是定量值,16bit位深代表的就是将幅值定量为2^16。

奈奎斯某一律指出如果取样振幅大于等于讯号中最高振幅分量的2倍,一个讯号能从他的取样值精确地重构,实际上取样振幅明显大于奈奎斯特振幅。

短时傅里叶变换(Short Time Fourier Transform, STFT)适用于分析缓慢时变讯号的频谱分析,在音视频和图像分析处理中已经获得广泛应用。其方式是先将讯号分帧,再将各帧进行傅里叶变换。每一帧音频讯号能被认为是从各个不同的平稳讯号正弦波中截取出来的,各帧音频的短时频谱就是各个平稳讯号正弦波频谱的近似。

由于音频讯号是短时平稳的,因此能对讯号进行分帧处理,计算某一帧的傅里叶变换,这样获得的就是短时傅里叶变换。

傅里叶变换(FFT)能将讯号从频域转变为频域,而逆傅里叶变换(IFFT)则能将频域切换为频域讯号;傅里叶变换将讯号从频域转变为频域是音视频讯号处理最常见的方式。STFT获得的频谱图在音视频讯号中又叫做声谱图或语谱图。

离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输入的位置移动半个单位。

离散小波变换(Discrete Wavelet Transform)在数值分析和时频分析中很有用,离散小波变换是对基本小波的孔径和平移进行离散化。

声谱图往往是很大的一张图,为了获得合适大小的声音特点,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱。

人耳的音调感觉大致与声音的基频对数呈线性关系。在梅尔标度下,如果两段音频的梅尔振幅相差两倍,则人耳能交互到的音调大概也相差两倍。 当振幅较小时,mel随Hz变化较快;当振幅很大时,mel的上升很缓慢,曲线的斜率很小。这说明了人耳对低频音调的交互较灵敏,在高频时人耳是很迟钝的,梅尔标度滤波器组启迪于此。

梅尔标度滤波器由多个三角滤波器组成滤波器组,低频处滤波器密集,门限值大,高频处滤波器稀疏,门限值低。恰好对应了振幅越高人耳越迟钝这一客观规律。上图所示的滤波器形式叫做等面积梅尔滤波器(Mel-filter bank with same bank area),在人声领域(音频辨识,说话人辨认)等领域应用广泛,但是如果用到非人声领域,就会丢掉很多高频信息。这时他们更喜欢的或许是等高梅尔滤波器(Mel-filter bank with same bank height)。

librosa中MEL频谱实现:

而梅尔倒谱在梅尔频谱上做倒谱分析(取对数,做DCT变换)就获得了梅尔倒谱。

在音乐创作中,所有的音都是由若干八度的12平均律共同组成的,这十二平均律对应着钢琴中一个八度上的十二个半音。这些半音临近之间振幅比为21/12。显然,同一音级的两个八度音,高八度音是低八度音视振幅的两倍。因此在音乐创作当中,声音都是以指数分布的,但他们的傅立叶变换获得的音视频谱都是线性分布的,两者的振幅点是不能一一对应的,这会指使某些音阶振幅的估计值产生误差。所以现代对音乐创作声音的分析,通常都采用一种具有相同指数分布规律的时频变换算法:恒Q变换(Constant Q transform)。

CQT指中心振幅按指数规律分布,滤波带宽不同、但中心振幅与带宽比为常量Q的滤波器组。它与傅立叶变换不同的是,它频谱的横轴振幅不是线性的,而是如前所述log2为底的,并且能依照谱线振幅的不同该改变滤波窗长度,以获得更好的性能。由于CQT与音阶振幅的分布相同,所以通过计算音乐创作讯号的CQT谱,能间接获得音乐创作讯号在各拍子振幅处的振幅值。

PS:

他们是行者AI,他们在AI+游戏中不断前行。

如果你也对游戏感兴趣,对AI充满好奇,那就快来加入他们(hr@xingzhe.ai)。

发布于 2022-09-27 17:09:24
收藏
分享
海报
150
上一篇:[提取特定人音频的方法]语音特征提取方法(二)MFCC 下一篇:[教育内卷有利有弊吗作文]一句话素材|过度竞争的弊端——“内卷”与“躺平”【适配2011年、2017年真题】
目录