[视频怎么补标签啊]视频打标签算法探讨

wlza

作者

随着文档时代的到来，多媒体重要信息，特别是音频重要信息的分析和认知市场需求，如影像进行分类、影像打条码、音频处置之类，显得愈发急迫。现阶段影像进行分类早已发展了多年，在很大条件下早已取得了较好的效用。责任编辑因前述产品市场需求，主要就深入探讨一下音频打条码的难题。

翻查了部份数据资料，本栏拙见，打条码难题不论是文档、影像和音频，牵涉到非常多对文档的认知，现阶段没解决得较好。主要就原因有下列许多方面，条码具有多元性，有大背景文档条码，技术细节文档条码，文档特性条码，艺术风格条码之类；许多条码的样品的前述表现方式各种各样，样品的规律性不明显则有利于数学模型自学；条码难题没惟一的Auterive，也存在很大的随机性，不好评估结果的难题则更有利于数学模型自学。

依然本栏拙见，音频打条码难题现阶段还没较好的解决之道，也处于积极探索阶段。方法上主要就有下列许多路子：能从音频视角起程，能从影像视角起程；能借助caption聚合的路子，能转化成为多进行分类难题。

直接从音频视角起程，即从音频整体的视角起程，抽取影像帧，甚至片头或者音频重要信息，进一步处置得出结论音频条码的结果。Deep Learning YouTube Video Tags，这首诗明确提出一个hybrid CNN-RNN内部结构，将音频的影像特点，以及借助LSTM数学模型对条码考虑条码关联性和敏感性的word embeddings，联合起来，互联网内部结构如下表右图图。

Large-scale Video Classification with Convolutional Neural Networks明确提出了三种应用于音频进行分类的传递函数神经互联网内部结构，在互联网中充分体现次元重要信息。single frame：就是把一格帧的影像依次输出到CNN中去，和一般的处置影像的CNN没差别；late fution：把相会L的两帧影像依次输出到两个CNN中去，然后在最后几层相连到同一full connect的softmax层上来；early fution：把连续L帧的影像叠在一起输出到一个CNN中去；

slow fution：通过在时间和空间层次增加传递函数层，从而提供更多的次元自上而下重要信息。如下表右图图右图：

再者，为了提高体能训练速度，这首诗还明确提出Multiresolution CNNs，依次将撷取尾端部份的影像和翻转的影像作为互联网的输出，如下表右图图右图：

这首诗主要就研究了传递函数神经互联网在大规模音频进行分类中的应用和表现。通过实验，文章总结互联网技术细节对于传递函数神经互联网的效用并不非常敏感。但总的来说，slow fusion互联网内部结构的效用更好。

从影像视角起程，即从音频中抽取许多帧，通过对帧影像的分析，进一步得出结论音频条码的结果。对影像的分析，也能转化成为影像打条码或者影像描述难题。Visual-Tex: Video Tagging using Frame Captions，先从音频中抽取固定数量的帧，用体能训练好的image to caption数学模型对影像聚合描述。然后将文档描述组合起来，抽取文档特点并用进行分类方法进行进行分类，得到tag结果。这首诗对聚合的描述，对比了多种不同的特点和多种不同的进行分类方法。可见，影像打条码对音频打条码有较大的借鉴意义。另一种路子，CNN-RNN: A Unified Framework for Multi-label Image Classification能看作将影像打条码难题转化成为多进行分类难题。将传递函数神经互联网应用到多条码进行分类难题中的一个常用方法是转化成为多个单条码的进行分类难题，借助ranking loss或者cross-entropy loss进行体能训练。但这种方法往往忽略了条码之间的联系或者条码之间语义重复的难题。这首诗设计了CNN-RNN的互联网内部结构里，并借助attention机制，更好地充分体现条码间的关联性、条码间的冗余重要信息、影像中的物体技术细节等。互联网内部结构主要就如下表右图图右图，主要就包括两个部份：CNN部份抽取影像的语义表达，RNN部份主要就获取影像和条码之间的关系和条码之间的依赖重要信息。

针对空间部份短音频数据，本栏设计了一个简单的音频打条码的方案，并进行了实验。由于预处置和演算法技术细节的很多进一步改进和完善工作还没进行，在此只是明确提出一种路子和把实验结果简单地做个分享。

方法介绍：

整体路子：图片打条码 => 音频打条码

也就是说，对音频抽取帧，得到音频中的图片；然后对图片进行打条码；最后将音频中帧图片的条码进行整合，得到音频条码。

1、从图片描述说起：

图片描述典型框架：借助deep convolutional neural network来encode 输出影像，然后借助Long Short Term Memory(LSTM) RNN decoder来聚合输出文档描述。

2、在打条码任务中，我们把条码或类别组合，构造成描述:

一级类别+二级类别+条码（重复的词语进行去重）

3、借助预体能训练和强化自学，对体能训练样品图片和条码构造数学模型映射。

《Self-critical Sequence Training for Image Captioning》

互联网数学模型有三种：fc model；topdown model；att2in model；数学模型技术细节见论文。

一般地，给定输出影像和输出文档target，,数学模型体能训练的过程为最小化cross entropy loss（maximum-likelihood training objective）:

借助self-critical policy gradient training algorithm：

其中，是reward funtion

通过根据每一个decoding time step的概率分布进行采样获得，是baseline output，通过最大化每一个decoding time step的概率分布输出获得，也就是a greedy search。论文里提到，借助CIDEr metric作为reward function，效用最好。

4、根据音频帧图片的条码，对音频打条码。具体有两种路子：

记录音频抽取的所有帧图片中每一个出现的条码，以及条码出现的次数（有多少帧图片

被打上了这个条码）。按照出现次数排序。

1.将帧图片的最多前n个条码，输出为音频条码。

2.将帧图片中，出现次数大于阈值c的条码，，输出为音频条码。

数据示例：