没有合适的资源?快使用搜索试试~ 我知道了~
6807ℓ1第2页第7节第2节v7v6v4v1v3v2基于关系图聚类的李孝东MIThyo@mit.edu李俊锡Google Researchjoonseok@google.comJoe Yue-Hei Ng谷歌研究yhng@google.com保罗·纳采夫Google Researchnatsev@google.com摘要表示学习被广泛应用于多媒体数据的各种任务,例如,检索和搜索。学习有用表示的一种方法是利用例子之间的关系或相似性。在这项工作中,我们探索了两个有前途的可扩展表示学习方法的视频域。利用基于视频到视频相似性构建的分层图集群关系图形图形集群锚阳性阴性智能三胞胎视频标签v1伪标签视频嵌入我们提出:1)智能负采样策略,显着提高训练效率与三重损失,和2)使用聚类作为伪标签的伪分类方法。使用所提出的方法训练的嵌入在多个视频理解任务上具有竞争力,包括相关视频检索和视频注释。这两种方法都是高度可扩展的,在大规模数据集上的实验验证了这一点。1. 介绍每天都有大量的视频数据上传到网络上这样的网络视频数据已经成为众多在线产品的重要元素之一。视频表示学习的目标是将视频中的语义信息压缩编码到低维空间。所得到的嵌入对于视频标注、搜索和推荐问题是有用的,因此是许多在线产品的核心技术领域。然而,学习视频表示是具有挑战性的,由于大的数据量和他们的多模态,特别是在百万或十亿规模。此外,大多数网络视频是未标记或不准确注释的,这使得表示学习更具挑战性。视频表示学习的一种有用方法是利用视频到视频的关系来学习将视频投影到低维特征空间上的嵌入函数。给定稀疏观察的成对相似性分数,可以构建其节点是视频并且边表示视频对之间的关系或相似性分数的关系图。这样的图包含了丰富的信息来学习嵌入,这项工作是在Google Research实习期间完成的图1.建议方法概述。给定定义成对关系的关系图,使用分层图聚类基于相似性对视频进行聚类。然后,聚类及其层次结构用于为两种不同的学习方法构建信息训练样本:智能三元组和伪标签分类。通过将相关视频彼此靠近来提高视频间的相似性。视频的成对相似性可以从各种源获得,例如,视频是否出现在同一个网页中,无需手动标记。例如,协作深度度量学习(CDML)[25]是最近开发的深度度量学习技术,它从关系图中学习这种视频嵌入。 它将内容(视听)特征嵌入到一个新的特征空间,保留了关系图中定义的视频到视频的关系,被证明是有用的视频注释和推荐,特别是对于冷启动的情况。然而,CDML [25]有一些局限性。受[37]的启发,该模型使用三重损失,这鼓励锚正距离小于锚负距离。他们从图中定义的相关视频中抽取锚点阳性对,并在所有视频中随机抽取阴性对。大多数随机采样的阴性样本离锚点太远,因此在初始阶段之后无法提供训练信息。因此,需要半硬负面挖掘[37]来获得良好的性能,其中在每个小批次内的视频中对负面进行重新采样,使得每个负面比正面更远,但距离相应的锚点不太远然而,即使使用半硬否定挖掘,训练也是低效的,因为每个小批次中的否定候选者都是随机样本,而不管它们的关系如何。v1v3vv52v4vv7ℓ1ℓ26v1v2v3v5v6v7v1v2v7……6808船舶与锚积极对。这需要用大批量训练模型,以确保从信息丰富的三元组中学习,这使得难以用有限的内存训练更大的模型,特别是使用加速硬件,如GPU和TPU。在这项工作中,我们探索了几种有前途的可扩展视频度量学习方法,采用关系图来学习保留视频之间关系的表示(图1)。从一个关系图开始,其中每个节点是一个视频,每个边表示两个视频之间的相似性,我们首先通过层次聚类学习视频到视频关系的整体结构。第一种方法(智能三元组)是以更复杂的方式生成类似于CDML [25]的训练三元组,保证阴性与相应的锚阳性对具有适当的这使得能够控制三元组的难度水平,从而显著降低先前工作的训练效率。第二种方法(伪标签)是用聚类成员资格作为目标伪标签来训练分类模型,其可以利用分类模型的训练框架的最新进展(例如,[13])。我们强调,所提出的方法适用于任何表示学习的情况下,成对关系或相似性分数的定义。这项工作的主要贡献如下:1. 我们提出了新的方法来学习视频表示,从视频到视频的相似性定义在一个关系图。随着关系图上的层次聚类,我们提出了一个智能的负采样策略,显着提高训练效率与三重损失。此外,我们提出了一个伪分类的方法,把集群作为伪标签。2. 我们验证了这两种方法在具有数亿视频的大规模数据集上具有3. 我们使用所提出的方法训练的嵌入在多个视频理解任务上具有竞争力,在相关视频检索和视频分类方面优于最先进的模型2. 相关工作视频表示学习。已经提出了各种视频相关的任务,用于在有监督或无监督的情况下进行有效的视频表示学习。 [21,59]通过视频字幕利用监督学习。已经提出了大量的非/自我监督方法,例如基于上下文的自我监督学习[31,24,18,2],视听跨模态学习[41],以及重建/基于生成的学习[46,30]。度量学习。 度量学习嵌入了示例相似的或相关的被编码为彼此更接近度量学习算法已经用于各种应用,例如人脸识别[37,53,4],图像检索[34,54,40,51],细粒度对象识别[58,6,52,40],以及相关的视频检索[7,20、25]。有基于距离的[37,34,40,45,51,5],基于分类[53,28,47]和基于聚类[33,22,44]的方法。在这项工作中,我们专注于基于距离和基于分类的学习。距离度量学习。距离度量学习使用基于距离的损失函数学习嵌入。在FaceNet [37]之后,它在度量学习中变得更加流行,其中三联体丢失用于面部识别。[54][55][56][57][58][59][提出了具有距离度量的修正损失函数,包括三角角[49]和直方图[45]。最近,基于距离的损失函数已经被进一步扩展,通过考虑四元组[5],n元组[40,34,51,55]或小批量[45]内的所有可能的对,利用每个小批量内的更多可能的示例对,而不仅仅是三元组负面挖矿在度量学习中,抽样方案的重要性已经被强调。FaceNet [37]中引入了使用更多信息否定的想法,他们提出了在线半硬否定挖掘。接下来的几项工作提出了更多的负挖掘和训练损失方案。Wu等人提供了不同采样策略的理论分析,并提出了一种分布式采样方案[54]。Huang等人使用了一个额外的PDDM单元,该单元试图捕获不同类的局部结构,并基于局部相似性动态挖掘样本[12]。Yuan等人集成级联模型以组合不同级别的硬三元组[56]。最近的工作建议使用样本的类(标签)信息的负样本。Proxy-NCA [32]预先定义了一个“代理”子集,大概代表每个类别,并根据代理从不同类别中抽取底片。Ge建议从一个层次树中动态采样三元组,以捕获类之间关系的全局结构(标签)[8]。大多数以前的作品[37,40,34,51]利用类(标签)信息进行更好的采样,当标签不可用时,这是不适用的。受前人工作的启发,我们采用了否定的Wang等人也利用图聚类对三元组进行采样[50],但他们的方法集中在提取图像块之间的视觉不变性。基于分类的度量学习。分类模型已被引入度量学习[53,28,47]作为排名损失的替代方案。Qian等人提出通过为每个类维护多个中心来改善softmax损失,以实现更有效的度量学习[36]68091Wang等人[48] Zhai et al.[57]将具有分类损失的度量学习分别应用于人脸识别和图像Iscen等人利用标签传播方法生成伪标签[14]。同样,大多数复杂的工作需要与示例相关联的离散标签,而我们提出的伪分类方法不需要关系图以外的任何标记数据。这是伪标记的一个应用,关联树=群集层次结构L2L1L0叶子=视频三联体结构锚阳性阴性一p相关n已被广泛用于半监督学习[23,38],其中网络预测被用作伪标签。3. 方法在本节中,我们首先正式定义了视频度量学习问题,并描述了基于成对视频相似性的关系图上的预处理步骤图聚类。然后,我们提出了我们提出的方法:1)用于对损失进行排序的智能负采样(智能三元组),以及2)基于来自图聚类的伪标签的分类(伪分类)。3.1. 问题设置一般来说,度量学习是学习函数f(x1,x2)的任务,该函数返回两个输入示例之间的相似性(或距离)当我们专注于视频度量学习时,每个x都是视频的表示,可以是原始像素(x2Rmnf,其中每个帧是mn维的,视频包含f帧),或者来自预训练视频模型的视听特征的某种紧凑表示(x2Rd,其中d是特征的维数我们假设该特征表示x可用于所有视频。我们还被给出作为训练关系图G=(V,E)的源,其中每个节点x2V是一个视频,每个边(x1,x2)2E表示视频x1和x2的相似程度。边权重可以是二进制或实数。通常,边缘被稀疏地观察到,因为记录或计算网络上所有可能的视频对之间的相似性是不切实际的。请注意,在这个关系图中的相似性度量可以是任意的。它可以从人类评分员那里收集。我们也可以使用来自用户的隐性反馈;例如它们被共同观看、共同搜索、共同点击、属于相同频道、共享标题中的文本等的频率。无论来源如何,只要它们被表示为上述形式,就可以应用所提出的方法。给定这些,我们的任务是学习嵌入z 2Rk,通常其中k≠d,使得z>z2<$(x1,x2)2E。换句话说,我们想定位视频嵌入如果它们相似(如在关系图中定义的),则彼此靠近,否则远离。图2.智能三胞胎建设。左面板代表一个外-把亲和聚类树放在关系图上。叶表示视频,并且上层节点对应于在聚类的每次迭代处找到的视频聚类,即,第一次迭代中的L0个节点。彩色节点和线表示使用聚类层次的负采样过程在这里,我们说明了如何从L1集群中采样负样本。随机抽样一个an-chor(蓝色叶子节点),并根据原始关系图选择一个正的。从在所需级别共享公共父节点的叶子(L1处最右侧的节点,用蓝色勾勒)中采样负(红色叶子)。虚线框表示其叶子是负采样池的子树右图显示构建的最终三联体。3.2. 图聚类我们使用聚类算法对关系图进行预处理,从而实现高效的数据采样。我们注意到,可以使用适用于图的任何聚类算法。我们使用亲和聚类[3],这是一种分层图聚类工具,使用最小生成树(MST)方法对最近的邻居进行聚类。虽然其他类型的聚类也是适用的,但我们选择使用边缘分数,该算法以自下而上的方式将每个节点与其最近的邻居聚类在一起。输出是一个树的集合,每个树代表一个簇。它迭代聚类过程的几个步骤,并输出一个亲和树,其级别对应于聚类的层次结构亲和聚类是快速、简单和可扩展的,因此对于处理大规模关系图是有用的。图2中的左侧面板显示了关系图上的关联聚类的示例输出,其中包含3次迭代。叶子代表视频,每个级别的中间节点对应于较低级别节点的集群。最低级别的聚类包含最相似的视频。级别越高,集群内的相似视频越少。从更高级别的聚类器中采样视频会降低采样对之间的平均相似性。3.3. 图聚类度量学习(GCML)智能负采样。一旦我们得到聚类结果,就使用关系图对三元组进行采样6810我我我和集群。对于每个三元组,在所有视频中随机选择锚点,并且在关系图上的锚点的邻居中选择阳性与[25]中的随机抽样不同,我们使用亲和树中的聚类层次结构对阴性样本进行抽样。对于每个锚点,我们在所需的级别上选择其兄弟簇(共享相同的父簇),并从这些簇中抽取否定项,如图2所示。这确保了采样的底片不会离锚点太远,因此对于模型训练更具如前一节所述,我们可以选择不同级别的聚类,以调整采样底片的难度级别。作为一个极端,如果我们从最低层的样本中特征提取器嵌入网络集群和集群大小是小的,采样的负将最有可能与采样的正一样相似,因此是最难的负。训练三胞胎我们遵循三重态损失优化的标准过程[25,37]。我们的目标是把一对相关的视频更接近对方的em-同时让不太相关的对走得更远。嵌入网络优化了三重态损失,使得锚点和正电荷之间的距离小于锚点和负电荷之间的距离:图3.嵌入式网络的网络结构。成本具体来说,在每个步骤中对类的子集进行采样,以计算训练期间的softmax损失。分类的好处是我们不需要在小批量中对硬性阴性样本进行采样,由对阴性集群标签进行采样取代。这消除了对批量大小的依赖性,如在三重丢失中,并且相对更容易扩展到大量的负采样类。另一方面,聚类分类模型的性能高度依赖于XNmink_f(x_a)-f(x_p)k_2-k_f(x_a)-f(x_n)k_2+α_n聚类质量 如果簇的大小太大,模型我我i=1i i+可能无法学习样本之间的细粒度区分;以及其中xa、xp和xn分别是N中第i个训练三元组的正、正和负的输入特征向量,f是嵌入网络,α是铰链损失的边缘参数。与[25,37]类似,我们在整个训练过程中使用在线半硬负挖掘。在每次迭代时,在每个小批量内的视频中对阴性进行重新采样,作为比阳性离相应锚点更远的最接近的视频。如果最初采样的智能负片是有用的,它们将在训练期间被一致地选择为半硬负片。3.4. 集群标签分类(CLC)利用图聚类的另一种方法是将它们视为分类的标签。我们建议使用每个视频所属的聚类作为其标签和训练分类模型,例如,交叉熵损失与softmax函数。在这种情况下,嵌入网络的顶层输出将被馈送到n路softmax分类器中,该分类器将计算n个集群ID上的分布。在训练期间,网络被调整以预测视频所属的集群ID在测试时,分类层被丢弃,仅使用嵌入塔。对大量的类进行分类是昂贵和耗时的,因为我们可以从图中获得数百万个聚类我们使用采样softmax [15]来减少计算,而不是计算完整的softmax如果聚类大小太小,分类器可能容易过度-适合集群中的几个示例,因此无法学习有用的嵌入。4. 实验我们在真实世界的大规模数据集上进行了大量的实验,以评估我们的方法在两个视频理解任务:相关视频检索和视频注释。4.1. 网络架构视听功能。从原始信号学习端到端视频表示在计算上是禁止的。为了有效地在数百万个视频上训练模型,我们使用使用预训练模型提取的视听特征,类似于[25],如图3的左侧(特征提取器)部分所示。为了提取视觉特征,我们首先以每秒1帧的速率对视频帧进行子采样。然后,我们提取Inception-v2网络的最后一个隐藏层的ReLU输出[42],在JFT数据集上进行预训练[11],然后进行PCA和白化以将维度降低到1500 。 We apply average pooling over the processedfeatures of all frames to generate the video-level features.对于音频功能,我们使用带有ResNet-50修改版本的声学模型[10]。将音频信号分割成不重叠的960 ms窗口,然后用25 ms的短时傅里叶变换进行分解帧信号音频信号音频特征 提 取器图像特征 提 取器池化池化L2L2音频特征视频特征FC(4000)FC(4000)中文中文XL2嵌入6811Windows每10 ms这导致频谱图被整合到64个梅尔间隔的频率仓中。我们通过将100个这样的片段提取到ResNet中来提取特征,并通过平均池将它们聚合为视频级特征。嵌入网络。在[25]之后,我们的嵌入网络由两个完全连接的隐藏层组成,维度分别为4000和256。我们使用两个独立的塔,每个塔分别具有视觉和音频功能。两个塔的输出通过逐元素乘法聚合,然后进行L2归一化.网络架构如图3所示。训练嵌入网络以优化三重态损失(3.3节)或交叉熵损失(3.4节)。4.2. 实验设置我们将我们提出的两个模型,图聚类度量学习(GCML;第3.3节)和聚类标签分类(CLC;第3.4节)与最先进的视频度量学习方法CDML [25]进行了比较。CDML相当于我们的第一种方法,但随机选择负的,而不是智能三重态生成。训练数据集。我们从用户信号中构造视频的关系图;具体地,如果一对视频被多个用户频繁地共同观看,则图中存在边。视频以7:3的比例随机分为训练和测试分区。对于三元组丢失模型(CDML和GCML),我们对多达3.5亿个公开可用的视频进行采样,并从它们的70%训练分区中生成多达4.6亿个三元组。我们在关系图上应用3次亲和聚类迭代(见图2)。我们使用L0聚类对GCML模型的三元组进行采样,除了三元组难度实验(表2)。对于CLC模型,我们使用14M L0集群,每个集群最多选择50个视频以避免类别不平衡,总共产生约4.05亿个视频。超参数。 CDML和GCML模型是建议.在该任务中,在给定查询视频q的候选中识别相关视频。查询和候选项之间的相关性由关系图定义基于我们的嵌入网络f,我们提取查询和候选视频的嵌入。对于每个查询,我们计算查询视频和每个候选视频之间的相似度,并根据估计的相似度对它们进行排名。一对之间的相似性被定义为两个嵌入之间的余弦相似性cos(f(v1),f(v2))=f(v1)>f(v2)(1)其中v1表示视频i的内容特征。由于我们对嵌入进行了规范化,因此余弦相似性等同于点积。在评估检索性能时,我们使用与查询具有最大余弦相似度的前k个候选视频4.3.1评价方案为了进行评估,我们使用了在测试过程中看不到的视频。 查询和候选人的培训。如[25]中所提出的,此设置模拟冷启动视频检索,其中查询和检索是从新视频中提取的。请注意,此设置提供了公平的比较方案,确保测试视频不会被在不同采样视频上训练的所有模型看到。评价集由1.3M个查询视频组成,数据库集被构造为查询集中相关视频的并集每个查询视频在数据库集中平均有11个相关视频,总共有大约15M个唯一视频。评估指标。检索性能使用两种不同的排名指标进行评估:1) 归一化贴现累积增益(NDCG)使用每个检索项目的相关性及其在列表中的顺序来衡量排名质量前k个检索项目的贴现累积增益(DCG@k)为使用半硬负挖掘训练[37,25]9600个三胞胎的小批量,其中每个阴性都是真实的,XKDCG@k=2reli-1、(二)标记为最硬的那些是接近或远于积极的锚。我们采用0.5的三重态损失裕度初始学习率设置为0.1,在1M训练 步 骤 中 , 每 300 , 000 步 衰 减 0.98 , 使 用 具 有RMSProp优化器的CPU上的150个工作重复的 CLC模型在具有SGD优化器的32个内核的TPUv3上以300的初始学习率、每200,000步0.5的学习率衰减进行训练,批量大小为512。在每次迭代中,对200,000个类进行采样以进行分类。4.3. 相关视频检索i=1log2(i+ 1)其中i是列表中每个项目的位置,reli2{0,1}是第i项与查询的相关性的二进制指示符。NDCG被计算为通过位置k由最大可能DCG归一化的DCG,这在前k个检索项的列表与查询的正确相关性顺序匹配时发生。我们在实验中使用k= 602) Mean Average Precision(MAP)通过计算查准率-查全率曲线下面积来衡量排名的准确性:我们首先评估模型在相关视频检索上的性能,这与视频到视频高度相关MAP=1XZ1|Q|q2Q 0Pq(r)dr1XXk|Q i =1|q2 Q i=1Pq(i)r(i)6812难度地图NDCG@60GCML(简易; 45 M)3.37%6.64%GCML(中等; 45 M)3.43%6.91%GCML(硬; 45 M)3.57%7.19%CDML [25](150M)百分之二点八五6.05%表1.相关视频检索任务的表现图4.不同批量大小的相关视频检索性能其中Pq(r)是查询q的精度,作为召回率r的函数。该积分近似为在60个检索视频的列表中的所有可能位置NDCG和MAP都测量排名项目与查询的相关性,但NDCG通过指数衰减权重来更强调更高的排名,而MAP是二次的。4.3.2结果和讨论我们首先比较了GCML和CDML模型的性能。表1比较了不同模型的MAP和NDCG@60评分使用相同的批量大小9600和类似数量的训练三元组(400 M+),GCML模型优于CDML模型。我们注意到,用更少的三元组(45 M)训练的GCML模型优于用更多的三元组(150 M-458 M)训练的CDML基线这表明智能否定比随机否定更有信息量和效率此外,使用更多的训练三元组并没有使GCML模型(MAP/NDCG从45 M增加6.5%/7.9%到420 M)像CDML(MAP/NDCG从150 M增加17.2%/16.8%到458 M)那样受益,这表明GCML模型即使在小训练数据的情况下也已经有效地利用了很多信息。我们的第二个模型,CLC是有竞争力的CDML模型上训练类似大小的训练集,而不是- ING依赖于训练批量大小。批量大小。如第1节所述,在线半硬否定挖掘固有地导致性能依赖于小批量内的否定候选者的数量。因此,我们比较了使用不同批量大小训练的GCML模型与CDML 的性能(图4)。我们观察到, GCML和CDML 在 使 用 较 大 的 批 量 进 行 训 练 时 都 会 然 而 ,GCML在所有批量大小上始终优于CDML。表2.相关的视频检索性能与不同的难度水平的采样智能底片。图5.指定底片的使用率。与随机否定相比,我们的智能否定使用得更频繁。消极的困难。为了了解聚类质量如何影响性能,我们训练和评估了GCML模型,这些模型是用从不同难度级别采样的三元组训练的。对于这个实验,我们在TPU上使用较轻的设置(批量大小为2048,并在表1容易、中等和困难水平分别对应于从L2、L1和L0聚类中采样的智能负片(见图2)。由于后一轮的亲和聚类产生更大的聚类,从较容易的聚类中采样的否定词与锚点的相似性低于从较难的聚类中采样的否定词。如表2所示,三胞胎越难,MAP和NDCG得分越我们还注意到,不管训练三元组的难度如何,所有的GCML模型都优于CDML基线。4.3.3负采样我们进一步分析了所提出的智能负采样如何有益于视频度量学习。阴性样本的使用率。为了了解如何使用采样的底片,我们测量实际用于训练的那些分配底片的比率。由于模型是使用在线半硬否定训练的,在挖掘中,在每一步,在小批量内的所有候选中为每个锚正对选择新的半硬否定。根据定义,半硬否定挖掘在离锚点远于肯定的否定中选择最硬的否定因此,最初分配给锚点-正对的否定被选择为半硬的越多,那些分配的否定对于学习就越有用。图5示出了分配的阴性的比率,0.150.10.05随机阴性聪明的否定0050k100k150k200k步骤方法训练集地图NDCG@60CDML [25]150M458M百分之二点八五3.34%6.05%百分之七点零七GCML(我们的)45M420M3.57%3.74%7.19%7.66%阴性使用率6813方法保证金禁止在线挖矿(阴性)在线挖矿(半硬性阴性)CDML [25]0.620.760.01 -0.02GCML-0.080. 050.0150.02每个聚类的地图NDCG@60203.42%6.86%503.43%6.80%1003.41%6.83%1,0003.24%6.58%表3.分配(随机或智能)阴性与半硬底片。每个范围对应于平均值的+/-一个标准偏差在整个训练过程中被选为半硬。我们观察到,GCML的使用率比CDML大得多,这表明我们基于聚类的负采样的有效性。CDML的使用率接近1/批次大小,这意味着在整个训练过程中很少使用随机分配的初始我们还注意到,智能否定的使用率随着训练的进行而增加。这表明模型在早期阶段从较容易的否定开始学习,并逐渐向较难的否定移动,从而更多地使用分配的智能否定Margin Analysis. 聪明否定的有效性也可以在三重关系的分析中找到。我们将每个锚点-阳性对的阴性的难度水平量化为边际:margin=kf(xa)-f(xn)k2-kf(xa)-f(xp)k2(3)其中a,p,n表示锚点,正的,和负的,re-k。余量测量锚的距离从消极的角度与积极的角度进行比较。 更近的阴性-来自锚的数据通常更难区分,因此允许模型学习更多的微小分区。我们比较了最初分配给锚点-阳性对的阴性和实际选择为半硬的阴性的边缘值。如果指定否定词的边界在半严格否定词的边界范围内,则表明指定否定词的难度水平正确,因此即使实际上没有选择它们,它们也是有用的候选词表3总结了GCML和CDML的指定阴性和半硬阴性的边界值。我们观察到,智能底片的边缘值在半硬底片的范围内。另一方面,CDML的大多数随机负片与半硬负片相距甚远,表明随机负片太容易,因此不被选为半硬负片。这一结果与使用率分析的结果一致。讨论上述两个分析作为一个整体表明,智能否定通过提供更多信息的三元组来实现有效的学习。我们发现聪明的消极者是正确的候选人,实际上被选为半-在整个训练过程中。结合GCML的更好的性能,我们得出结论,使用信息丰富的训练样本是很重要的学习良好的representations。表4.CLC中每个聚类的采样视频数量不同有趣的是,我们观察到GCML在没有在线半硬否定挖掘的情况下表现不佳,即使使用更多信息的三元组。一个可能的解释是,在训练的早期阶段从更容易的消极因素中学习也很重要图5表明,聪明的否定对一开始的模型来说太难了,只有在经过几次迭代训练后才被选择。这一观察结果表明,通过课程学习可能会有所改善。我们可以通过训练具有不同难度水平的三元组的模型来模仿在线半硬负挖掘从简单到困难。如果我们能找到合适的三元组,即使没有在线挖掘,我们也能训练出更好的4.3.4聚类分类中的抽样我们限制每个clus- ter的采样视频的最大数量由于从亲和聚类获得的聚类在大小上可能如果这太大,训练集将偏向于更大的聚类,因为它们包含更多的示例。这可能会损害嵌入质量,因为它集中在训练期间视频之间的粗粒度关系上。如果每个聚类中采样的视频太少,训练集的大小将变得非常小,并且可能无法学习良好的表示。我们在L1集群标签上训练CLC模型,每个集群具有不同数量的采样视频(表4)。尽管训练集中的视频总数增加了,但每个聚类采样更多的视频并不能转化为更好的当每个集群的视频数量太大时(例如,1,000),检索性能显著下降,这表明该模型无法从大集群中学习视频的细粒度相似性。我们还探讨了采样类的数量如何影响嵌入质量,如表 5 所 示 。 采 样 更 多 的 类 将 产 生 更 好 的 近 似 原 始softmax分类,在训练过程中的计算成本更高。我们发现,检索性能饱和在约200,000个采样类。4.4. 视频注释视频标注任务的目标是预测给定视频的一个或多个标签。我们评估了所提出的嵌入在两个公共视频分类数 据 集 上 的 有 用 性 : YouTube-8 M [1] 和 体 育 -1 M[17]。6814抽样班级地图NDCG@6010,0003.21%6.53%50,0003.31%6.60%200,0003.42%6.86%400,0003.42%6.84%表5.不同样本数的聚类标记模型。抽样200,000个标签足以获得良好的性能。方法仅嵌入带视听间隙地图间隙地图2018年挑战赛(YouTube-8 M功能)KANU [19]––百分之八十八点五百分之五十八点三YT8M-T [43]––88.7%58.8%[27]第二十七话––88.7%百分之五十九点七三星AI [35]––88.7%百分之五十八点四[39]第三十九话––89.0%59.6%视听功能(第4.1节)仅视听––89.0%百分之五十五点五CDML [25](150M)GCML(45个月)86.6%86.9%百分之五十一点七百分之五十二点五89.0%百分之八十九点一55.7%56.0%CDML [25](458M)GCML(420M)88.4%88.3%百分之五十五点五百分之五十五点五百分之八十九点四百分之八十九点四57.0%57.1%CLC87.9%百分之五十四点六百分之八十九点二百分之五十六点五表6. YouTube上的分类性能-8 M。括号中的数字是用于训练的三元组的数量。注释模型。我们在嵌入之上训练视频分类模型,并在保持集上评估注释模型的性能。的一个符号模型由一个4096维的全连接层,其次是一个多标签分类。我们使用具有5种混合物的混合专家(MoE)模型[16]作为分类器。该模型使用ADAM优化器进行训练,初始学习率为0.005,批量大小为512。我们使用半周期余弦学习率衰减时间表[29],在100,000步时逐渐将学习率降低到0我们用两种不同的输入类型训练注释模型:来自所提出的模型的嵌入(例如,GCML),包括和不包括4.1中所述的视听功能。YouTube-8M。YouTube-8 M [1]提供了一个视频分类数据集,包含610万多个YouTube视频和来自3,862个知识图实体的视频级标签。在这个实验中,我们在完整的YouTube-8 M(版本)上训练注释模型。2018)训练集,并在完整的验证集上评估分类性能。我们遵循标准的评估协议,并报告全球平均精度(GAP)和平均平均精度(MAP)。表6显示了YouTube-8 M分类任务的GAP和MAP得分。当在小数据集(45- 150 M)上训练时然而,当在大型(4亿+)数据集上训练6815表7.体育-1 M上的分类性能。括号中的数字是用于训练的三元组的数量。GCML和CDML表现相当。当与视听功能结合使用时,CDML和GCML都优于仅视听基线。我们还将所提出的方法与第二届YouTube-8 M挑战赛中的顶级表现者进行了比较[26]。当与视听特征连接时,所提出的方法产生更好的结果。GCML和CDML模型在所有模型中产生最高的GAP分数,包括[26]中的最佳表现者。与[26]中的最佳表现者相比,所提出的方法显示出相对较低的MAP分数,这可能是因为不仅在视频级特征上训练,而且在帧级特征上训练对于MAP分数至关重要请注意,由于训练数据和特征的差异,我们的方法不能直接与挑战结果进行比较。体 育 -1 米 。 Sports-1 M 数 据 集 [17] 由 大 约 1 MYouTube视频组成,包含487个体育类我们在完整的训练集上训练符号模型,并在验证集上进行评估,并在[17]中提出的数据集中报告Hit@1和Hit@5。如表7所示,我们的GCML特性优于CDML,无论有无视听特性.5. 结论在这项工作中,我们提出了两种新的方法,通过图聚类从成对相似性结构中学习视频表示:图聚类度量学习(GCML),使用智能三元组挖掘的排名损失,以及集群标签分类(CLC),将其建模为具有集群标签的伪分类问题。我们观察到,这两种方法在视频检索和注释任务中优于基线。通过更详细的分析,我们观察到所提出的挖掘策略允许模型从更多信息的训练示例中学习。作为未来的工作,我们可能会提高性能,通过调整在正确的水平与更彻底的参数搜索聚类的智能否定的难度水平。课程学习可能是进一步改进的另一种选择,使得模型可以首先从较容易的示例学习,然后转向较难的示例。我们还可以研究聚类算法和聚类数量如何影响CLC中的表示学习质量。仅嵌入带视听设备仅视听--百分之七十86.3%CDML [25](150M)GCML(45个月)67.0%68.7%百分之八十六点四87.5%70.8%71.4%百分之八十七点七88.3%CDML [25](458M)71.0%71.7%百分之八十九点一89.5%72.2%百分之七十二点六88.7%百分之八十九点二6816引用[1] Sami Abu-El-Haija、Nisarg Kothari、Joonseok Lee、PaulNat-sev 、George Toderici、Balakrishnan Varadarajan和Sud-heendra Vijayanarasimhan。YouTube-8 M:大规模视频分类基准。arXiv:1609.08675,2016。七、八[2] Unaiza Ahsan , Rishi Madhok , and Irfan Essa. Videojigsaw:用于视频动作识别的时空上下文的无监督学习。在WACV,2019年。2[3] MohammadHossein Bateni , Soheil Behnezhad , MahsaDer- akhshan,MohammadTaghi Hajiaghayi,RaimondasKiveris , Silvio Lattanzi , and Vahab Mirrokni. 亲 和 聚类 : 规 模 上 的 高 亲 和 聚 类 . 在 神 经 信 息 处 理 系 统(NIPS)的进展,2017年。3[4] 曹琼、英一鸣、李鹏。人脸识别中的相似性度量学习。在2013年IEEE国际计算机视觉会议(ICCV)的论文集中。2[5] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一个深度的四元组网络用于人的重新识别。 在proc IEEE计算机视觉与模式识别会议(CVPR),2017年。2[6] Yin Cui,Feng Zhou,Yuanqing Lin,and Serge Belongie.使用深度度量学习进行细粒度分类和数据集自举,人类参与其中。 在proc IEEE计算机视觉与模式识别会议(CVPR),2016年。2[7] Yun Fu , Zhu Li , Thomas S Huang , and Aggelos KKatsagge-los.局部自适应子空间和相似性度量学习用于视觉数据聚类和检索。计算机视觉和图像理解,110(3):390-402,2008。2[8] 葛伟峰。深度度量学习与分层三元组丢失。欧洲计算机视觉会议(ECCV),2018年。2[9] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎 的丢失辩护, 进行人员重 新鉴定。 arXiv:1703.07737,2017。2[10] Shawn Hershey,Sourish Chaudhuri,Daniel PW Ellis,JortF Gemmeke , Aren Jansen , R Channing Moore ,Manoj Plakal , Devin Platt , Rif A Saurous , BryanSeybold , et al. 用 于 大 规 模 音 频 分 类 的 CNN 架 构 。IEEEInternational Conference on Acoustics,Speech andSignal Processing(ICASSP),2017年。4[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv:1503.02531,2015。4[12] 陈煌,陈昌来,唐晓鸥。局部相似性感知深度特征嵌入。在神经信息处理系统(NIPS)的进展,2016年。2[13] SeongJaeHwang , JoonseokLee , BalakrishnanVaradarajan , Ariel Gordon , Zheng Xu , and ApostolPaul Natsev. 视 频 标 注 的 大 规 模 训 练 框 架 。 ACMSIGKDDInternationalConferenceonKnowledgeDiscovery Data Mining,2019。2[14] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播IEEE计算机视觉与模式识别会议(CVPR),2019年。3[15] Se´bastienJean , Kyungh yunCho , RolandMemise vic ,andYoshua Bengio.使用非常大的目标词汇进行神经机器翻译。arXiv:1412.2007,2014. 4[16] Michael I Jordan和Robert A Jacobs。专家层次混合与em算法。神经计算,6(2):181-214,1994. 8[17] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模视频分类 在proc IEEE计算机视觉和模式识别会议(CVPR),201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AirKiss技术详解:无线传递信息与智能家居连接
- Hibernate主键生成策略详解
- 操作系统实验:位示图法管理磁盘空闲空间
- JSON详解:数据交换的主流格式
- Win7安装Ubuntu双系统详细指南
- FPGA内部结构与工作原理探索
- 信用评分模型解析:WOE、IV与ROC
- 使用LVS+Keepalived构建高可用负载均衡集群
- 微信小程序驱动餐饮与服装业创新转型:便捷管理与低成本优势
- 机器学习入门指南:从基础到进阶
- 解决Win7 IIS配置错误500.22与0x80070032
- SQL-DFS:优化HDFS小文件存储的解决方案
- Hadoop、Hbase、Spark环境部署与主机配置详解
- Kisso:加密会话Cookie实现的单点登录SSO
- OpenCV读取与拼接多幅图像教程
- QT实战:轻松生成与解析JSON数据
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功