爱奇艺的扫一扫在哪个位置(利用无标签数据优化人脸识别模型)

首页教程更新时间:2022-12-02 15:30:14

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(1)

研究背景

爱奇艺拥有海量优质的视频资源,对这些视频资源的结构化分析,尤其是分析视频中出现的人物尤为重要。目前,人脸识别技术已经应用到爱奇艺多个产品中,如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物,“只看TA”分析整个视频中人物出现的所有场景片段。这两个产品底层都依赖人脸识别技术。

训练一个高性能的人脸识别模型,采用监督学习的方式,需要大量的带标签的人脸数据,通常数据量越大,训练的模型性能越好;人物越多,识别性能越好。目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片;iQIYI-VID包括约1万个人物的64万个视频片段,其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。

然而,获取某个人的多张图片是比较困难的,需要人工标注。这在一定程度上阻碍了模型性能的提升。同时,人脸识别是个open-set问题,有标签数据中的几万个人物只是地球上几十亿人的极小一部分,训练出来的模型泛化能力可能不足。

为了解决上述问题,我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法,我们的方法对无标签数据没有过多限制,只需基本保证这人不出现在有标签数据中。无标签数据的加入,可以轻易扩大训练人物数量,提升模型泛化能力。

Unknown Identity Rejection(UIR)Loss

为了利用无标签数据,我们设计了半监督损失函数,Unknown Identity Rejection(UIR)Loss。人脸识别是open-set问题,将开放环境中的人物类别分为两类:有标签类(S)和无标签类(U),

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(2)

。训练过程中,对于有标签类,每个样本特征需要逼近分类层对应类别的类心向量;对于无标签类,它不属于分类层的任何一个类,模型需要“拒绝”它们,即特征与每个分类层类心距离都足够远。如下图(a),w1w1和w2表示两个分类层类心向量,圆点表示样本特征。图(b)中,加入无标签类wu后,为了wu距离w1和w2、足够远,会使得有标签类别在特征空间上更稀疏,类间距离更大。

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(3)

对于CNN分类模型,全连接分类层的输出经过softmax后得到p1,p2…pn,表示属于各个类别的概率值。然而无标签类别并不属于任何一类,理想情况下p1,p2…pn应该都足够小,可以通过设置阈值将其过滤,提升库外拒绝率。基于这个想法,问题可以转化成:

minimize

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(4)

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(5)

上式是多目标最小化问题,可以转化成:

maximize

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(6)

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(7)

因此得到UIR loss,即:

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(8)

模型总的loss是有标签类别的loss加上无标签类别的UIR loss,

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(9)

模型框图如下,无标签数据和有标签数据一起作为输入,经过骨干网络得到特征,全连接层得到输出概率值,根据概率值分别计算 Lsup和Luir。

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(10)

实验结果

我们采用MS-Celeb-1M清洗过后的MS1MV2数据集作为有标签数据,包括9万人物类别的5百万图片数据。从网上爬取数据,经过清洗,基本保证与有标签数据较低的重合率,得到约4.9百万张无标签数据。

分别在iQIYI-VID和Trillion-Pairs和IJB-C三个测试集上验证了方法的有效性。测试了四种骨干网络,实验结果说明,加入无标签数据的UIR loss后,模型性能有所提升。由于篇幅原因,IJB-C测试结果只贴了ResNet100部分,其他结果可参照论文。

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(11)

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(12)

进一步分析

UIR Loss使得特征分布更稀疏

从实验结果来看,加入无标签数据的UIR loss后,UIR Loss能使模型学习到更具区分性的特征。下面从模型分类层类心间距离这一角度来验证特征分布的稀疏性。我们计算了分类层类心两两间的cos距离,距离越大,类心分布更稀疏。结果如下表:

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(13)

随着骨干网络性能提升,baseline和ours的平均距离逐渐增大。同时,ours的平均距离大于baseline。这说明了UIR Loss使得特征分布更稀疏。

UIR Loss提升库外拒绝率

我们找了一批新的无标签数据,统计了它们模型最后输出的最大概率值,值越小,代表性能越好。

爱奇艺的扫一扫在哪个位置,利用无标签数据优化人脸识别模型(14)

总结与展望

半监督损失函数UIR loss可以有效的借助海量无标签的人脸数据,优化人脸识别模型性能,提升模型泛化能力。这一研究成果已经应用到了爱奇艺诸多产品中,在提高用户体验、提高视频内容的创作效率等都发挥了极大作用。爱奇艺APP的“只看Ta”功能,可以实现只看某个演员或者某对CP的功能,不仅满足用户追星或只看某些人物片段的需求,还有助于演员回顾自己演戏的内容,甚至帮助导演挑选自己需要的演员。其实,帮助导演选择演员,爱奇艺还专门有个APP叫“艺汇”,艺汇里通过AI收集了大量的知名或不知名的演员,借助强大的人脸识别模型,不仅可以在海量视频中定位到只属于该演员的CUT片段,还会根据演员的颜值、脸型、气质类型精确搜索心意角色。人脸识别的另一大特色应用,就是用户所熟知的AI雷达功能,在爱奇艺APP中点击画面左侧的“扫一扫”按钮,就可以随时看到画面中的演员角色信息,同时在电视端遥控器轻轻按“上键”,就可以在电视画面上展现明星的“这是谁”信息。在专业的视频内容制作方面,爱奇艺的爱创媒资系统可以支持人物搜索、特定人物的表情搜索、声纹识别等,大大提高了制作人员的效率。

爱奇艺借助其强大的技术实力和前沿的AI研发能力,不断的创新突破,走在视频行业的最前面。当然,技术创新永无止境,人脸识别虽然有诸多成熟的应用,但在某些较为极端的情况下,如人脸过于模糊、遮挡过多、侧脸角度过大,甚至只出现背影等情况,单纯依靠人脸识别无法解决,这需要借助多模态来解决。爱奇艺发布的iQIYI-VID数据集是目前业界数据最大的多模态人物识别视频数据集,有效的推进了多模态技术的发展,引起了行内人士的广泛关注。

数据集详情:

http://challenge.ai.iqiyi.com/data-cluster

论文链接:

https://128.84.21.199/abs/1910.10896

,
图文教程
相关文章
热门专题
推荐软件
奇热小说
奇热小说
下载
QQ2019手机版
QQ2019手机版
下载
王者荣耀
王者荣耀
下载
百度浏览器迷你版
百度浏览器迷你版
下载
2345浏览器手机版
2345浏览器手机版
下载
网易邮箱
网易邮箱
下载
爱奇艺
爱奇艺
下载
网易云音乐
网易云音乐
下载
WPSOffice
WPSOffice
下载
优酷
优酷
下载
谷歌浏览器(Chrome)
谷歌浏览器(Chrome)
下载
迅雷看看播放器
迅雷看看播放器
下载
UC浏览器
UC浏览器
下载
QQ音乐
QQ音乐
下载
阿里旺旺买家版v9.12.10C官方版
阿里旺旺买家版v9.12.10C官方版
下载
360安全卫士v12.1官方版
360安全卫士v12.1官方版
下载
猜你喜欢
梦幻调酒师
梦幻调酒师
下载
小仙女怪物世界
小仙女怪物世界
下载
炮火的士
炮火的士
下载
PP互助iOS
PP互助iOS
下载
NextSensor2.7英文免费版
NextSensor2.7英文免费版
下载
全明星赛车
全明星赛车
下载
Kodi(原XBMC)
Kodi(原XBMC)
下载
我的世界2D贴图变为3D模型MOD
我的世界2D贴图变为3D模型MOD
下载
忍者传说
忍者传说
下载
有道词典手机版
有道词典手机版
下载
众行EVPOPapp
众行EVPOPapp
下载
无尽挤压
无尽挤压
下载
海豚优惠
海豚优惠
下载
淘宝淘小铺
淘宝淘小铺
下载
火柴人战斗英雄
火柴人战斗英雄
下载
上古卷轴5重制版瑞利法师随从MOD
上古卷轴5重制版瑞利法师随从MOD
下载