赢识科技在CVPR2019 UG2+ DarkFace竞赛中取得第一

赢识科技在CVPR2019 UG2+ DarkFace竞赛中取得第一

2019年6月17日

CVPR(IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,http://cvpr2019.thecvf.com)是计算机视觉领域三大知名会议之一，每年一届，今年于6月16-20日在美国长滩举行。

计算机视觉是赢识科技的核心技术之一，我们对CVPR保持密切关注，并于三个月前着手参加CVPRUG2+计算机视觉算法竞赛(http://www.ug2challenge.org)。UG2+竞赛由CVPR和多家政府机构、学术机构、企业联合举办，其主要目的是：

评估当前最先进的图像分析算法在极端条件下的性能；
探索在极端条件下图像增强/复原算法对检测/识别/等任务的促进作用。

UG2+竞赛包含两个任务：

无约束视频中的物体分类与检测
低可见环境下的物体检测

其中任务2又分为三个子任务：

雾霾环境下的物体检测（ObjectDetectioninHazeConditions）
黑暗环境下的人脸检测（FaceDetectioninLowLightConditions）
雨天遮挡的零样本物体检测（Zero-ShotObjectDetectionwithRaindropOcclusions）

赢识科技（Winsense）、中国科学院自动化所生物特征识别与安全技术研究中心（CASIA-CBSR）、纽卡斯尔大学（NewcastleUniversity）、诺森比亚大学（NorthumbriaUniversity）组队参加了2.2子任务“黑暗环境下的人脸检测”。经过三个月的拼搏，最终从两百多支参赛队伍中脱颖而出，取得了第一的好成绩，团队成员于6月16日在CVPR会议现场做了题为“SelectiveRefinementNetworkforDarkFaceDetection”的口头报告。

人脸检测是计算视觉领域的一项经典任务，近20年来一直得到学术界和工业界的广泛关注。2001年Viola和Jones提出了第一个实时的人脸检测框架[1]，对人脸检测、识别的普及起到了重要作用，但姿态、光照、分辨率、遮挡等因素一直影响着检测准确率。此后的改进主要集中在特征设计、Boosting损失函数设计等方面，但收效甚微。直到2015年，基于深度学习的检测框架开始普及，如：FasterRCNN[2]、SSD[3]、DenseBox[4]等，众多研究人员将其
用于人脸检测问题中，FDDB[5]和WIDER[6]等数据集上的准确率取得大幅提升。在此背景下，UG2+竞赛提出了一个更具挑战性的任务：黑暗环境下的人脸检测。该任务的目的是评估人脸检测器对极端光照的适应性，期望参赛者能提出有效的解决方案。下图显示了数据集中的一些照片，可以看出该任务非常困难，通过肉眼几乎无法看到人脸。

为解决此问题，我们采用先进的SRN(SelectiveRefinementNetwork)[7]作为人脸检测基础模型，并尝试了多种图像增强方法，包括：Lime[8]、RetinexNet[9]、Saliency[10]、MSRCR[11]等，各增强方法的效果如下图所示。根据验证集的结果，最终选择MSRCR作为预处理方法。

SRN在FDDB、WIDER等普通数据集上具有优秀的性能，其主干采用ResNet-101结构，分类和回归部分采用6级FPN结构[12][13]，结构如下图所示。

图 SRN (Selective Refinement Network)人脸检测模型

为评估预处理对结果的影响，我们做了三组实验，结果如下表。采用普通数据集WIDER训练的SRN模型在DarkFace验证集上平均精度（AP）仅为47.96%。使用MSRCR增强验证集后，AP大幅提升至69.07%，而使用增强后的DarkFace训练数据进一步调整模型后，AP达到83.85%。最终，我们在测试集上以AP=62.25%的成绩拿到第一。

参考文献

[1]Viola,Paul,andMichaelJones.”Robustreal-timeobjectdetection.”Internationaljournalofcomputervision4.34-47(2001):4.
[2]Girshick,Ross.”Fastr-cnn.”ProceedingsoftheIEEEinternationalconferenceoncomputervision.2015.
[3]Liu,Wei,etal.”Ssd:Singleshotmultiboxdetector.”Europeanconferenceoncomputervision.Springer,Cham,2016.
[4]Huang,Lichao,etal.”Densebox:Unifyinglandmarklocalizationwithendtoendobjectdetection.”arXivpreprintarXiv:1509.04874(2015).
[5]Jain,Vidit,andErikLearned-Miller.Fddb:Abenchmarkforfacedetectioninunconstrainedsettings.Vol.2.No.4.UMassAmherstTechnicalReport,2010.
[6]Yang,Shuo,etal.”Widerface:Afacedetectionbenchmark.”ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016.
[7]Chi,Cheng,etal.”Selectiverefinementnetworkforhighperformancefacedetection.”arXivpreprintarXiv:1809.02693(2018).
[8]X.Guoetal.Lime:Low-lightimageenhancementviailluminationmapestimation.TIP,2017.
[9]C.Weietal.DeepRetinexDecompositionforLow-LightEnhancement.BMVC,2018.
[10]Z.Zuoetal.Saliency-informedspatio-temporalvectoroflocallyaggregateddescriptorsandfishervectorsforvisualactionrecognition.BMVC,2018.
[11]Jobson,DanielJ.,ZiaurRahman,andGlennA.Woodell.”Amultiscaleretinexforbridgingthegapbetweencolorimagesandthehumanobservationofscenes.”IEEETransactionsonImageprocessing6.7(1997):965-976.
[12]He,Kaiming,etal.”Identitymappingsindeepresidualnetworks.”Europeanconferenceoncomputervision.Springer,Cham,2016.
[13]Lin,TsungYi,etal.”Featurepyramidnetworksforobjectdetection.”ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017.

公司简介

赢识科技成立于2018年7月，致力于通过机器智能技术为线下商业提供全面的数字化解决方案，帮助行业客户打造以消费者为中心的商业大脑，构建基于数据驱动的智能商业决策系统。目前已推出面向线下商业场景的智能数据服务平台和针对不同业态的解决方案，包括

智能感知和分析决策服务

通过业界领先的机器智能技术，具备跨场景、跨时间、多维度、超大规模身份识别与聚类，图像和商品识别、动作识别、大数据挖掘等能力，精准识别消费者身份、动作行为和意图，建立多维度用户画像，为线下商业精细化运营和智能决策提供数据基础。

数字化商圈/门店解决方案

面向商圈/园区、购物中心、门店等线下商业场景，并结合不同细分行业特点，提供端云一体、软硬结合的全面数字化解决方案，服务可涵盖方案制定、落地实施、部署运维和后期运营等全流程。

开放平台

通过灵活的开放平台，支持行业合作伙伴、集成服务商快速规模化落地。支持多系统平台对接，配置简单，简单几步即可完成线下商业场景的数字化、智能化服务部署。目前已支持合作伙伴在精准客流、智能货架、互动魔镜、线下门店数字化等领域推出多款产品。