RFID世界网 > 新闻中心 > 行业动态 > 正文

计算机视觉在新零售场景下的探索及应用

作者：陈宁华、严昱超

来源：三墩IT人

日期：2018-11-08 10:08:57

摘要：随着互联网业务的快速发展，移动线下营业厅进入了最困难的冰冻期，面临着进店客户减少、客户结构不合理、精准营销能力不足等诸多问题。因此亟需改变以往传统低效的业务营销模式，加快大数据变现，开展基于大数据的精细化运营，提高进厅用户营销成功率，同时提升营销资源使用效率，实现降本增效。

关键词：计算机视觉新零售电子标签身份识别

　　背景简介

　　随着互联网业务的快速发展，移动线下营业厅进入了最困难的冰冻期，面临着进店客户减少、客户结构不合理、精准营销能力不足等诸多问题。因此亟需改变以往传统低效的业务营销模式，加快大数据变现，开展基于大数据的精细化运营，提高进厅用户营销成功率，同时提升营销资源使用效率，实现降本增效。

　　门店大脑建设

　　浙江移动云计算中心围绕人、货、场及三者之间的关系展开全方位的分析，运用计算机视觉(人工智能)能力对(1)顾客身份、(2)进离店客流、(3)营业厅热力情况、(4)店内客户轨迹等信息展开全面分析，实现了整个营业厅的综合分析，构建了一个面向厅店运营人员的门店大脑 。

　　以前营业厅门店只有用户购买商品的数据，没有用户进店后在厅店行为活动的数据，没有人与货交互的数据，没有货在场中分布的数据等等。通过人工智能赋能的门店大脑，这些数据你通通可以获得。真正实现营业厅的“智慧感知”，“智能运营”。

　　门店大脑

　　顾客身份信息识别

　　“知道谁来了”是营业厅最根本的需求，通过进厅时的人脸抓拍摄像头获取顾客的人脸图片，传输到后台进行客户身份及常用属性特征识别。同时利用传统的通信行为标签，为不同类别的客户制定不同的营销策略，支持营业厅各种场景下的精确营销。

　　顾客身份识别

　　实现困难

　　实践过程发现，顾客身份识别准确度及有效识别率主要存在两个层面的难点。

　　数据层面：

　　1. 人像库照片质量：很多新零售场景都缺乏优质的人像图片，同时获取的人像数据存在不同程度的干扰和模糊;

　　2. 能力圈命中率：提前预判谁会来厅店，降低人脸识别模型的难度，提前将有限的人脸图片导入厅店人像库(能力圈);

　　算法层面：

　　3. 相机抓拍效果：再优秀的人脸识别模型也很难对一些极端采集的人脸进行识别，控制前端相机抓拍的效果是识别率的前提保障;

　　4. 人脸识别算法：人脸识别模型的目标库并不能无限累加，并且像营业厅这样场景的人脸识别，必须在保证识别的质(降低误识率)和量(提升识别人数)。

　　解决方案

　　针对客户识别的困难，设计了一套进店客户识别营销和离店二次营销总体流程，端到端优化两个层面的难点，进而提升客户身份的识别准确率。

　　针对人像库照片存在的质量问题，系统性的对目前库中的人像照片进行分类，总体来说可以归为三类，清晰度较高的实景照、略带模糊的人像照和带有干扰信息的人像照。针对第一类照片，直接可以作为人像库使用，识别效果也是最优的;对于模糊的人像照可以利用图像增强算法对其处理，达到锐化前景的效果;对于带干扰信息的人像照，可以利用生成对抗网络等手段排除干扰。总体来说，三类人像照质量依次递减，虽可以通过视觉算法增强图片的质量，但第一类照片的收集也至关重要。

　　针对能力圈命中率问题，通过建立事前能力圈和事后能力圈两种比对方案的人像库，事前能力圈(常客模型)是根据近6个月内到厅受理过业务的用户，取到厅次数最多的用户;事后能力圈是基于信令数据，获取营业厅营业期间在周边基站范围(人工筛选)内出现并满足一定停留条件的客流能力圈，用于弥补事前能力圈命中率不高的问题;同时经数据分析，顾客在一段时间内有多次到厅的行为，可以将事后能力圈反哺出来的客户数据作为常客添加到事前能力圈中，以增加事前的识别率。

　　针对相机抓拍问题，选择一款智能化的抓拍设备尤为重要，通过调研发现，抓拍设备除了常规的参数(焦距、白平衡、角度)需要根据实际场景调整之外，还需具备一些人工智能算法才能保证抓拍的人脸图片符合规范。人脸检测算法，虽然设备每时每刻在不停的抓拍图片，当检测到人脸时才会向平台上报;同时，设备每秒抓取的帧数会在25~30张，设备需要通过人脸质量择优算法(主要评估人脸的姿态角度、模糊情况等因素)，从众多张同一人脸中选择一张质量最好的上报。此外，相机处理芯片的架构也会对抓拍效果产生影响，对比DSP与FPGA芯片，拥有FPGA芯片的相机每秒能处理30帧图片，完胜每秒处理15帧的DSP，可以很好的避免业务处理性能不足的问题。

　　针对人脸识别准确率问题，人脸识别算法受不同场景影响较大，对标过多数人脸识别厂家，其中不乏业界的独角兽，在配合式场景(实验室场景下)，识别率可以达到99.9%以上;然而在非配合式场景，在查全率0.8的情况下，能达到95%以上识别率的模型已经非常不错了，各厂家测试结果如下表。同时，经过调研发现，大规模真实场景的样本数据直接决定了深度学习模型的性能，而不同场景下的人脸识别问题所需要不同的数据平衡、数据拟合、超参数组合。因此，一般会基于pretrain model (在通用的大量的数据训练的模型)加上专用场景的数据生成针对场景优化的专用模型，这样可以保证该特殊场景下的模型识别准确率。

　　总体流程

　　进离店客流分析

　　基于双向人脸识别摄像头实现进店客流群体分析以及客户停留分析，通过掌握厅店客流的整体情况，及时调整厅店运营策略。进店客流分析 主要是获取各时段进店客流情况，包括新客(首次进店)、常客构成，客户的年龄、性别构成等;客户停留分析 是获取各时段客户在店内的停留情况，包括店内客流数，平均停留时间、过客(停留时长小于3分钟)、意向客(停留时长大于15分钟)等。

　　实现困难

　　实践过程发现，进离店客流分析主要有以下三个方面造成数据统计的误差。

　　误差点1、系统长时间运营，导致底库存在过多脏数据，常见的有：存在一个人的多份特征值，但多份特征值所表示的含义是不一样的顾客;

　　误差点2、顾客进离店时由于佩戴帽子、眼镜等装饰对人脸关键特征的遮挡，增加人脸识别难度(识别分数过低/识别成他人);

　　误差点3、顾客进离店行为随意性较大，并且从两侧离店的情况占比较多，导致抓拍的数据存在较多侧脸。

　　解决方案

　　针对上述误差点1，通过建设AB库的方案解决目标库(A库)中脏数据过多的问题。客户停留分析的目的是保持当日进店、离店客流的数据一致性，离店数据只需要在当日进店的数据基础上进行识别即可，因此在原目标库(A库)的基础上增添一个临时库(B库)，用于当日进离店顾客的数据分析。

　　针对上述误差点2，在AB库建设的基础上，稍微降低离店人脸识别的阈值，将尽量多的离店数据与进店数据匹配上。针对误识别的情况，之后将考虑使用行人识别的方案，利用更多人体的特征信息(配饰、衣着)对顾客进行识别。

　　针对上述误差点3，在AB库建设的基础上，增加厅店门口两侧的抓拍设备，主要针对侧面离店顾客数据的人脸抓拍，当多个摄像头同时抓拍人脸数据时，系统将会合并相似度较高的人脸，避免重复人脸上报，类似单摄像头的抓拍过程。

　　AB库方案

　　营业厅热力分析

　　基于顾客在厅内不同位置的累积驻留时间分别渲染实景热图和全景平面热力图，通过热力图分析营业厅整体及专柜区域的热力分布，指导营业厅优化厅店商品布局。

　　实现困难

　　难点1、消费者在真实门店空间中的精准定位，摄像头所能采集到的消费者信息都是在三维空间上的，需要通过空间坐标关系精准映射到平面图上;

　　难点2、线下场景下消费者的精准检测，1)目标(即消费者，以下都以目标代指)都以非配合时场景出现，被摄像头捕捉到的部位或头或脸甚至半身，对于传统的单一任务检测来说难度非常大 2)商品摆放、人群拥挤等情况的普遍存在，目标常常被严重遮挡，或与其他目标重叠。

　　解决方案

　　针对难点1，我们通过三维空间重建算法建立实景图到平面图的坐标映射，依次建立起每个摄像头观察坐标系到平面空间中的映射关系，并基于特征匹配，对每个进入摄像头监控区域的顾客进行检测，并通过映射关系估算其在摄像头观察坐标系中的位置，通过该算法评估顾客的平面坐标误差范围在0.5米之内。

　　针对难点2，通过使用基于CNN + RNN的多任务结构设计了神经网络，分别来检测人的头、脸及身体。其中CNN用于提取图像中的深层特征，RNN用于检测复杂场景下相互干扰的目标部位。

　　客户轨迹追踪

　　获取顾客在店内的活动轨迹，结合区域停留时长，获得客户的消费倾向，给顾客在厅内的行为活动打上对应的标签信息，为精准营销提供决策依据。

　　客户轨迹追踪

　　实现困难

　　客户轨迹追踪运用了计算机视觉领域中的行人重识别(reID)技术，需要在多个摄像头拍摄出来的图像中识别相同行人为目标。但现实场景中，客户的姿势变化、图像模糊以及目标遮挡等问题对整个行人追踪过程提出了巨大的挑战。

　　解决方案

　　采用混合的检测+追踪算法来追踪特定顾客，使用重识别算法进行跨摄像头追踪，最后通过空间定位算法(多场景统一空间映射算法)计算行人在真实空间中的位置坐标，从而进行店内客户轨迹分析。

　　检测算法：基于CNN+RNN的多任务结构设计了神经网络，分别来检测人的头、脸及身体。其中CNN用于提取图像中的深层特征，用于重识别算法;RNN用于检测复杂场景下相互干扰的目标部位;

　　追踪算法：基于相关滤波(Correlation Filter based)的追踪算法，在线“记住”目标的关键帧蕴含的特征，并基于该特征在视频的帧与帧之间持续追踪目标。

　　重识别算法：使用STN(Spatial Transformer Network)对行人进行位置相关特征采集，并使用reranking特征数据库进行特征匹配与检索。在拥挤情况相对良好的情况下可达到95%的识别准确率。

　　总结

　　通过人工智能、大数据赋能的新零售，围绕人、货、场所构造的面向厅店运营人员的门店大脑，记录了用户进店前、进店时到离店后的行为数据，真正实现人的消费数字化、货的合理布局、场的千店千面，从而打造全新客户体验，升级智慧运营管理，达到促进销售与客户双增长的效益。