硕士论文网/国内首批论文服务机构

当前位置:硕士论文网首页 > 计算机论文 > 基于计算机视觉的人群计数与密度估计研究

基于计算机视觉的人群计数与密度估计研究

时间:2020-08-23 22:55 | 栏目:计算机论文 | 浏览:

硕士论文网第2020-08-23期,本期硕士论文写作指导老师为大家分享一篇计算机论文文章《基于计算机视觉的人群计数与密度估计研究》,供大家在写论文时进行参考。
  简化地看待深度学习解决人群计数与密度估计的过程,在讨论中本文将注意力集中到网络做出估计的前一刻,即网络被拆解为两个部分——特征提取器与目标回归单元。特征提取器通过若干卷积层抽取原始图像高维局部特征,一般可以将这一稠密张量与手工局部描述算子对等。在多数研究中,由于特征提取器到回归单元之间的连接十分简单,甚至可以简单地抽象为一个线性变化,尽管激活函数往往会为映射关系引入一定的非线性性,但在如此浅层的目标回归单元中,二者的性能差异并不大。方案几乎不可能为最终的回归层施加以上的量化限制,因为此类任务的目标永远是回归一张符合人类视觉表现的人群密度分布图像,而上述的约束会造成相邻像素间的数值截断,至少在视觉上来讲原本平滑的图像可能因此变得粗糙;基于密度图的方案估计的最小单位为像素,在像素粒度上进行数值截断带来误差是难免的,这样的误差会在空间上积累。额外的图像平滑措施是解决方案之一,但施加这样的约束也就背离了密度图方案准确感知空间信息的初衷。因此,本文将目光聚焦到特征提取器与目标回归单元之间,重新使用量化后的高维特征作为回归单元的输入,以此来限制回归单元输入的丰富性,在语义层面上间接量化模型输出。

  第1章  绪论

  1.1  研究背景与意义
 
  随城市人口基数的不断增长,以及社会发展使得人类活动愈发呈现多样化趋势,人群拥挤场景随处可见,如空港、车站、体育场等。高密度的人群聚集往往会带来意料之外的安全隐患,随之而来的是极易发生的拥堵、踩踏甚至暴恐事件,这给传统的公共安全管控带来了不小的挑战。2006 年,菲律宾首都马尼拉一体育馆外发生踩踏惨剧,观看电视娱乐节目现场秀的观众中共计有 73 人死亡,392人受伤;2014 年,上海外滩在举行迎新年活动时发生拥挤踩踏事件,造成 36 人死亡,49 人受伤。此类突发安全事件在世界各地的接连发生给城市管理者敲响了警钟,如何高效准确地及时发现高风险事件的发生,进而有效预防人群密集场所的高风险事件成为城市应急指挥工作的研究重点。此外,室内及开放场景下的人数统计工作作为各国“智慧城市”愿景下城市应急方案的有机组成部分,一直深受工业界的关注。在传统人流统计解决方案中,人工统计、闸机以及服务商基站都给相关工作的开展提供了便利,尽管此类方案在原理上保证了相当的统计精度,但前期的硬件及人力投入仍然大大提高了方案的部署成本。视频监控设备作为一种即插即用的高效监控设备在世界各地广泛部署,凭借其较低的部署成本与运营成本受到广泛青睐。据 HIS Markit 咨询公司旗下安防科技分析团队提供的数据,根据过去 15 年的监控摄像头出货量,2019 年年底全球正在运行的监控摄像头将达到 7.7 亿台,接下来两年将突破 10 亿台。其中,在 2018 年的分析中,中国以 4.1 人/每台摄像头位列第一,共 3.5 亿台专业视频监控摄像机;美国以 4.6 人/每台,共计 7 千万台位列第二;而中国台湾与英国分别以人均 5.5 与 6.5 人/每台分列三四名。针对监控视频内容的传统人工处理模式与日益增长的视频监控设备数量已然不相适应,并且传统人工视频监控系统由于数据量爆发式增长而呈现出的高时间滞后性、高人工成本、低数据处理效率的特点已经愈发明显,这一系列问题严重拖慢了“智慧城市”愿景走向现实的步伐。因此,自动化视频分析技术进一步的发展成为了当前工业界的迫切需求。自动化视频分析技术依托已有的视频监控设备,通过计算机视频分析技术对现有视频监控产业进行产业赋能,完成既有产业向“人工智能+”的转变。其中,人群计数任务作为自动化视频分析技术的有机组成部分,一直是该领域重要的研究热点之一。人群计数相关技术通过视频场景图像对当前场景人群数量以及密度分布进行判读,可被广泛运用于交通管制、人员密集场所管控以及应急安全等领域。此类技术可以直接集成到当前的视频监控系统中替代人力资源,在提升原有系统性能的同时大大降低了人力成本,因此这一种技术的推广往往是“无痛”的。更进一步,自动化人群计数相关技术不仅提供了对场景人数的把控,而且为场景异常分析、人流疏导等工作提供了参考信息。此外,因为该领域在技术层面上具有的泛化性特点,在变化任务主体之后此类技术依然适用。因此,人群计数相关技术的发展也有利于其他问题的解决,例如车流统计、细胞数量统计等领域也能从该领域的发展中汲取养分。
S-DCNet网络架构
  1.2  国内外研究现状
  传统人群计数方案大体可以分为两类,一类是基于检测的方案,一类是基于回归的方案。而在具体研究中,基于回归的方案又被进一步细化为回归至场景计数值以及回归至场景密度分布的两种方案。为了方便讨论,本文将前者称为基于回归的方案,将后者称为基于密度图的方案。其中,基于检测的方案通过检测出场景中的目标个体空间位置、形态大小,从而达到人群计数的目的;基于回归的方案则是通过理解场景的全局语义特征,直接回归与之相关的目标计数值大小;基于密度图的方案更进一步,运用局部语义特征逐像素的估计目标计数值,以保留目标的空间信息,由此将人群计数问题转变为密度估计。更进一步,基于密度图的方案根据其学习方法中监督方案不同,又可以细分为基于密度图的监督方案与基于贝叶斯损失的监督方案。类似的,本文将前者称为基于密度图的方案,后者称为基于贝叶斯的方案。综上,本文将现有的人群计数方案分为四类:基于检测的方案,基于回归的方案,基于密度图的方案以及基于贝叶斯的方案。由于在该领域中人群计数与密度估计在技术发展中的深厚渊源,本文将两者放在一起讨论。在人群计数与密度估计领域中,基于不同技术背景的方案往往也会呈现出不同的特点:基于检测的方案从设计上虽然可以较为准确的估计出目标的空间位置与大小,但随着目标密集程度的上升,目标间遮挡增大或者视角变化不断加重,其检测性能也随之大打折扣;基于回归的方案能够在一定程度上减轻目标间遮挡与视角变化带来的影响,直接学习全局语义特征与计数值间的映射关系,从而对场景整体计数值做出判读;基于密度图的方案则更进一步的细化模型的学习范围,通过学习局部语义特征与计数值的关联性以保留计数特征的空间信息,兼顾了目标计数值与其对应的空间信息;基于贝叶斯的方案则通过贝叶斯理论对密度图的学习过程重新建模,将基于密度图方案中 Image-to-Image 的场景级别学习过程转变为对场景中目标个体的监督,细化了模型的学习过程。因此,本章节按照如上思路总结近年来国内外研究现状。首先,尽管当前的研究工作主要集中在基于密度图的方案上,但是文献所进行的研究工作仍然提供了人群计数方案发展的其他可能性。该工作表明量化的模型输出在人群计数任务上的精度表现可能并不输于原始输出,尽管这一表现略显反直觉;其次,随基于贝叶斯方案的提出,意味着人群计数的监督工作从场景级细化为实例级,监督粒度进一步细化,但是相关研究工作还未展开;最后,绝大部分研究工作还停留在学术研究,并没有对人群计数与密度估计任务做更进一步的实用化探索。

  第2章  基于深度学习的人群计数与密度估计技术概述

  针对图像和视频的自动化人员密集场景分析技术被广泛运用于人流管控、交通控制、城市规划以及安全监控等领域。通常情况下,场景中的具体人数和空间分布作为人员密集场景理解任务的两个重要关键问题,一直受到相关领域内研究人员的广泛关注。然而,在低分辨率的安全监控视频中(目标对象的高度可能仅有几个像素或者总被遮挡),人群计数、识别以及追踪任务对于计算机视觉领域来讲仍然是极具挑战的,甚至对于标注专家来说也是极其困难的。正如上一章所言,一部分研究者尝试使用基于检测的方案来解决计数问题,但是在实际应用场景中广泛存在的高遮挡情况以及小目标限制了这种方法的使用。与之相反的,基于回归技术的方案更加适合高密度场景。然而,基于回归技术的方案仅仅尝试求解计数问题,对于场景中目标的定位就无能为力了。尽管在一些回归方案中,通过图像分块的改良预测方法可以间接地求得区域密度,但其本质上还是在回归图像块整体的计数特征,并没有充分利用空间特征信息。在实际需求中,如若能够同时进行总体计数和个体空间分布估计将会是极其有用的,因为在小范围内集聚目标的实际分布情况与先验地将其判断为均匀分布还是有很大不同的。由此,一系列能够明确目标空间分布的基于密度图的方案被先后提出。本章分别从深度学习方案理论基础、基于 End-to-End 神经网络的主流人群计数与密度估计模型,以及模型评价指标与主要数据集三个方面回顾了近几年深度学习方案理论基础的进步,并且重新审视了在实际运用中网络方案架构的不断革新。
分治策略示意图
  2.1  深度学习方案的理论基础
  本节主要讨论基于深度学习技术的典型人群计数与密度估计技术,从学习目标的监督方法论角度来论述,主要包含三个大类:基于回归的人群计数,基于密度图的密度估计以及基于贝叶斯的密度估计。本节分别从各类方案的基本形式及其变形方案的相关理论基础、学习目标和目标函数为切入点,介绍典型的人群计数与密度估计的深度学习方案。学习目标:基于回归的方案主要有三种形式的学习目标,一种是直接回归目标图像中的人数计数值;二是回归人数分布的大致分块,再间接估计人数;三是回归目标区域的密度等级,对区域密度作大致估计,一般作为联合任务以提升方案性能。其中,第一种和第二种形式,因其与实际数量分布有较强的关联度,一般作为方案的主要学习目标;而第三种形式一般作为主任务的附属,间接参与到主体特征的学习中,进而引导网络学习数量相关深度特征。在大多数的数据集中,已经提供了完备的目标个体的空间位置,可以直接或者间接的得到场景或者是相应兴趣区域的计数值,而回归任务的任务目标往往就是这一数值,一般在除去错误标注后可以直接使用,因此对于回归任务的标注处
理便不做赘述。
  2.2  基于端到端神经网络的主流人群计数与密度估计模型
  文献将实际场景中的人群计数问题看作是一个 Open-Set 问题,即场景人数可能是[0, +∞);而在训练时,由于训练数据有限,人数变化有其限定范围(Close-Set),因此,可能仅有很小的一个数量变化集合被用于训练,这可能会影响直接影响到方案的估计精度。出于这样的一个简单的认知:在测试时,任何密集区域都能够被划分为一个足够小的子集,使其能够适应训练数据的量级变化。文献提出一种采取区域分治策略的模型架构 S-DCNet,以适应实际 Open-Set场景中的数量分布变化问题。如图 2-1 所示,S-DCNet 包括一个经过预训练的截断全连接层的 VGG16 作为特征提取器,紧接着是一个计数分块的分类器以及一个分治决策器:针对于每一个64 × 64的输入图块,经过特征提取器后,尺寸变为原始尺寸的1⁄32(即特征图大小为2 × 2)。

  第 3 章 基于特征量化的人群计数与密度估计模型

  3.1 相关工作与动机
  3.2 基于特征量化的特征抽取
   3.3 实验分析与讨论
   3.4 本章小结

  第 4 章 基于在线样本挖掘的模型优化方案

  4.1 相关工作与动机
  4.2 基于在线样本挖掘的模型优化
  4.3 实验分析与讨论
  4.4 本章小结

  第 5 章 人流计数与密度估计技术的实用化研究

  5.1 轻量化模型
  5.2 神经网络量化与剪枝
  5.3 对冲风险评估
  5.4 本章小结

  第 6 章 总结与展望

  6.1 总结
  随城市人口基数的不断增长以及社会发展使得人类活动愈发呈现多样化趋势,人群计数的重要性愈发显现。首先,在观察到关于回归方案中结果量化反而取得较好成绩这一反直觉现象,本文对特征量化应用于 Image-to-Image 任务的可能性进行理论分析,并提出一种即插即用的语义特征量化方案改进原始模型性能。其次,随基于贝叶斯方案的提出,意味着人群计数的监督工作从场景级细化为实例级,监督粒度进一步细化,本文对传统模型优化方案进行归纳,并结合贝叶斯方案的特点,提出一种易用的性能改良方案。最后,绝大部分研究工作还仅仅停留在学术研究,很多工作面向学术研究而非工业界,本文在学术研究的基础上提出一系列实用化改良方案。综上所述,本文的研究内容主要包括:(1)本文比较了人群计数与密度估计领域中回归方案间的不同侧重点,仔细分析了不同数值量化方案给模型学习带来的提升,引出了语义特征量化对模型性能改进的可能性。针对原有特征量化方案对局部信息破坏以及产生的维度灾难问题,本文提出了一种基于特征量化原理的模型构件,该构件可被独立插入到现有模型中参与 End-to-End 的任务训练。实验证明该方案的 MAE 与 RMSE 模型精度指标均超过了基线模型,表现出优越的性能优势。 (2)本文列举机器学习领域中三种典型的模型训练策略(类别均衡、难样本挖掘以及课程学习),分析并指出这一系列策略对于模型性能提升的可能性。针对基于贝叶斯的方案为计数任务引入的监督细化能力,本文对基线模型输出进行细致观察,提出了一种改良的贝叶斯损失函数,并在此基础上引导模型的学习。实验证明,该方案能够有效引导模型在训练时有偏好的学习相关知识。 (3)本文以结果质量和服务质量为依据,对人群计数与密度估计的实用化研究工作展开讨论。首先,本文总结了相关领域轻量化模型的研究工作,提出一种面向人群计数与密度估计任务的轻量化模型架构设计方案。其次,本文归纳了模型无关的神经网络主流轻量化方案,主要涉及网络量化与剪枝工作,并依托Tensor Flow 深度学习框架进行研讨,验证此类方案的可用性。最后,本文对模型服务质量做进一步深入,提出了一种人流对冲风险的可量化方案,可视化地描述
了场景中的对冲风险。
  6.2  展望
  本文工作围绕人群计数任务提出了一系列新方案、新改良,也为人群计数相关技术的实用化推广与实践提供了参考,但是,人群密度分析仍然面临很多的困难,以下是未来需要进一步研究的问题:(1)人群计数任务主流解决方案受主观因素影响大。基于密度图的方案都需要先验信息生成相应的数据引导模型训练,在不少研究工作中也发现这一些数据由于先验设置的不同,以此训练出的模型估计精度各异。这无疑增大了模型训练的难度,因此进一步削减这一类主观先验信息的影响,或者进行自适应的先验信息调节仍然是值得研究工作。(2)基于密度图的模型方案训练不稳定。由于密度图方案的输出为大于 0的值所构成的图像,因此在绝大多数研究中神经网络输出前的激活函数为 Re LU。一些研究发现,Re LU 激活函数所特有其边界条件在训练初期极易造成模型的不稳定,进而产生梯度爆炸或者神经元坏死等问题。又因为密度图每一位置的输出十分接近于 0,神经元坏死的可能性进一步提高。综上所述,稳定的模型训练方案或者新的输出层激活函数正是目前所亟需的。(3)用于人群计数任务的相关数据集成本过高。在人群计数任务中,用于训练的场景图像目标计数值从个位数到上千不等,这无疑增大了人工标注的成本。因此,弱监督或者无监督技术在人群计数领域的应用无疑能够大大降低训练成本。而在当前,弱监督的工作还仅仅应用在相关任务上(例如比较区域间密度等级的关系),仍然没有可以有效助力计数任务的研究投入实践,而无监督技术的落地仍有很长的路要走。
 


以上论文内容是由硕士论文网为您提供的关于《基于计算机视觉的人群计数与密度估计研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网计算机论文栏目。