量化城市︱计算机视觉技术在街道品质量化评估中的应用

一°览°众°山°小

SustainableCity & Transportation

编辑团队

原文/ 肖天骏（美国微软必应搜索团队）

文献/ 李安岭校核/ 众山小

编辑/ 众山小排版/ 王雅桐

译者萌像&导读：

我们 2014年11月28日期的文章《定量城市︱街道设计领域的里程碑 – 用计算机化的方式来评价街道景观品质》不仅引起国内相关领域的研究学者的广泛注意和实践，也引起了的注意。今天我们就收到了来自美国微软西雅图研究院的必应搜索团队的华人学者投稿，详细阐述了基于新型计算机视觉技术与深度神经网络算法（也是AlphaGo的主要算法），如何应用于城市行业的街道量化评估。内容专业而充满新意，从规划和交通行业以外的计算机行业视角来看待城市街道，帮助我们更好的推动街道工作，这种跨行业互助的精神值得我们赞赏。

城市定量分析尝试用数理的方法向我们解释城市,是近年来城市规划领域的热点，佛蒙特大学的切斯特.哈维利用计算机程序，对美国3个城市超过1.2万公里的街道进行量化分析，得出了街建筑立面贴线率、绿化面积、建筑物集约度等要素对打造安全感知以及活力街区的影响。该研究对我们利用城市规划大数据，对城市进行定量分析提供了新思路。（参考文献1，请联系我们索取）

该研究的主要贡献在两方面：一、提出了利用建筑脚印让计算机确定街道边界的方法，在边界确定后自动统计出街道的宽度、长宽比以及沿街立面的连续性这些街道特征；二、在互联网上向大量受调查者收集行人对街景的喜好信息，统计得到街道的分数对街道特征进行回归分析。通过计算机挖掘城市规划大数据中有价值的特征，免去了研究人员现场采集数据的繁杂工作，从而可以让这些专家学者将更多的精力投入到分析与设计中去，同时，计算机处理数据高效，与人工采集相比能够提供另一个数量级的信息，让后续的分析工作“有米下炊”，这是一种解放生产力的趋势。

得到特征再用量化方法解决问题，也是计算机子学科计算机视觉的核心思路，计算机科学家用这一思路设计了物体识别、目标跟踪等智能系统。有趣的是，街道量化分析所需要的特征，很多正是视觉特征（如绿化率、建筑密集程度）。笔者不禁想到，能否使用计算机视觉的方法与流程设计一个端到端的解决方案，利用街景图片对街道质量进行量化评估。具体地，试探讨近期发展迅速的深度学习与计算机视觉技术能够为街道品质评估带来哪些新的可能。

计算机视觉对街景的理解能力

使用计算机视觉方法来处理街景评估问题，第一个需要探讨的就是计算机能否“理解”那些对街道评价有影响的因素。城市规划专家总结了若干至关重要的因素，根据城市规划的分类方法，这些因素主要包括：

出行方式相关：主要是各种出行方式的占比，机动车道，公交专用道，自行车道，过街设施，人行道，街边停车，公交车站；

街道建筑与空间相关：主要是街道的视觉边界及连续性，路缘石，建筑物边缘，围墙，开口，交叉口，公共空间等元素的统计信息，以及建筑底层与街道相关的功能，商场、餐厅、公共服务等；

街道设施相关：主要是公共市政设施，如电话亭、街道家具、娱乐设施、绿化带、通风口等。

每一个因素都影响着人与街道的互动：如何到达街道，如何在街道中移动，在街道中能做什么事情。接下来，我们切换到计算机的视角，根据使用计算机视觉技术对这些因素进行分析和量化的复杂性（这里的复杂性并不等于难度，主要是指计算量或模型大小，有时候复杂性较低的方法设计起来却十分困难），从简入繁地对这些因素重新进行分类，从而指导研究计划的提出与解决方案的制定。

一、基于几何计算的量化分析

能够用几何量化分析的因素包括：街道宽度、长宽比、街道连续性等，主要是空间相关的因素。这类因素的量化方法通常需要巧妙的预处理，然后使用计算几何的算法提取出关键的线或角，从而进行量化。在哈维的工作中，利用建筑脚印确定边界就是一种预处理，计算宽度、长宽比便是利用了计算几何的算法；这类量化方法可以替代部分人工测量，使得基于这些因素的量化分析方法能够使用大量的数据进行分析。

图一、街道几何信息的量化分析

二、基于标志与字符识别的分析方法

(1)

(2)

(3)

图二、街道标识信息的量化分析

图二（1）这里的标志主要是指交通标志，由于其外形简洁稳定，在计算机视觉中识别率较高。对于交通标志，结合行车道，我们可以从街景图片计算出机动车道，公交专用道，自行车道所占道路面积的比例，以及该区域行车的速度等信息。通过这些交通标志的识别，能够提取出大量的出行方式相关的因素。

图二（2）通过对于品牌标志，我们可以确定该街区商家的类型、功能、档次等信息。

图二（3）与标志识别类似，计算机还可以通过直接从街景图像中提取字符来进行品牌和功能的判断。

与几何量化方法相比，标志与字符的识别能够将街景元素实体化，将像素映射到具体的交通区域、品牌与功能，是对街景信息更充分的挖掘。

三、物体的识别与定位

自然物体由于其外形以及拍摄角度的多变性，识别难度远大于标志的识别，当街景图像分析来到自然物体的识别与定位这一阶段，所需要的运算量及模型复杂度大大增加。幸运的是，近两年来基于深度学习的计算机视觉技术在图像的识别与定位中取得了突破性的进展，准确率接近甚至在部分任务上已经超过了人类的水平。如下图所示，当我们能够对街景图片进行细致到区域与类别级别的理解，便能够提取更为复杂的街景因素。基于计算几何的方法往往只能处理规则区域的图形特征，基于标志的方法只能提取局部的信息，而基于物体识别与定位的方法能够从非规则区域中提取出全局的特征，且这种特征具有较高语义，例如街道的绿荫率、建筑密度、停车面积、人流量等。

图三、通过物体识别与定位分析人流量与绿荫率

图四、通过物体识别与定位分析建筑密度与停车面积

四、物与物、人与物之间的关系

在物体的识别与定位达到一定准确率之后，计算机视觉的研究人员开始挑战更困难的人工智能问题：关系的建模。这些关系包括物体的属性，人与物体的交互等。具体到街景的理解，物与物关系能够挖掘出单一物体不能反映的功能和特征，人与物的关系则能直接反映人在该街道中所能参与的活动、所能展现的状态。这些特征很多时候是必须身临其境才能感受到的。

如下图五所示，当计算机挖掘出”people walking past a shop”，我们可以得知这是一个购物街，而看到”A bicycle rack”我们能够知道这个街区提供自行车代步，由此分析出这可能是一个设施很方便的购物街区。

图五、对街道物与物之间关系的识别与分析

再看另一个例子，计算机从下图六挖掘出”bunch of cars parked along the sidewalk”与“young an skating on a skateboard”，孩子玩滑板的区域和停车的区域如此之近，是否意味着该街区存在安全隐患？

图六、对街道人与物体关系的识别与分析

端到端的解决方案

前文提到，街景量化分析的处理流程是特征采集与回归分析。本章将在这一基础之上介绍街景评价的端到端（end-to-end）方案。具体地，我们将介绍特征采集阶段所使用的模型：深度神经网络，以及整个项目端到端解决方案的具体流程。

一、图像理解背后的强大模型：深度神经网络

以往不同的计算机视觉任务需要使用不同的模型，然而近两年来，在标志识别、字符识别、物体识别与定位、图像理解等任务上取得最好结果的模型都是深度神经网络模型，这个模型最近也非常火，Google战胜人类围棋冠军李世石的程序AlphaGo背后就是它。

图七、深度神经网络模型

神经网络启发于人脑神经元之间的连接，通过计算机科学家的不断改进，在工程上成为了人工智能领域的经典模型。近年来，随着计算机性能的飞速发展以及分布式异构计算系统研究的进展，在有限的时间内使用大量数据训练非常深的神经网络成为可能。而这种数据量以及网络深度带来了模型效果的大幅提升，在语音识别、图像理解、人脸识别等任务上，深度模型已经接近甚至超过了人类的认知水平。

回到模型本身，深度学习的两大特质决定其适合大规模街景数据的分析与挖掘。

1.特征逐层抽象能力

在计算机领域，大部分智能任务的核心是特征工程，能够提取出有价值有代表性的特征，任务也就成功了大半，街景评价任务也是如此。深度模型对于图像的感应区域随着深度的增加不断扩大，其能够挖掘的特征也从像素排列的特征逐渐抽象与语义化。以用于物体识别的深度模型为例（图八），底层网络关注的是边缘、斜角等像素级别的特征，中层网络关注的是纹理、形状等特征，而上层网络则能提取出动物头部、车轮等与类别直接相关的高层特征。

图八、特征逐层抽象模型

同样的，在街景评价任务中，我们需要大量的高层特征以进行物体的识别与定位以及关系的挖掘，深度网络的特征逐层抽象能力非常适合完成这一任务。

2.从大规模数据中学习的能力

图九是斯坦福大学教授、百度首席科学家Andrew Ng博士绘制的数据量与模型表现的关系图。可以发现，对于大多数机器学习模型来说，数据量到达一定规模后，模型表现会遇到“天花板”，而深度学习模型则能“吃下”大量的数据，随着数据量的增加不断地提高模型效果。街景数据是典型的大规模数据，一个大型城市的街景图片数多大百万甚至千万量级，对于这个规模的数据，深度学习是最为合适的模型。

图九、数据量与模型表现关系图

二、处理流程与众包（crowd sourcing）

在街景要素提取阶段，我们使用几何计算、标志与字符识别、物体识别与定位、视觉关系挖掘等计算机视觉技术提取出行方式相关、建筑与空间相关以及街道设施相关因素的特征。在这些特征的基础之上，需要大量的标注数据来进行回归分析。这里的标注数据是指街道质量的评分。由于特征的规模能达到互联网街景图片数这一量级，标注的数据量也需要达到这一量级。如果将所有标注任务交给城市规划专家，又将大大消耗专家的精力与时间。在计算机科学中，如何将任务简化并发动互联网用户一起参与成为了一个有趣的课题：众包。该方法也适用于本任务。直接让普通互联网用户按照专家的水平来给街景打分并不切实际，我们使用众包的思路，将难度较高的打分转化成为难度较低的比较问题，则使得将标注任务交给普通用户成为可能。哈维的研究也使用了类似的方法，如图十所示，他向受调查者展示两张街景的照片，并向受调查者提问：“哪一张看起来更加安全？”哈维通过整理这些调查结果为纽约市三个行政区的635条道路进行了分数统计，其中每34张支持票可以得到1分。

图十、使用众包方法从互联网获得街景评价标注

本项目可采用类似的思路，由城市规划专家设计问题，工程师设计好系统与界面后，部署到云端服务器，开始在线采集用户评价，不断地将评价结果送入回归分析程序，如图十一所示，实现端到端的解决方案。

图十一、基于计算机视觉的街景评价解决方案

交叉学科互相促进的意义与价值

对于城市规划的研究人员来说，计算机视觉的研究方法能够在几个方面改变研究现状:一，省去人工现场采集数据，大大节省了研究人员的工作量与精力，让他们能够专注于分析和设计；二，能够处理整座城市街景量级的图片，用于分析的数据量上升了一个量级；三，深度学习能够为街景评价提供非常丰富的高层特征，研究人员能够使用这些以前无法大规模得到的特征进行案例分析，从而得到新的结论，提出新的建议：

对于计算机视觉与机器学习研究人员来说，街景评价这个任务为我们开启了一片可以使用手中工具进行挖掘的新金矿。该任务为我们提供了大量的数据与模型优化目标，以图片中的关系建模为例，由于这是计算机视觉领域最新提出的任务，当前并没有特别好的评价指标来衡量这个任务的发展水平，而街景评价让我们提出了一个端到端的评估方案，对于我们攻克计算机视觉领域本身的堡垒具有重要意义。

简而言之，城市规划学科提供了目标与数据，计算机视觉学科提供了方法与系统，这种学科之间的交叉对于两个学科的发展都有积极的促进作用。同时欢迎大家通过微信公众号“一览众山小 – 可持续城市与交通”来联系我，进行进一步深入探讨。