文献信息:Zhuang yuan Fan, Fan Zhang, Becky P. Y. Loo, et al. (2023). Urban visual intelligence: Uncovering hidden city profiles with street view images. Proceedings of the National Academy of Sciences, 120(27), e2220417120. https://doi.org/10.1073/pnas.2220417120.
整理人:杨文,2023级硕士生
整理时间:2024年4月15日
Abstract:A longstanding line of research in urban studies explores how cities can be understood through their appearance. However, what remains unclear is to what extent urban dwellers’ everyday life can be explained by the visual clues of the urban environment. In this paper, we address this question by applying a computer vision model to 27 million street view images across 80 counties in the United States. Then, we use the spatial distribution of notable urban features identified through the street view images, such as street furniture, sidewalks, building façades, and vegetation, to predict the socioeconomic profiles of their immediate neighborhood. Our results show that these urban features alone can account for up to 83% of the variance in people’s travel behavior, 62% in poverty status, 64% in crime, and 68% in health behaviors. The results outperform models based on points of interest (POI), population, and other demographic data alone. Moreover, incorporating urban features captured from street view images can improve the explanatory power of these other methods by 5% to 25%. We propose “urban visual intelligence” as a process to uncover hidden city profiles, infer, and synthesize urban information with computer vision and street view images. This study serves as a foundation for future urban research interested in this process and understanding the role of visual aspects of the city.
摘要:城市科学的一个长期研究方向是探索如何通过城市的表象来理解城市。然而,目前尚不清楚的是,城市居民的日常生活在多大程度上可以用城市环境的视觉线索来解释。本文将计算机视觉模型应用于美国80个县的2700万张街景图像。通过街景图像识别的显著城市特征,例如街道设施、人行道、建筑立面和植被,然后利用这些特征的空间分布,来预测其附近社区的社会经济概况。我们的研究结果表明,仅这些城市特征就可以解释高达83%的出行行为,62%的贫困状况,64%的犯罪行为和68%的健康行为的方差。这些结果优于仅基于兴趣点(POI)、人口和其他人口统计数据的模型。此外,结合从街景图像中捕获的城市特征可以将这些其他模型的解释性能提高5%到25%。本文提出的“城市视觉智能(urban visual intelligence)”是一个发现潜在的城市概况,推断和综合城市信息与计算机视觉和街景图像的过程。这项研究为未来城市视觉方面相关的研究奠定了基础。
深入研究城市环境对于了解城市及其内在生活至关重要。城市环境是一个复杂系统,可以通过许多可测量的指标来研究,包括土地利用多样性、建筑密度、街道网络连通性、绿化以及食品和零售业务。利用这些测量,研究人员广泛建立了城市环境与城市居民日常生活之间的联系。如,餐馆密度和评级被显示为有效预测日间人口、就业和年龄的指标,道路网络的空间同质性暗示了城市的GDP和人口增长,目的地的可达性与旅行强度强烈相关,住房和农田的大小可用于推断家庭贫困水平,公园的可达性是城市健康的一致预测指标。
虽然现有研究通常将以土地利用和城市功能为基础的衡量标准作为估计社区社会经济地位的关键变量。然而,我们尚未意识到所有城市功能都有其视觉对应物。从18世纪早期的“会说话的建筑”理论到近期的工作,如Kevin Lynch的《城市的形象》,都一致认为城市可以通过其外观来理解。研究人员已经广泛测试了视觉属性对犯罪、旅行行为和健康行为的影响。与此同时,规划实践逐渐纳入了建筑立面、街道人行道和街道树木的分区代码,以指导城市的总体外观。然而,一个重要的问题仍然没有回答:“城市的外观与邻里社会经济状态的多个方面有何联系?”
随着技术进步,特别是高性能计算和街景图像的普及,研究人员现在有了新的方式来探究我们如何通过城市的外观理解其更深层的社会经济特征。最近的研究利用计算机视觉,即让计算机分析街景图片来识别和解读城市的各种特征,以预测收入水平、投票倾向、健康状况、房价以及人们对安全的感知。我们的研究与这些工作有共同的兴趣点,但我们专注于回答两个问题:首先,考虑到地方政府在不同环境下收集了大量数据以捕捉城市生活的全貌,这些社会经济特征中哪些可以通过分析街景图像的客观特征更准确地估计。其次,我们探讨了通过图像相比于传统的基于功能的方法能多好地推断这些社会经济特征。
为了回答这些问题,我们收集了来自美国七个大都市区的80个县中的2700万张谷歌街景图像。通过运用深度学习的计算机视觉算法,我们从这些图像中提取出了如树木、人行道、汽车、建筑立面等城市特征,分析了这些特征在城市中的分布情况,以此来预测社区层面的贫困、健康、犯罪和交通状况。这些问题的选择主题既是基于先前研究中建筑环境与社会经济状态之间联系的证据,也与联合国的可持续发展目标相呼应。
我们的方法展示了使用计算机视觉算法通过公开可获取的街景图像数据来估计贫困、暴力犯罪、健康行为和出行方式偏好的可能性。然而,我们发现街景图像在解释不同社会经济变量时的能力是不同的。例如,在所有研究地点中,出行方式偏好的预测准确率最高,而像癌症和心理健康这样的健康结果仅通过图像数据的解释能力较弱。值得注意的是,在大多数情况下,利用街景图像分析在模型拟合上优于传统的利用兴趣点分布的方法。此外,当我们将公开的调查数据(如种族、年龄和人口密度)与街景图像特征结合时,我们发现街景图像能够为模型额外增加5%到25%的准确率。
我们的研究通过量化城市视觉特征与城市生活的多个重要方面之间的联系,为城市规划理论提供了实证证据。这项工作不仅突显了城市外观在公民生活中的重要性,还为使用图像数据来综合和推断城市信息、支持及时政策干预的未来研究奠定了基础。
图 数据和方法
(A) 特征提取过程示意图:该研究收集了七个选定大都市地区街道网络沿线的GSV和POI数据。对于每个采样的GSV,我们使用图像分割模型(31,32)来提取图像的像素级标签,从而能够构建SVF(参见SI附录,图S1的放大示例。SI附录,表S3的SVF数据摘要)。(B) 利用POI、SVF和其他人口统计变量构建的特征,我们建立了模型来估计一系列社区社会经济变量(Y),并比较了模型结果,以评估SVF的估计能力。这些被选中的Y是根据城市生活的四个主要方面选择的:健康、交通、犯罪和贫困。
图 SVF、POI和动态人群之间的模型拟合R2比较
(A) 单独使用群体的模型和单独使用POI特征的模型之间的R2比较。平均而言,CT水平模型(Y~{POI})的R2比模型(Y ~{DynamicPopulation})的R2高约9.8%(t检验;P值<0.005)(SI附录,表S9)。(B) 单独使用总体的模型和单独使用SVF的模型之间的R2比较。平均而言,模型(Y~{SVF})的R2比模型(Y至{DynamicPopulation})(SI附录,表S7)的R2高约22.8%(t检验;P值<0.005)。我们注释45度线作为参考。线上方的任何点都表明,作为总体估计的函数,该模型优于该模型。
图 所有城市生活指标的多变量分析
当模型仅考虑SVF时,深蓝色条表示R2。当模型只考虑位置、人口、年龄和有色人种时,灰色条表示R2。浅蓝色条表示通过将SVF添加到先前模型中获得的额外R2。给出了每个模型结果的误差条。平均而言,通过将SVF添加到模型中,我们能够将5%到25%添加到模型R2中。年龄代表65岁以上人口的百分比。POC代表非白人群体的人口比例。
原文链接:https://www.pnas.org/doi/10.1073/pnas.2220417120
节选转引:https://mp.weixin.qq.com/s/Ckr5TXXS9BKnyFYeatGsig