大模型城市研究进展 ——记龙瀛博士北大讲座

big data

2014年4月30日下午2:00-5:00,在北京大学逸夫贰楼3459教室,来自北京市城市规划设计研究院的高级工程师、北京城市实验室(Beijing City Lab,简称BCL)创始人龙瀛博士介绍了关于大模型的概念,以及他和合作者利用大规模数据开展全国范围微观尺度城市研究的若干案例。龙瀛博士在清华大学建筑学院获得城市规划工学博士,最近刚刚结束了为期一年的剑桥大学学术访问。他的主要研究方向城市模型等定量城市研究。他的讲座信息量大,逻辑思路清楚,而且态度谦逊,表达严谨,一个经历过良好的学术训练,拥有创新意识和开放胸襟的年轻学者典范。龙博士在报告开场也特别强调了模型的其他共同倡导者所付出的努力,包括吴康、刘行健、王江浩、李栋等。

传统模型VS大模型

龙博士从他们团队最近的一个工作讲起,即覆盖全国所有城市的地块尺度的城市增长模型,引入大模型的概念。直观感觉,既然有大模型,就会有小模型。因此,在他们的界定中,是将传统模型作为参照标准,大模型是与之相对的一个概念。具体来讲,大模型是“一种由大规模数据驱动,多利用简单直接的建模方法,兼顾大尺度和精细化模拟单元的定量城市与区域研究工具,代表了一种新的研究范式”。几个特点:(1)大规模数据驱动,与传统模型用到的数据可能不在一个量级。注意,此处并不是大数据,而是大规模数据,不一定多源;(2)兼顾更大尺度范围和更精细化的模拟单元。在传统模型中,模型的尺度和分辨率两者往往不能兼顾,如更大的尺度需以牺牲分辨率为代价;而在大模型中,利用数据和技术的支持,可以有效拓展模型的可能性边界,可以在尺度上超过常规模拟单元对应的空间范围,而且在精度上对应更精细的空间和社会单元,如地块和个人,即兼顾了大空间和细粒度。比如刚刚提到的全国范围所有城市地块尺度的模型。(3)简单直接的建模方法。与传统模型中用到的建模与模拟方法更为简单直观。因为海量数据本身就有可能反映整体的特征与变化趋势,即有学者认为的“数据就是模型”,通过数据时间演化、空间分布和属性方面的简单分析即可得出结论。龙博士十分严谨地提出,大模型的概念在学术研究中处于起步阶段,目前尚不够严谨,未来会进一步推敲完善。

大模型提出的时代和技术背景

大模型概念的提出有其时代和技术背景。当今是一个大数据的时代,这里暂且不探讨大数据概念的严谨性,自认为龙博士提到的大规模数据概念能让人更好地理解这一时代背景,即数据获取渠道的增加和数据量规模的增大已经为城市研究带来新的机遇,比如各类手机应用数据、公交智能卡数据、出租车轨迹数据等。对于城市研究来说,当今也是一个开放数据的时代。随着政务公开的趋势,各类涉及到城市发展的信息可以为更多人获取,如规划许可信息、土地交易信息、房屋信息、公共服务设施信息等。对于中国城市发展来说,新型城镇化策略的提出,也标志着规划越来越朝着“以人为本”的方向发展。

这样的时代背景下,城市研究技术支持水平也有了新的突破。计算能力的提高、自下而上研究方法的日益成熟,为海量数据的处理和更微观层面的研究提供了支持。以往规划决策支持模型大多面临建模思路复杂、开发周期长、维护成本高的困境,“数据就是模型”的思路从建模技术改进以外的另一个路径找到了应对困境的切入点。应该说,是一种数据的量变积累引起的思维方式的转变。

大模型的应用模式和愿景

大模型将能在很多方面开展应用:(1)对各个层次城市的研究。过去的城市研究受数据资源和技术水平限制,大多集中在大城市和少数中等规模城市,小城市涉及较少。大模型方法的引入能够充分利用多个渠道的数据资源,建立大中小城市一体化的研究思路与方法;(2)精细化分析与模拟。在大模型的支持下,可以在人的视角层面分析问题,一方面可以激发城市居民认知所在城市、关注城市发展的热情,另一方面也可以帮助规划决策者站在普通居民的立场反思规划;(3)对城市形态和网络关系的定量评价。通过覆盖广泛城市的数据收集和一体化的分析方法应用,可以将各类城市的形态特征和网络关系置于一个可以评估和相互比较的平台。这些形态指标未来可以与其他社会经济指标一同表征城市发展。

龙博士对大模型发展的愿景设定为:(1)致力于解决科学问题的同时,其本身也成为一个科学问题。其意义在于从微观的角度研究区域问题,也可以将个体的活动和移动上升到宏观层面来研究;(2)缓解中小城市的技术和数字鸿沟。全覆盖的城市模型,可以兼顾大中小城市。

BCL的大模型实践

在阐述了大模型概念与特征后,龙博士重点介绍了BCL的3个大模型实践,生动展示了大模型思想的应用。三个实践分别是:(1)利用OpenStreetMap(OSM)和Points of Interest(POI)自动识别和描述地块(parcel)(对应模型的英文简写AICP);(2)运用AICP方法,在地块尺度模拟全国所有城市的扩张过程(对应模型的英文简写MVP-CA);(3)乡镇和街道尺度的中国人口密度时空演变:2000-2010。这三篇文章的工作论文稿在BCL的网站上均有下载。以下仅根据笔者作为技术菜鸟去听讲座的理解简要介绍。

(1)利用OSM和POI自动识别和描述地块(parcel

研究的尺度(scale)一直是城市研究或地理研究中的重要问题,该研究关注城市研究的地块尺度,即parcel。简单理解,地块是被城市道路切割出来的城市用地,由于各城市或城市不同地区路网密度不同,会切割出规模各异的地块。地块作为分析城市问题的基本单元,一可以对应城市总规或控规中对城市用地功能分析的基本单位,二是直接由邻近道路切割出来,处于城市居民可以理解和感知的范围以内。然而,各城市现有的地块数据并不理想,一些中小城市甚至缺乏电子化的地块数据。而且数据资源大多掌握在政府手中,由于保密性质,并不向研究人员开放。传统的地块数据获取,大都依靠遥感影像识别和现场调研获取,费时费力,不易更新,特别是对于快速变化中的城市和小城市来说,难以长期更新这些数据。因此,文章介绍了一种借助新出现的开放数据确定城市地块边界,并进行分类的方法。

两个主要数据源:免费开放的OSM数据和POI数据,OSM是开源的街道地图,POI是兴趣点,比如google地图上那些被大家标记的景点、医院,或者大众点评上被大家标记的餐厅、咖啡厅等。研究范围,全国654个城市中OSM数据条件较好的300多个城市。三个目标:一快速而稳健地划定地块边界,二从生成的地块中识别城市地块,三推测城市地块的功能、开发密度和混合使用程度。基本思路:提取OSM中的路网数据,根据路网宽度确定路网等级,根据路网等级设置缓冲区,得到由邻近的路网相互切割得到的地块;将POI数据与邻近地块相关联,根据提前设定的一些规则,识别城市地块与乡村地块;再根据POI的类型和数量特征,同样根据设定的规则,确定地块的主导功能、密度、混合使用程度等(详细说明请参照论文)。按照此方法,297个城市的8万多个地块的数据和特征被识别出来。作者进一步用北京地块识别数据与北京测绘数据进行比对,评估了该方法的效度和信度;也比对全国范围的遥感数据分析了该方法对各类城市地块识别的有效性。

(2)地块尺度模拟全国所有城市的扩张过程

第一个案例解决的是利用大模型对现状进行描述的问题,第二个则涉及到对增长的模拟和趋势预判。在识别地块的基础上,使用Maga-vector-parcels cellular automata model海量矢量地块元胞自动机(MVP-CA)的方法,模拟了全国654个城市的未来5年的建设用地增长过程。该方法包括三个模块:宏观模块、地块生成模块和矢量CA模块。一宏观模块梳理的是2007到2012年间城市建设用地扩张的过程和国家空间发展战略的几种情景,后者包括常规增长(business as usual)情景、城市群导向情景和新型城镇化情景,确定三种情景下各类城市的增长速度,为模型模拟做准备;二地块生成模块运用了第一个案例中介绍的地块识别方法,不同的是用各城市的测绘路网数据代替了OSM中提取出来的路网数据,结合POI数据来划定地块,得到的城市地块在准确度上更高;三矢量CA模块判断城市周边用地的开发可能性,模拟未来城市建设用地增长的情况。主要运用约束性CA,设定判断开发可能性高低的几条简单规则,如地块规模越小、越紧凑、距CBD距离越近、POI密度越高,地块被开发可能性越高。然后根据宏观模块中的三种增长情景,预测城市未来5年的用地增长情况。

结果出来后,研究团队又进行了模拟结果的评估工作。首先以北京为案例,对比了用这种矢量CA方法做出的常规增长预测,与传统的考虑很多因素在内的栅格CA方法预测的结果,发现二者预测出的城市扩张用地的重合率为68.4%。而且,研究团队采取了众包方法,来进行模型验证,将模拟结果放在CartoDB上(一个开源的空间数据可视化的平台),供公众评论。共收到新浪微博上来自12个城市的76条评论,大多数评论者表示“乐于看到自己城市的未来发展”,也有评论者指出了模型预测与实际发展规划不符的情况。龙博士说这种预测偏差主要是由于现有MVP-CA模型尚未考虑规划干预造成的,未来的研究会将规划干预的因素纳入进来。

该模型的应用有可能包括三方面:一是通过将宏观决策与地方发展相联结,评估国家空间发展战略;二是让决策制定者、开放商、规划师、地方居民能够了解地方发展的可能性;三是可以基于模拟出的结果评估空间扩展的影响。

(3)乡镇和街道尺度中国人口密度时空演变:2000-2010

第三个案例利用了乡镇和街道尺度的“五普”和“六普”人口资料,对2000-2010年的中国人口密度空间分布变化进行了分析,并总结了2000年以来我国城镇格局的演变特征。技术方法上,这个研究并没有较大突破。而主要是利用已有的理论研究对高密度城镇化地区、城市统计区和城镇化地区的界定,将2000以来各类地区的空间变化情况,可视化表达在地图上,可以直观地看出两个时间截面城市统计区、城镇化地区和高密度城镇化地区的空间扩展与收缩趋势。由于数据已经细化到了全国范围的乡镇和街道尺度,因此可以选择各种观察范围,如城市群地区、大都市地区、市域范围,直观地看出人口密度的变化。

(4)其他尚未发表/正在开展的相关研究

龙博士目前正在开展的大模型思想下的其他研究包括:地块尺度建成区的界定、全国街道PM2.5暴露评价、全国城市增长边界评价、全国地块尺度人口空间化与属性合成、居民生活质量评价、能源和环境影响的微观评价、城镇群发育质量评价、全国大多数城市都市区范围识别等。涉及到的数据有公交服务数据、签到数据、交通出行调查数据、能源数据等,将这些数据整合起来,与传统城市研究理论相结合,帮助人们更好地理解城市现象和城市问题,同时也为规划形成更有依据的决策支持。

柴彦威老师点评

龙博士演讲结束后,北京大学城市与区域规划系的教授柴彦威老师给予了精炼的概括和精彩的点评,他认为:“演讲中介绍的这些研究在数据、技术、应用方向、科学问题等方面做出了贡献,并针对具体的案例做出了前沿探索。研究提出的地块尺度,是一个新的城市研究的尺度;OSM数据和POI数据是两个全新的数据来源。介绍的案例基本上涉及了城市与区域研究的全周期:描述、解释、模拟、评估、策略选择、政策应用,应该说每一个阶段的研究都不容易,将各阶段整合起来更不容易。传统地理学擅长做描述和解释性的工作,但对后期的模拟、评估等都还远远不够,希望能够在新的机遇下得以推动。值得注意的两点,一是大模型思想下提出的全国尺度的城市研究,运用同一种方法研究到底,将有可能在此基础上挖掘出中国城市模式。另一点值得称赞的是研究团队开阔的胸怀,对数据和研究成果的开放共享精神,不仅为学术同行间的交流学习和进一步研究提供了便利,而且面向更广泛的公众参与,他们将有可能成为中国民主化进程的推动者。”

问题和讨论

提问环节,有来自中国电信的技术人员针对数据质量和数据获取技术的提问,也有来自高校学者对地块界定的科学性、地块识别的意义和城市产权地块比较的提问,也有关于数据开放后的隐私保护问题的探讨。提问非常踊跃,足以看出大家对大模型研究的认可与继续探讨的热情。

以下谈点我作为较多从事定性城市研究的技术外行的感想:曾经下载阅读过龙瀛博士分享的介绍大模型思想与案例的ppt,此次听讲座更进一步了解了大模型的核心思想与具体案例运用的方法思路。总体感受是,在海量数据和计算机技术的支持下,大模型运用的是比传统建模方法更简单的建模规则,但面对的是更大的空间尺度和更细的空间粒度。这将主要带来三个方面的贡献:(1)增进对宏观层面的认知,将所有城市置于同样的平台,可以从整体上把握全局的发展变化;(2)增进各类主体在微观层面获取城市发展信息的可能性,并提高他们参与城市发展探讨的意愿;(3)是演讲中没有涉及的,个人直观感觉会带来新突破的地方,即对城市内部地块之间的关联性和城市之间关联性的研究,或者称为“流空间的研究”,因为一体化的研究平台已经建立,各城市独立的数据也已经掌握,除了时空变化趋势的分析判断和模拟以外,利用这些数据对城市内部功能和城市间功能的进一步分析,将有可能揭示城市发展变化的内在机制,而大模型支持下的机制研究是很有可能发现解释力更强的城市理论的。

个人认为这些研究最体现创造力的地方不在于挖掘到的数据多少或是技术的先进程度,而是在于研究者看到了各种类型的数据与城市研究之间的联系,从各种渠道挖掘、处理和分析数据,为城市研究所用。这种发现关联的能力,是需要建立在了解技术可能性,也积累了足够的城市研究知识的基础上的。从这一点来看,可以回应我在现场的提问:在计算机、电子工程等专业的研究者凭借自身的信息获取能力和技术优势越来越多参与到城市研究领域时,城市规划或地理学专业的学生除了以更开放的心态开展与相关学科的合作以外,我们自身具备的优势和需要弥补的劣势是什么?答案可能就是,我们需要掌握传统的、经典的城市研究理论,在此基础上跟进和了解技术的可能性边界,学习基本的数据处理与定量分析方法,不断发现新的数据技术和城市研究可结合之处,并实际运用到城市分析和规划决策中,让规划学科向着更为科学的方向前进。不得不说,龙瀛博士和他发起的北京城市实验室(BCL)就是在这条路上做出了一次开创性的尝试。

扪心自问,学科交叉融合的时代已经到来,我们准备好了吗?

 

特别鸣谢龙瀛博士的学术成果分享与对本文的修正。

北京城市实验室网站:http://longy.jimdo.com/http://beijingcitylab.org

龙瀛博士讲座ppt下载:http://longy.jimdo.com/slides/

(文章版权归作者所有,转载请注明出处)

Social tagging: > >

2 Responses to 大模型城市研究进展 ——记龙瀛博士北大讲座

  1. Ran Chen says:

    我们学计算机的人要冲过来啦

  2. Very good article! We are linking to this particularly
    great content on our website. Keep up the good writing.

Leave a Reply