格网化的位置微博数据抓取与人群信息提取

测绘科学2020-07-31 11:40:34

点击上方「测绘科学关注

摘 要

空间位置信息通常代表了设备使用人群的地理空间活动特征,客观体现人群活动的时空分布。针对现有的微博数据抓取方法由于普通用户的访问限制易导致采集的目标数据缺失的问题,该文提出了一种目标区域空间划分策略。在数据抓取之前对目标区域实行格网化,进而实现数据的同时抓取。通过统计分析基于网格单元抓取的位置微博数据,从中提取出人群活动信息,结合位置微博数据所在的兴趣点类型,统计分析了位置微博用户的时空分布和活动特征。这种方法缩小了采集区域,可实现并行高效的位置微博抓取,并保证了采集范围的重叠,最大程度地保证采集数据的完整性。

引用格式

雷程程,张岸,齐清文,等.格网化的位置微博数据抓取与人群信息提取[J].测绘科学,2017,42(2):187-191.

正文

近年来随着社交网络、电子商务和移动互联网的发展,互联网用户的数量急剧攀升,人们可以随时随地利用社交网络进行沟通,大数据概念也开始逐步进入人们的视野,而由互联网产生的大数据则成为人们关注的热点。人人都是传感器,用户产生的内容数据(user generated content,UGC)数据就是互联网大数据中的一种。这些数据中不乏空间位置信息,基于位置服务(location based services,LBS)就成为互联网发展下衍生出的一个热点服务。随着全球移动通信系统(global system for mobile communications,GSM)、全球定位系统、社会化网络(social network service,SNS)和无线宽带热点等技术的进步和广泛应用,使得大规模、高质量的个体时空数据获取正成为可能。新浪微博作为国内的一款为大众提供娱乐休闲、生活服务的信息分享和交流平台,以其门槛低、实时性、原创性、互动性、弱关系、强扩散等特点很快在国内社交媒体中取得优势。新浪微博用户众多,使得微博信息的传播速度也越来越快,数据在如此快速的传播中变得越来越多,形成海量数据。新浪微博每日活跃用户数超过5 000万人,是规模巨大的数据产生源;相对于手机信令、浮动车、微信等其他UGC数据而言,微博数据可以在互联网上被免费、公开地获取。新浪微博中有大量含有空间位置信息的位置微博,一条位置微博包括了用户的账号、经纬度坐标、微博内容、关注热点等;这样的空间位置信息通常代表了设备使用人群的地理空间活动特征,能够实时地反应用户的位置信息,从而通过用户在空间上的地理位置分布和在时间上的地理位置变化,客观地体现人群活动的时空分布。

UGC数据已经得到广泛应用。文献[5]提出城市中产生的大数据可以成为各个时间层的信息来源,大数据的增长将重点突显从长期城市规划战略到短期考虑如何管理城市以及城市功能性的转变。文献[6-7]将公交卡刷卡数据结合城市居民的出行调查、地块级别的土地利用图,可识别公交持卡人的居住地、就业地和通勤出行,分析城市功能区划分以及交通流方向。文献[8]提出一种基于社交网络众源位置签到数据的城市热点探测与商圈挖掘方法,针对大数据量、离散的位置签到数据在存储和聚类分析效率方面的问题,提出基于离散点栅格化的签到数据预处理模型;对未知签到数据进行了空间自相关检验,表明其具有显著的空间聚类特征。基于位置签到数据的探索性空间分析热点聚类方法,是基于选区商业因素进行地理分布度量,以获取商圈信息。网格地图原是一种比较简单的地图类型,将制图区域按平面坐标或按地球经纬线划分网格,以网格为单元, 描述或表达其中的属性分类、统计分级以及变化参数和虚拟现实, 即在二维空间上表达动态时空变化的规律。网格单元通常被用于人口统计分析中。为了更高效地应对社会高风险需要获取精准的人口时空动态分布信息,文献[10]对深圳市人口分布的细网格动态特征进行了初步的分析。本文通过建立网格单元,抓取新浪位置微博数据并进行分析,从中提取出用户的地理位置与时间,结合位置微博数据所在的兴趣点(interest point query,POI)类型,以统计分析不同用地类型上位置微博用户的时空分布和活动特征。

微博开放平台(Weibo open platform)是基于微博海量用户和强大的传播能力,接入第三方合作伙伴服务,向用户提供丰富应用和完善服务的开放平台。将用户的服务接入微博平台,有助于推广产品,增加网站或应用的流量,拓展新用户,获得收益。新浪微博的API接口可以简洁并高效地获取相应的数据。新浪微博API可根据请求内容的不同,返回特定的可扩展标记语言(extensible markup language,XML)或JavaScript 对象标记(JavaScript object notation,JSON)文件。XML是一种跨平台的强结构性扩展标记语言,JSON是一种轻量级的数据交换格式。通过XML文件,用户可以直观地找出相应的信息,并准确理解信息中的内容;但是微博中的各类用户信息都包含了用户的一些个性化表达格式,并且JSON文件与XML文件相比更小,更适合作为海量数据的文件传输形式,因此通常情况下会采取JSON返回方式抓取位置微博数据。

网络爬虫(又被称为网页蜘蛛、网络机器人)是一种按照一定的规则,自动的抓取信息的程序或者,其已被广泛应用于互联网领域。使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,不断优化的网络爬虫技术正在有效地应对各种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑。目前针对网页数据采集的软件非常多,例如火车头采集器(LocoySpider),该软件的数据抓取原则取决于用户自定义的采集规则,即根据用户的采集规则,对下载到的网页进行分析,将符合规则的信息分离开并保存到本地文件中。

目前使用最多的微博数据抓取方法都是将微博API与网页爬虫技术相结合。文献[11]提出基于API的分布式抓取技术可以结合时间触发和内存库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了效率。文献[12]提出了一种基于随机抽样一致性(random sample consensus,RANSAC)算法的位置签到数据集地理配准方法,实现了位置签到数据集与已有地理数据库的可靠配准,并对数据进行了有效性验证,更新了整体数据库。文献[13]通过结合新浪微博API与网络爬虫页面解析的数据抓取方法,实现了多线程地描述用户。文献[14]利用统计话题模型和稀疏编码技术提出一种稀疏产生式模型,以发现微博流中的地理位置话题。文献[15]通过分析新浪微博产生的海量数据,提出利用Hadoop云计算平台来实现微博数据的获取、处理及储存。

本文将新浪微博API与网页解析两种方式相结合,提取位置微博数据;同时在数据提取过程中,通过对数据区域的格网化实现数据采集,提高了采集效率。经过实验证实,前期的数据预处理及数据采集方法均是可行的,并且操作方便、灵活,采集的结果数据准确性好。另外,本文基于位置微博数量统计分析了不同类型格网单元的人群活动特征。目前还存在以下两方面的问题:①该方法适用于小范围微博位置数据的采集,需要人为操作和干预,如果应用于海量微博位置数据的采集,该方法还需要改进;②虽然位置微博数据量很大,但目前使用微博的用户并不能代表该地区所有的人口分布特征,如何从有限的样本推断总体人口分布的时空特征有待进一步研究。

2017年(第42卷)第2期

关于《测绘科学》

主管:国家测绘地理信息局

主办:中国测绘科学研究院

网站:http://chkd.cbpt.cnki.net

邮箱:niu@casm.ac.cn

QQ群:181897240(验证稿号+姓名)

编务QQ:2378225509

《测绘科学》微信公众号