2018-06-12

怎样成为知乎大V？爬取张佳玮138w+关注者：数据可视化

一、前言

作为简书上第一篇文章，先介绍下小背景，即为什么爬知乎第一大V张公子的138w+关注者信息？

其实之前也写过不少小爬虫，按照网上各种教程实例去练手，“不可避免”的爬过妹子图、爬过豆瓣Top250 电影等等；也基于自身的想法，在浙大 120 周年校庆前，听闻北美帝国大厦首次给大陆学校亮灯，于是爬取2016- 2017 年官网上每日的亮灯图并用python的PIL库做了几个小logo，算是一名吃瓜群众自发的庆贺行为。

北美帝国大厦亮灯图：ZJU120

也因为喜欢鲁迅的作品，爬过在线鲁迅全集的全部文章标题和链接；另外听说太祖的某卷书是****，于是顺带也爬了遍毛选；还帮老同学在某票据网站下线前爬了大部分机构、人员信息，说是蛮值钱，然而也还在留着落灰......

微博签到数据点亮中国

再是知道百度Echarts开源的可视化网站里面的图很酷炫，比如使我着迷的：微博签到数据点亮中国，http://echarts.baidu.com/demo.html#scatter-weibo 公司企业品牌网站建设于是想着可以爬取微博大明星、小鲜肉的粉丝的居住地，然后搞搞怎么画出全国乃至全球分布情况。但发现几年前微博就限制只能查看 200 左右粉丝数（具体忘了），蛮扫兴的，于是将目光转向了知乎......

而既然要爬，那就爬关注人数最多的张公子吧，数据量也大，这方面是之前小项目所不及的，此前也看过不少爬知乎数据与分析的文章，因佳木斯网站建设公司此也想练练手，看看大量访问与获取数据时会不会遇到什么封IP的反爬措施，以及数据可视化能搞成什么样。

不过此文在爬虫部分不做过多展开，看情况后续再另写一文。

思路如下：抓包获取张佳玮主页关注者api，然后改变网址中offset参数为 20 营销型小程序案例的倍数，一直翻页直到获取138w+关注者信息，其中返回的json数据主要有：关注者的昵称、主页id（即url_token）、性别、签名、被关注人数等，也就是说需要访问所有主页id，才能获取更多信息（个人主页api：以黄继新为例）：居住地、所在行业、职业经历、教育经历、获赞数、感谢数、收藏数等等。鉴于还不怎么会多进程爬取，如果把所有id再爬一遍会非常耗时间，于是筛选被关注数100+的id，发现只剩了4.1w+，之后较完整提取了这部分的信息，后续可视化也多基于此。

爬取信息一览

南京牧狼文化传媒有限公司简介：

牧狼传媒，牧者之心，狼者之性，以牧之谦卑宽容之心待人，以狼之团结无畏之性做事！

　　公司注册资金100万，主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务，致力于为客户提供更有价值的服务,创造让用户满意的效果！

　　为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过，服务经验丰富！同时，公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位，可以为您提供更好的服务！

　　主营项目：众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等

　　合作客户：百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯

　　资质荣誉：百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。

最佳图片服务商-百度商业服务市场.jpg

牧者之心狼者之性

牧狼传媒

怎样成为知乎大V？爬取张佳玮138w+关注者：数据可视化

免费获取方案及报价

牧者之心 狼者之性

牧狼传媒

怎样成为知乎大V？爬取张佳玮138w+关注者：数据可视化

免费获取方案及报价

牧者之心狼者之性