用python对github用户followers分析

栏目: Python · 发布时间: 6年前

内容简介:用python对github用户followers分析

如何分析一个github用户的followers?

周末手痒,用 python 分析了一下自己 githubfollowers 用户,统计结果如下

问题分析

在github上,一个用户的主页显示如下,主要对如下用户信息进行提取

  • 用户名称
  • 所在的位置
  • 用户仓库、stars、Followers、Following数量
  • 去年一年的贡献度
用python对github用户followers分析

我们需要对上图红框里面的数据进行提取,最直接的方法是使用 requests ,通过 BeautifulSouphtml 中的信息进行提取。

一些弯路

最开始没打算用爬虫的方式来获取用户信息,因为github有公开的 REST API v3 可以对指定用户的信息进行访问,并且已经有打包好的 PyGithub 方便调用。但是我实验下来有如下问题所以放弃使用 REST API v3

  1. API请求频率有限制,无法运用多线程快速获取批量的用户信息
  2. 不知道是不是小BUG,通过API无法获得用户去年一年的贡献度 contributions

工具

  • python 3 : 彻底告别我的py2
  • BeaufulSoup :从HTML或XML文件中提取数据
  • Requests : 请求网页
  • 多进程 : 为了更快
  • pyecharts : 美的令人窒息的绘图工具

操作步骤

  1. 获取目标用户如 https://github.com/wangshub?page=1&tab=followers 的所有followers;
  2. 改变 page 编号,遍历所有用户;
  3. 提取用户关键信息,保存成 csv 文件;
  4. 数据清洗,过滤;
  5. 利用 pyecharts 绘图;
  6. 进行地点词频统计;

实验结果

截止 2018-01-15 ,我的github账号一共有 1214 名follower,分析结果如下

用户地点分析

排除掉没有填写地点信息的用户,将中文转化成pinyin后,词云如下

用python对github用户followers分析

用户基本上都是来自 北京、上海、深圳 等地

去年一年用户贡献度分析

如果看用户是否活跃,肯定是看 contributions

用python对github用户followers分析

可以看出超过一般多的用户,去年的贡献度都在都在 1~50 之间,新的一年要加油啦。其中一年贡献最多的用户是 @dragon-yuan , 在2017年有整整 4,197 个贡献度,不多说了,前去关注一波。

用户followers分析

哇,有大牛,别拦着我,我要去点关注了

用python对github用户followers分析

用户仓库数量分析

通过爬取用户的仓库数量,进行统计如下

用python对github用户followers分析

可以看到一个有意思的现象,有少数的人仓库数量超过了 1000 ,打开这几位仁兄的github主页,大部分是fork的项目,其中仓库最多的用户有 13100个 仓库,叫 @ProgrammerAndHacker ,他是这么介绍自己的

I follow best programmer and hacker, 
Do you want to hacked by them? ^_^ 
Best programmers and hackers are here: 
...

用户stars分析

都说点击star是一个好习惯,

用python对github用户followers分析

不得不说,github上面还是有点赞狂魔的,这位老铁 @chenruibin 一共点击了 10100 个赞,真是好习惯~


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

阿里铁军

阿里铁军

宋金波、韩福东 / 中信出版集团 / 2017-7 / 58

【编辑推荐】 互联网地推天团,马云口中的中国电商“黄埔军校”,是如何铸造的? 超强执行力来自何处,价值观如何创造万亿价值?阿里铁军的团队建设、销售技巧、文化与价值观的创建与传播,深度剖析与分享。 阿里铁军,不仅走出过阿里巴巴集团的诸多高管,彭蕾、戴姗、蒋芳、孙彤宇、蔡崇信……,还走出过互联网江湖中的众多显赫人物,国内O2O战场,一度成为“铁军内战”:程维(滴滴打车创始人兼CEO)......一起来看看 《阿里铁军》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具