码迷,mamicode.com
首页 > Web开发 > 详细

就国内某个程序员问答网站的简单的分析

时间:2015-10-24 13:07:33      阅读:383      评论:0      收藏:0      [点我收藏+]

标签:


一、数据抓取

  • 分析页面数据,设计数据表结构

    数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签,数据样例如下:

    技术分享

  • 由于一开只打算爬问题标题,问题ID、问题详情也没有记录下来,最后谁回答过也不算很重要。

  • 最后使用python的urllib2抓取数据,BeautifulSoup对数据进行数据解析,mysql存取数据

  • 写好代码就开始跑,由于页面没有限制,几分钟就全部抓完,或许是问题比较少,2011至今总有3.8W问题,这个还是有点失望的。


二、数据分析

  数据只有那么几项,到底能分析出什么呢?

  Excel作图,下表为数据说明:

变量 answers views question_count solved votes
含义 回答数 浏览量 问题数量 解决 投票量

1.问题投票分布

技术分享

   不出意外的正太分布,似乎程序猿并不喜欢对问题进行投票,除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。

2.问题回答数量分布

技术分享

     从上图看以看出,回答数量集中在0-3个;而0-3个占总量的70%+。

3.问题浏览分布

技术分享

    比较神奇的是0-1000浏览量的问题数非常少,问题的排列使用的是:提问时间+最后有人回答过(贴吧式),这样做,只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到;而有少数问题质量比较差,马上就会沉下去,如图中X轴200左右处。比较好奇的是:从整体上看,0-1000内浏览量的问题数相当少,1000左右处出现一个陡坡。

4.回答数量与浏览数量关系

技术分享

    首先需要说明的是上图X轴每个点样例数不一样(不同回答数的问题数量不一样),Y轴为平均views数;从图中看出回答数量和浏览量整体是成正比(X>5的样例比较少

5.问题解决情况

技术分享

6.大家都在关注什么

技术分享

最后使用jieba分词对问题进行简单的分析,上面标签云为部分英文单词,并不区分大小。发现一个结论是??英文中PHP词频排第一。 ?? 额,好吧,我叶良辰也是服了。?


三、最后

根据已有的数据,还可以挖掘一些数据,诸如:

什么样的问题容易有更多人回答?

你编程入门时候学的语言是什么?
求助大神帮忙推荐一款适合前端小白的编辑器?
【官方比赛】社区 1111 秀代码,让你来秀让你飞!
大家第一个阅读的开源代码是什么?
你最喜欢的开发工具是什么?
求推荐PHP框架,本人有一定PHP基础。
理解能力差、数学很差的人可以做程序员吗
百度面试题-汽水选择问题
说说你觉得最狂霸酷炫屌炸天的命令
程序员高强度编程后如何放松?

什么的问题容易被人厌恶?

如何根据一段 md5 得到原始的内容? 已关闭
使用贵公司的CDN服务,源网站需要改造吗? 已关闭
html5为什么不兼容低版本的浏览器?
对正则一直不想去背,请问php的@某人该怎么写 已关闭
基于0和1的时代什么时候能成为过去 已关闭
一家互联网公司的面试题,期待高手给出较据参考价值的分析
JavaScript 入门哪本书最好?
jQuery 怎么发送异步请求
谁能在50字以内解释下什么是大数据??谢谢
钩子的实现
html经常使用那些标签
有没有山东烟台可以做网站的小伙伴,求一起做个东西。 已关闭
PHP表单提交到数据库并查询 插入出错,
各位大牛,新手遇到个问题怎么解决啊

等等,不过还是想再吐槽一次,问题总数量实在太少了。

最后的最后,提一下我发现的一个BUG,就有几个问题的回答数量为0,但问题已经解决,我试点开某个BUG问题看看情况,结果如下:

技术分享

逗我玩呢?!


就国内某个程序员问答网站的简单的分析

标签:

原文地址:http://my.oschina.net/toil/blog/521507

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!