标签:
分析页面数据,设计数据表结构
数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签,数据样例如下:
由于一开只打算爬问题标题,问题ID、问题详情也没有记录下来,最后谁回答过也不算很重要。
最后使用python的urllib2抓取数据,BeautifulSoup对数据进行数据解析,mysql存取数据
写好代码就开始跑,由于页面没有限制,几分钟就全部抓完,或许是问题比较少,2011至今总有3.8W问题,这个还是有点失望的。
数据只有那么几项,到底能分析出什么呢?
Excel作图,下表为数据说明:
变量 | answers | views | question_count | solved | votes |
含义 | 回答数 | 浏览量 | 问题数量 | 解决 | 投票量 |
不出意外的正太分布,似乎程序猿并不喜欢对问题进行投票,除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。
从上图看以看出,回答数量集中在0-3个;而0-3个占总量的70%+。
比较神奇的是0-1000浏览量的问题数非常少,问题的排列使用的是:提问时间+最后有人回答过(贴吧式),这样做,只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到;而有少数问题质量比较差,马上就会沉下去,如图中X轴200左右处。比较好奇的是:从整体上看,0-1000内浏览量的问题数相当少,1000左右处出现一个陡坡。
首先需要说明的是上图X轴每个点样例数不一样(不同回答数的问题数量不一样),Y轴为平均views数;从图中看出回答数量和浏览量整体是成正比((X>5的样例比较少)
最后使用jieba分词对问题进行简单的分析,上面标签云为部分英文单词,并不区分大小。发现一个结论是 英文中PHP词频排第一。 额,好吧,我叶良辰也是服了。
根据已有的数据,还可以挖掘一些数据,诸如:
什么样的问题容易有更多人回答?
你编程入门时候学的语言是什么? 求助大神帮忙推荐一款适合前端小白的编辑器? 【官方比赛】社区 1111 秀代码,让你来秀让你飞! 大家第一个阅读的开源代码是什么? 你最喜欢的开发工具是什么? 求推荐PHP框架,本人有一定PHP基础。 理解能力差、数学很差的人可以做程序员吗 百度面试题-汽水选择问题 说说你觉得最狂霸酷炫屌炸天的命令 程序员高强度编程后如何放松?
什么的问题容易被人厌恶?
如何根据一段 md5 得到原始的内容? 已关闭 使用贵公司的CDN服务,源网站需要改造吗? 已关闭 html5为什么不兼容低版本的浏览器? 对正则一直不想去背,请问php的@某人该怎么写 已关闭 基于0和1的时代什么时候能成为过去 已关闭 一家互联网公司的面试题,期待高手给出较据参考价值的分析 JavaScript 入门哪本书最好? jQuery 怎么发送异步请求 谁能在50字以内解释下什么是大数据??谢谢 钩子的实现 html经常使用那些标签 有没有山东烟台可以做网站的小伙伴,求一起做个东西。 已关闭 PHP表单提交到数据库并查询 插入出错, 各位大牛,新手遇到个问题怎么解决啊
等等,不过还是想再吐槽一次,问题总数量实在太少了。
最后的最后,提一下我发现的一个BUG,就有几个问题的回答数量为0,但问题已经解决,我试点开某个BUG问题看看情况,结果如下:
逗我玩呢?!
标签:
原文地址:http://my.oschina.net/toil/blog/521507