标签:style blog http color os 数据
通过强过滤之后的用户数目283178个,微博数目431726条:
1,原始数据
1 240085 1 240085 5.380365027 2 28475 2 28475 4.454463733 3 4279 3 4279 3.631342286 4 2748 4 2748 3.439016728 5 1461 5 1461 3.164650216 6 364 6 364 2.561101384 7 174 7 174 2.240549248 8 123 8 123 2.089905111 9 73 9 73 1.86332286 10 40 10 40 1.602059991 11 38 11 38 1.579783597 12 18 12 18 1.255272505 14 17 13 17 1.230448921 15 15 14 15 1.176091259 13 10 15 10 1 20 8 16 8 0.903089987 16 8 17 8 0.903089987 17 6 18 6 0.77815125 37 5 19 5 0.698970004 19 5 20 5 0.698970004 18 5 21 5 0.698970004 26 3 22 3 0.477121255 23 3 23 3 0.477121255 30 2 24 2 0.301029996 24 2 25 2 0.301029996 22 2 26 2 0.301029996 21 2 29 2 0.301029996 43 1 30 1 0 42 1 33 1 0 38 1 35 1 0 35 1 37 1 0 33 1 38 1 0 29 1 42 1 0 25 1 43 1 0 第一列和第二列是原始数据 第四列和第五列是更正排序之后的数据() 第一列用户活跃度 第二列该活跃度下的用户数 第三列更正之后的用户活跃度 第四列为错误的用户活跃的数目 第五列是对第四列求导数
最终得到的用户活跃度图形是
这张图中横坐标是用户活跃度(用户评价的节目数量),纵坐标是该活跃的的用户数目进行求导
用户活跃度的双对数曲线如下:
除了开始部分,其它倒是符合双对数的时候为一条直线的情况
和预期有差别的原因
1)商品数据(这里是节目数据)太少,用户活跃度<46
2)超过90%的用户都是只发一条微博
关于用户的流行度,处理之后的原始数据
套马杆 11446 天耀中华 9210 想你的365天 8656 在那遥远的地方 7922 野蜂飞舞 6374 同光十三绝 5133 符号中国 4979 答案 4554 扰民 4368 我的要求不算高 4184 老阿姨 3786 万泉河水 3733 剑心书韵 3559 说你什么好 2605 英雄赞歌 2301 空空拜年 2284 康定情歌 2135 魔幻三兄弟 2081 梦蝶 2051 人到礼到 2031 青春舞曲 2018 小马欢腾 1997 站在高岗上 1770 团圆饭 1481 最好的夜晚 1390 英雄组歌 1377 我就这么个人 1070 张灯结彩 932 百花争妍 774 光荣与梦想 728 年味儿 594 欢歌 501 练兵舞 468 天下黄河九十九道弯 387 我的中国梦 148 舌尖上的春晚 53
标签:style blog http color os 数据
原文地址:http://www.cnblogs.com/bobodeboke/p/3841697.html