码迷,mamicode.com
首页 > 其他好文 > 详细

新浪微博数据挖掘食谱之六: 元素篇 (提取微博元素)

时间:2015-01-02 11:04:00      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:数据挖掘

#!/usr/bin/python 
# -*- coding: utf-8 -*-

'''
Created on 2015-1-2
@author: beyondzhou
@name: extract_weibo_entities.py
'''

# Extract entities of sina weibo
def extract_weibo_entities():
    
    # import 
    from login import weibo_login
    from statuses import extract_weibo_entities
    import json
        
    # Access to sina api
    weibo_api = weibo_login()
    
    # Get public timeline
    public_timeline = weibo_api.statuses.public_timeline.get(count=200)

    # Output the public timeline
    # print json.dumps(public_timeline, indent=1)
    
    # Extract entities (status_texts,screen_names,reposts_count,comments_count,retweeted_status,words)
    status_texts,screen_names,reposts_count,comments_count,retweeted_status,words = extract_weibo_entities(public_timeline)
    
    '''
    print json.dumps(status_texts, indent=1, ensure_ascii=False)
    print json.dumps(screen_names, indent=1)
    print json.dumps(reposts_count, indent=1)
    print json.dumps(comments_count, indent=1)
    print json.dumps(retweeted_status, indent=1)
    print json.dumps(words, indent=1)
    '''
    
    entityDict = {'status_texts':status_texts, 
                  'screen_names':screen_names, 
                  'reposts_count':reposts_count, 
                  'comments_count':comments_count, 
                  'retweeted_status':retweeted_status, 
                  'words':words}
    
    for key in entityDict:
        print '\nInformation of %s' % key
        print json.dumps(entityDict[key], indent=1, ensure_ascii=False)
        
if __name__ == '__main__':
    extract_weibo_entities()

# Extract weibo entities
def extract_weibo_entities(statuses):
  
    # Extracting text, screen names, reposts_count, comments_count, retweeted_status from weibo
    status_texts = [status['text'] 
                    for status in statuses]

    screen_names = [status['user']['screen_name']
                    for status in statuses]
    
    reposts_count = [status['reposts_count'] 
                    for status in statuses]
    
    comments_count = [status['comments_count'] 
                    for status in statuses]
    
    retweeted_status = [status['retweeted_status'] 
                    for status in statuses if status.has_key('retweeted_status')]
    
    # Compute a collection of all words from all weibo
    words = [w
             for t in status_texts
                 for w in t.split()]

    return status_texts,screen_names,reposts_count,comments_count,retweeted_status,words

Result:

callback_url: https://api.weibo.com/oauth2/authorize?redirect_uri=http%3A//apps.weibo.com/guaguastd&response_type=code&client_id=2925245021
return_redirect_uri: http://weibo.com/login.php?url=http%3A%2F%2Fapps.weibo.com%2Fguaguastd%3Fcode%3D1a3b5b2e8c4458fe1f9a872cb41ed6cf
code: ['1a3b5b2e8c4458fe1f9a872cb41ed6cf']

Information of reposts_count
[
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0
]

Information of retweeted_status
[]

Information of status_texts
[
 "我刚给@郑容和89 赠送了1朵鲜花,获得了2爱慕值,感觉自己萌萌哒!饭圈的亲们,快来送花应援吧!http://t.cn/R7FzA9e", 
 "起来就被自己吓到………", 
 "搭配要点:白色T恤+千鸟格短裤+蓝色西装外套+黑色单位+黑色皮鞋+黑色软呢帽。", 
 "防城港!", 
 "发钱啦!@angelababy 正在发红包,总共117633元现金。手快有,手慢无! http://t.cn/Rzki6jW", 
 "发钱啦!@湖南卫视 正在发红包,总共600000元现金。手快有,手慢无! http://t.cn/RZU44L0", 
 "#微乐#定之荞 袋装荞麦精粉 1kg(价格:13.9元),我的生活我定制 ----来自微乐客户端 http://t.cn/RZbsHwi ", 
 "我忽然喜欢上这一个人的日子,虽说有点孤单,但过得惬意,我想做什么就做什么,喜欢吃什么就吃什么,自己怎么高兴怎么来[嘻嘻]", 
 "[闪电] 链接:http://t.cn/RzsnrZY", 
 "#Twings和Tasty一直在一起#心疼他们", 
 "#微乐#广济两路 板鸭 1500g/2只装(价格:67元)包邮 微笑生活,快乐分享http://t.cn/RZbsHAt ", 
 "#东方卫视跨年#新年我最幸运,2015我最红!元旦我在@angelababy 和@东方卫视番茄台 送出的红包中抽到了“1元现金”! 还在等什么,快来试试吧!http://t.cn/Rzki6jW", 
 "搭配示范:中袖白色数字棒球服+深蓝色高腰牛仔短裤+黑色板鞋+蓝色帆布包。亲,#开网店啦亲#【技术+货源+发货+售后】全程指导#轻松教你做网店#!你只需要一台电脑或手机就可以开启你的网店之旅 每天两个小时上网时间即可,上万种货源供你选择,有兴趣咨询QQ:603471295", 
 "今天我在#百词斩# 背了40个雅思核心单词。世上只有妈妈好?我妈逼我背单词。 你也来背单词吧 >>> http://t.cn/zYFwdTq #百词斩学霸认证#", 
 "#大神X7#一直很期待", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "被子里 好冷[生病]", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "【盛夏最易受诱惑出轨的星座男】第一名:射手座。盛夏来临,花心的射手们会寂寞难耐,对各路美女都没有抵抗力。第二名:天秤座。天秤男天生就不懂得拒绝其他人,应该说他们来者不拒,特别是美女。第三名:白羊座。白羊男喜欢接受挑战,尤其是那些特别难驯服的女人。", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "【郑秀文承认与许志安同居 尚未注册结婚】9月12日讯,郑秀文11日亮相某珠宝↓活动,被问是否已正式成为“许太”,郑秀文称两人已一起生活,彼此认定,所以只差“注册”这个法律程序。", 
 "克东 今天(1月2日)天气:晴,-22℃~-16℃,西风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT7OEhx", 
 "啊!!到底要我肿么样··· http://t.cn/RZbsHAQ", 
 "宝应 今天(1月2日)天气:晴转多云,-1℃~8℃,东风3-4级转≤3级,空气质量:优 (分享自@微心情) http://t.cn/zT700iw", 
 "分享自正义无敌  《购买城市楼房和农村住宅建设中的错误风水认识》 - 热爱风水的朋友们,大家好在观察了多年的城市楼房购买和农村住宅建设中我总结了人们在购买楼房和住宅建设中多数人形...  (来自 @头条博客) - http://t.cn/R7CH9LZ ", 
 "[手舞足蹈]【你适合跟谁在一起 】据说经过这个测试的情侣不会分手;你和她将是最完美的酸碱中和,永远在一起。大家都来验证一下吧!(详见下图)[啦啦][逗号]不要轻易的去放弃一个每天都是会去想念的人。这样的人,那么你一辈子也是不会再遇到几个的", 
 "吉林 今天(1月2日)天气:晴,-18℃~-11℃,微风≤3级转3-4级,空气质量:优 (分享自@微心情) http://t.cn/zT7NhKW", 
 "弥勒 今天(1月2日)天气:阴转多云,8℃~18℃,微风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT70Cdz", 
 "很多绝食减肥的人碰到了这种现象:没有减肥以前只是没有注意控制热量,却没有暴食现象。绝食一段时间以后对于食物的欲望明显增加,暴食的时候感觉特别爽,这是为什么呢?", 
 "天秤座 今日(1月2日)综合运势:★★★☆☆,幸运颜色:灰色,幸运数字:6,速配星座:魔羯座(分享自@微心情) 查看更多: http://t.cn/zRf0I5z", 
 "吼吼吼~嘿嘿嘿~嘻嘻嘻 http://t.cn/RZbsHZm", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "繁昌 今天(1月2日)天气:晴,-1℃~10℃,东风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT7OZuJ", 
 "我刚在实惠APP里抢到一份福利:E洗车上门洗车服务,幸运要和小伙伴们分享,你也快来试试吧!http://t.cn/RhHaqbx @实惠APP", 
 " 我们只不过是从上一辈人那里剪切过来了一个人生 然后不断地进行复制 粘贴 连刷新都没有 ", 
 "终于把DRIVE的进度追上了……不过对新出场的二骑完全五感,我的心已经彻底偏到反派那边去了,不知道为什么就是想看heart吃瘪,chase和brain却很招人疼的感觉_(:з」∠)_", 
 "安平 今天(1月2日)天气:晴转霾,-6℃~5℃,西南风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT70CJo", 
 "It's funny how day by day, nothing ch¹anges. But when you look back, everything is different. ~~~ 好笑的是,时间一天天过,好像什么也没改变,但当你回头看,每件事都变了。", 
 "http://t.cn/RzClUtJ", 
 "The best relationship is when you can completely act yourself and they can still love you for who you are.最好的恋情是,你可以彻底地做自己,并且你的另一半依然迷恋真实的你。", 
 "有时候,让别人在乎你的最好办法,就是不那么在乎他。", 
 "答应自己,强大起来,那样就没有什么事能扰乱你平静的心灵。把烦恼,对折,对折,再对折,最后浓缩成快乐;把快乐,扩大,扩大,再扩大,最后扩大成幸福源泉。把时光,对折,对折,再对折,瞬间幸福就来了;把祝福融化,融化,再融化,最后融化成人间佳话。【精选语录】", 
 "There’s no real love in you. Why do I keep loving you? 你没有真爱,我为何还要继续爱你?", 
 "#东方卫视跨年#元旦天上掉红包啦,我在@angelababy 和@东方卫视番茄台 共同送出的红包里抽到了“0.2元现金”!想和我一样么?速来抽元旦红包吧!http://t.cn/Rzki6jW", 
 " 万年企盼今日到,挣断红索启归航,这里有方向 http://t.cn/Rzds8bm ", 
 "我参与了@我是歌手 发起的投票【【#我是歌手#重要投票】新生代歌手你希望谁来踢馆?】,我投给了“#我是歌手#@庄心妍Ada”等2个选项。你也快来表态吧:http://t.cn/RZbUL9n", 
 "难得休息,可是刚刚连做梦,都梦见自己在下乡。[汗]", 
 "[挖鼻屎] 地 址 :http://t.cn/RZyz8lz", 
 "《秦时明月》破秦兵百万,做秦时霸王 http://t.cn/RZPg11y", 
 "[饞嘴][饞嘴]", 
 "我刚给@郑容和89 赠送了1朵鲜花,获得了2爱慕值,感觉自己萌萌哒!饭圈的亲们,快来送花应援吧!http://t.cn/R7FzA9e", 
 "有时候,最好的安慰,就是无言的陪伴。", 
 "韩国大蜗牛5件套盒 ?1完全蜗牛化妆水150ml ?2完全蜗牛乳液150ml ?3滋润型精华素50ml ?4完全蜗牛弹力面霜50g ?5滋润型眼霜50g 套盒内赠送四件套   ?1蜗牛化妆水30ml ?2蜗牛乳液30ml ?3蜗牛面霜12g ?4蜗牛眼霜12g http://t.cn/RZbsHvx", 
 " http://t.cn/z8Axv7y", 
 "好想捏一捏小时候的你[哈哈][爱你]", 
 "【小番茄也能美容护肤养颜】 小番茄中含有丰富的营养,有着美白、保湿的美容作用,它的酸性汁液可以帮皮肤平衡PH值,经常食用不仅可以防癌,还能使肌肤变得更加细滑娇嫩,还能拿来做面膜呢!", 
 "我在#一元义诊医起来#抢到1个健康红包,1元可向三甲名医健康咨询,为贫困儿童#爱加餐#,还能拿彩票撞大运!这等好事当然要见者有份,人品好就是这么任性~速戳http://t.cn/Rz3qPr4", 
 "#第1新闻#中国考虑修法限制企业大规模裁员 第1新闻客户端下载地址:http://t.cn/RZbsHhP", 
 "发钱啦!@陈学冬 正在发红包,总共210019元现金。手快有,手慢无! http://t.cn/RZLYvQw", 
 "发钱啦!@馬天宇 正在发红包,总共23391元现金。手快有,手慢无! http://t.cn/Rzk07CY", 
 "团队提前,自我退后,滴水融入大海,个人融入团队,服从总体安排,遵守纪律才能保证战斗力;不当团队的“短板”,多为别人考虑,让能力在团队中被放大。 http://t.cn/RZbsTF3", 
 "[冻结] 链 接 :http://t.cn/Rzsu5KW", 
 "我的手机流量不要钱你造吗?流量神器流量大爆炸,流量随便花!!新用户注册就送60M免费流量,快来试试吧!点击下载 http://t.cn/RZbsHvZ 输入我的邀请码67357965还有奖励哦~", 
 "【关节炎止痛法】用谷草烧成灰,,装入小袋中,哪痛往哪贴,每晚贴一小时,贴3次治愈。此方又简单。效果又好,对腰腿痛有明显好转。", 
 "我参与了@MusicRadio音乐之声 发起的投票【蒙牛酸酸乳中国TOP排行榜【内地榜】】,我投给了“@Mr_凡先生 《有一个地方》”这个选项。你也快来表态吧:http://t.cn/RZZlDaT", 
 "我想放手了,我快坚持不下去了,好累,好痛。", 
 "泽当 今天(1月2日)天气:多云,-2℃~13℃,微风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT7Nh8P", 
 "好事连连,心里甜甜~ http://t.cn/RZbsHZ2", 
 "传蕾哈娜注射漂白胸部 改口味傍白人男友", 
 "时间是往前走的,钟不可能倒著转,所以一切事只要过去,就再也不能回头。这世界上即使看来像回头的事,也都是面对著完成的。我们可以转身,但是不必回头,即使有一天,你发现自己走错了,你也应该转身,大步朝著对的方向去,而不是回头怨自己错了。记住!人生路,是不能回头的!——刘墉《谈悔恨》", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "玩红包锁屏昨天赚了0.79元,可以提现可以充值! http://t.cn/R7D63eS", 
 "今天我们介绍的这款洋葱切ǐ片固定器很有意思,象一把小叉子一样,当插住洋葱后,可以把到刀伸进叉子的缝隙中,这样就很容易切了。而且不光是洋葱,很多其它蔬菜和水果都可以用这个工具来切片很实用哦!", 
 "[奥特曼] 链接:http://t.cn/RZA1upy", 
 "多ì胞胎就是这样,不光长得像,睡姿还要一样。", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "高手就係可以變得快 better myself", 
 "记上一笔,hold住我的快乐! http://t.cn/RZbsH7w", 
 "#炸毛腹黑二三事#击鼓传花似乎是自古以来的聚众狂欢项目,传了一个又一个橘子,而腹黑是死的最惨的,嘴对着嘴喂橘子给小眼睛,嘴对着嘴喂云片糕给钢筋,还公主抱了学霸,而炸毛虽然死了很多次,也只是一些小惩罚,总之是很开心的", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "今日平淡无奇,我是上网呢上网呢还是上网呢!  http://t.cn/RZbsHhz", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "和平 今天(1月2日)天气:晴,4℃~18℃,微风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT70tq5", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "今天跨年沒有擠101,在國家音樂廳看了跨年音樂會《古勒之歌》還倒數,雖然座位都分散開沒法和小夥伴們一起相擁慶祝,後來又輾轉吃了熱炒和唱了ktv,早上一點不困一個人爬山的時候還看到水鷺[赞啊][玫瑰] 新年第一天小小心願就被滿足了,真是開心[好喜欢][得意地笑]", 
 "开始到现在,从来没后悔", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "养阴补血、润肺明目。", 
 "1G流量重现江湖,电信积分轻松兑换!登录流量大爆炸,进入享优惠-积分兑换流量享不停,登录积分页面即可兑换不同档次流量!下载地址http://t.cn/RZbsHvL", 
 "北京 今天(1月2日)天气:晴转多云,-4℃~7℃,微风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT7JgR4", 
 "开心进行中,感觉很轻松。 http://t.cn/RZbsHZS", 
 "那仁宝力格 今天(1月2日)天气:晴,-20℃~-8℃,西风4-5级,空气质量:优 (分享自@微心情) http://t.cn/zT70NTt", 
 "[鸭梨]【什么是你此生逃不开的“劫”呢?】 逃不开此劫,便为此生。人生中总有一些逃不过的人,逃不过的事。戳下图测试你的劫数是什么[怒骂][加油]有志不在年高,无志空活百岁。——[清]·石玉昆", 
 "【北国飘雪 明星赛诗】12月14日讯,北方多省降雪,李云迪 、曹颖等多位明星纷纷在腾讯微博上晒雪景,写下诗意文字。吴京更是“诗兴大发”,写下诗句:“知己新醅酒,红泥小壁炉。晚来天已雪,共饮一杯吴。”被网友大赞好文采,称其“文武双全”。", 
 "周宁 今天(1月2日)天气:晴转多云,0℃~10℃,微风≤3级,空气质量:轻度 (分享自@微心情) http://t.cn/zT7OtwK", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "《学活?》第二季-第15集:保仓同学 敏感过头了吧!", 
 "[亲亲] 链接:http://t.cn/RZy2yce", 
 "魔羯座 今日(1月2日)综合运势:★★★★★,幸运颜色:金色,幸运数字:5,速配星座:金牛座(分享自@微心情) 查看更多: http://t.cn/hBDFW", 
 "伤心难过的时候,找不到谁可以倾诉。只能躲被子里

新浪微博数据挖掘食谱之六: 元素篇 (提取微博元素)

标签:数据挖掘

原文地址:http://blog.csdn.net/guaguastd/article/details/42339649

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!