标签:
进度:
我们完成了第一部分内容,即数据爬取和自然语言初步处理
下周计划:
完善情感词库,进一步情感分析
开始写工程的WEB界面
爬取的数据都来自东方财富网的股吧,包括标题,内容,作者,时间,以及评论等等,爬取的数目条数有几百万条,部分数据展示如下:
部分函数如下:
将爬取的数据存入mongodb中再进行情感分析和自然语言处理,将处理后的结果通过WEB界面展示。
第四五周(3.28-4.10)进度及下周计划(4.10组会总结)
标签:
原文地址:http://www.cnblogs.com/SWERUC-sunny/p/5472419.html