码迷,mamicode.com
首页 > Web开发 > 详细

树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计

时间:2016-05-08 16:47:37      阅读:497      评论:0      收藏:0      [点我收藏+]

标签:

一. 使用的开源库

爬虫:https://github.com/code4craft/webmagic.git

分词:https://github.com/ysc/word.git

本项目:https://github.com/umbrellary/beatles.git

二. 操作过程

  • 进行编译
1 git clone https://github.com/umbrellary/beatles.git
2 cd beatles
3 make
  • 运行爬虫爬取文章
1 cd build
2 java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar getweb

技术分享

  • 进入H2数据库后台查看结果
1 http://piipaddress:8082 
2 JDBC URL:jdbc:h2:./beatles-h2 
3 username:sa 
4 password:sa

技术分享

技术分享

  • 进行分词操作
java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar word 1 47000

1 47000 分别代表保存在数据库中的文章行的id,可自己自定义要计算的范围

技术分享

技术分享

 

树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计

标签:

原文地址:http://www.cnblogs.com/umbrellary/p/5451423.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!