标签:
一. 使用的开源库
爬虫:https://github.com/code4craft/webmagic.git
分词:https://github.com/ysc/word.git
本项目:https://github.com/umbrellary/beatles.git
二. 操作过程
1 git clone https://github.com/umbrellary/beatles.git 2 cd beatles 3 make
1 cd build 2 java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar getweb
1 http://pi‘ipaddress:8082 2 JDBC URL:jdbc:h2:./beatles-h2 3 username:sa 4 password:sa
java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar word 1 47000 1 47000 分别代表保存在数据库中的文章行的id,可自己自定义要计算的范围
树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计
标签:
原文地址:http://www.cnblogs.com/umbrellary/p/5451423.html