码迷,mamicode.com
首页 > 其他好文 > 详细

水木社区爬虫项目介绍

时间:2018-12-01 00:23:31      阅读:608      评论:0      收藏:0      [点我收藏+]

标签:过滤   lib   停用   方法定位   项目   介绍   top100   内容   定位   

1、 爬虫

1、 用urllib.request库请求一个url的内容。
2、 用 beautifulsoup解析request库请求得到的内容。
3、 在网页上右键-检查,阅读html代码,归纳出想爬到信息属于html树形结构的哪一部分。
4、 用beautifulsoup的next_element.next_sibling等方法定位到想要的文本。
5、 把beatuifulsoup对象中想要的部分写入文件中。

2、 分词

1、 把文件按时间手动切分成几个。
2、 用正则表达式过滤出中文。
3、 用jieba分词。
4、 记录词频。
5、 用停用词表去除停用词。
6、选出top100.

水木社区爬虫项目介绍

标签:过滤   lib   停用   方法定位   项目   介绍   top100   内容   定位   

原文地址:https://www.cnblogs.com/gaoyb348/p/10046822.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!