码迷,mamicode.com
首页 > 其他好文 > 详细

内容采集

时间:2016-10-09 14:22:31      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:

爬虫:用于搜索,但搜索的内容还在原来的网站上,主动,智能

采集:把别的网站的内容,放到自己网站上

 

 

网站首页相当于入口,入口下有很多一级分类,和首页是上下级的关系。分类是有层级关系的

网站的内容架构:

 技术分享

先确定抓取范围:先分析网站内容结构;eg:抓全栈的数据--那就以网站首页作为入口

网站内容架构:首页下是一级分类,一级分类下是二级分类

内容抓取流程:

技术分享

入口是个列表页,

用java程序解析,先得拿到页面的html代码

想要抓取数据,得先分析url有何规律

关于提取:HTML解析类库:jsoup和jodd

1,jsoup

前提条件:没有任何第三方类库来自动帮助我来做这件事,用纯java系统类库来做?

 

内容采集

标签:

原文地址:http://www.cnblogs.com/Angelinas/p/5615102.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!