码迷,mamicode.com
首页 > 编程语言 > 详细

java爬虫一(分析要爬取数据的网站)

时间:2017-09-07 14:50:43      阅读:185      评论:0      收藏:0      [点我收藏+]

标签:java爬虫

一、获取你想要抓取的网站地址:

http://www.zhaopin.com/

然后打开控制台,F12,打开。我用的是Chrome浏览器,跟个人更喜欢Chrome的控制台字体。

找到搜索栏对应的html标签:

技术分享


技术分享

http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%B7%B1%E5%9C%B3&kw=Java&sm=0&p=1

也可以直接在地址栏输入这个网址。和之前在输入职位框输入java,地区为深圳是一致的,在之前点击“搜工作”按钮也是这样跳转到这个页面的。

下面这一栏是搜索的结果条数,可能对于我们执行循环有帮助。

技术分享


技术分享


这是定位到某个页面的所有招聘信息的html的div块:

技术分享

那么具体到某一家公司的招聘信息:

技术分享

这就对应到这一家公司了:

技术分享但是我们需要的是具体的信息,于是我们展开刚才上面那个<table></table>的<tr></tr>:

所有的标签展开内容过长,我们分开来看:

技术分享

技术分享那么还有一个我们在网页上看见的:下拉箭头。打开下拉箭头就会看到详细信息,这里其实该页面的html已经包含了,只是默认隐藏而已。

技术分享对应的显示结果:

技术分享那么我想获取的是什么信息呢,我不会获取太多信息。这里我只想获取的是“岗位名称”、“经验”、“学历”、“薪水”等。如果需要获取岗位要求和公司地址的话,则必须点击进入该岗位下进行查看。

技术分享

技术分享

java爬虫一(分析要爬取数据的网站)

标签:java爬虫

原文地址:http://12176710.blog.51cto.com/12166710/1963337

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!