码迷,mamicode.com
首页 > 编程语言 > 详细

人才网的一个抓取,初学python,希望哥哥姐姐们多指导,多批评

时间:2020-02-08 00:40:43      阅读:107      评论:0      收藏:0      [点我收藏+]

标签:ref   初学   soup   decode   title   ext   ide   --   data   

from bs4 import BeautifulSoup
import urllib
import urllib.request
import re
# import json

headers={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
url="http://www.lankao.ccoo.cn"
for x in range(1,10):
pageurl=url+"/post/zhaopin/pn"+str(x)+"/"
print(pageurl)
req=urllib.request.Request(pageurl,headers=headers)
data=urllib.request.urlopen(req).read().decode(‘gbk‘)

soup=BeautifulSoup(data,"lxml")
urllist=soup.select(‘li span a[class="title"]‘)

for x in urllist:
myurl=url+x.attrs["href"]
req2=urllib.request.Request(myurl,headers=headers)
data2=urllib.request.urlopen(req2).read().decode()

soup=BeautifulSoup(data2,"lxml")
name=soup.select(‘div div[class="zMain-titBox"] h2[class="tit"]‘)[0].get_text()
jbtextlist=soup.select(‘div[id="describe"] p‘)
price=soup.select(‘div div[id="baseInfo"] p‘)[0].get_text().replace(" ","")
time=soup.select(‘div div[class="infobox clearfix"] div[class="tabs1 fl"] span[class="tab"]‘)[0].get_text()
jbtext=""
for i in jbtextlist:
jbtext=jbtext+i.text
print("标题:"+name)
print(time)
print("工资:"+price)
print(jbtext)
print("---------------------------------")

人才网的一个抓取,初学python,希望哥哥姐姐们多指导,多批评

标签:ref   初学   soup   decode   title   ext   ide   --   data   

原文地址:https://www.cnblogs.com/lizhen2020/p/12274970.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!