码迷,mamicode.com
首页 > 其他好文 > 详细

前程无忧——数据分析岗位爬取

时间:2019-11-11 21:18:59      阅读:733      评论:0      收藏:0      [点我收藏+]

标签:title   职位   release   cursor   var   stat   reg   class   request   

本文主要是介绍从前程无忧上爬取岗位为数据分析的职位,主要是五个字段,职位名称、公司名称、工作地点、薪资和发布时间。同时把爬取下来的数据保存到mysql数据库中。

 1 import requests
 2 import pymysql
 3 import re
 4 
 5 
 6 # 连接数据库并创建数据表
 7 db = pymysql.connect(localhost, root, ‘password, lookforjob)
 8 cursor = db.cursor()
 9 cursor.execute(drop table if exists DataAnalyst)
10 sql = """
11 create table DataAnalyst
12 (
13 PositionName VARCHAR(40),               #职位名称
14 CompanyName VARCHAR(40),                #公司名称
15 WorkingPlace VARCHAR(40),               #工作地点
16 Salary VARCHAR(40),                     #薪资
17 ReleaseTime VARCHAR(40)                 #发布时间
18 )
19 """
20 
21 cursor.execute(sql)
22 
23 def getHTMLText(page):
24     url = "https://search.51job.com/list/080200,000000,0000,00,9,99," 25           "%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2," + str(page) + .html
26     try:
27         r = requests.get(url, timeout=30)
28         r.raise_for_status()
29         r.encoding = r.apparent_encoding
30         html = r.text
31         return html
32     except:
33         return ""
34 
35 
36 def get(html):
37     reg = re.compile(
38         rclass="t1 ">.*?<a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(r.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(r.*?)</span>,
39         re.S)
40     items = re.findall(reg, html)
41 
42     sql = """
43         INSERT INTO lookforjob.dataanalyst values(%s,%s,%s,%s,%s)
44     """
45     for i in range(len(items)):
46         cursor.execute(sql, items[i])
47         print(items[i])
48         db.commit()
49 
50 
51 if __name__ == "__main__":
52     for each in range(1, 7):
53         get(getHTMLText(each))
54     cursor.close()

前程无忧——数据分析岗位爬取

标签:title   职位   release   cursor   var   stat   reg   class   request   

原文地址:https://www.cnblogs.com/lsyb-python/p/11838393.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!