一个简单的百度爬虫

时间：2018-04-07 20:05:56 阅读：197 评论：0 收藏：0 [点我收藏+]

0x00

　　之前不知道python怎么爬取百度的内容，因为看到有很多参数，直接复制下来改变wd参数总是会出现各种奇怪的问题

　　昨晚经程师傅指点才知道原来很多参数并不是必要的。今天才搜了下百度的各个参数的意义，以前居然没想到去搜一下百度的参数，感觉自己真是太愚钝了

　　于是，今天写了个小小的百度爬虫

0x01

　　代码：

#!/usr/bin/python
# -*- coding:utf-8 -*-
# 昏鸦

import requests
import re
import sys

def get_baidu(s,page=5):
	pattern = "data-tools=‘{\"title\":\"(.*?)\",\"url\":\"(.*?)\""

	for p in xrange(0,page*10+1,10):
		req = "http://www.baidu.com/s?wd={}&pn={}&cl=3".format(s,p)
		res = requests.get(url=req).text
		reg = re.findall(pattern,res)

		for i in xrange(len(reg)):
			title = reg[i][0]
			url = requests.get(url=reg[i][1]).url
			print title+‘\n‘+url+‘\n\n‘

if __name__==‘__main__‘:
	get_baidu(sys.argv[1],int(sys.argv[2]))

　　结果：

技术分享图片

0x02

　　只爬取了百度出来的标题和URL链接，默认爬取前5页

一个简单的百度爬虫

标签：png bin 多参数 name 代码 info reg 今天 ima

原文地址：https://www.cnblogs.com/hun-ya/p/8734193.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行