http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息

时间：2017-07-21 00:00:56 阅读：291 评论：0 收藏：0 [点我收藏+]

1通过分析搜索关键词对应的网址发现字段名和内容均在网址中网址可简化为www.baidu.com/s?wd=搜索的关键词

根据分析出的规律可通过构造get请求用爬虫实现在百度上自动查询某个关键词

代码如下：

import urllib.request   导入urllib.request
keywd = ‘高同同‘         指定关键词
keywd_cod = urllib.request.quote(keywd)将关键词进行编码
url = ‘https://www.baidu.com/s?wd=‘输入网址
url_all = url +keywd_cod构造出最终抓取网址
req =urllib.request.Request(url)使用urllib.request.Request构造一个Request对象并赋给变量req


data = urllib.request.urlopen(req).read()通过url.request.urlopen()打开对应的Request对象
fandle = open(‘D:/siq/part4/10.html‘,‘wb‘)
fandle.write(data)
将爬去的内容写到一个html文件中
fandle.close()结束



思路总结：
1构建对应的url地址，该url包含get请求的字段名称及字段内容等信息并且url地址满足get请求格式“http://网址？字段名1=字段内容1&字段名2=字段内容2”
2以对应的url为参数，构建request对象
3通过urlopen()打开构建的request对象
4读取内容并保存

http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息

标签：urllib pen 对象百度搜并且包含实现 com write

原文地址：http://www.cnblogs.com/gttpython/p/7214646.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行