码迷,mamicode.com
首页 > 编程语言 > 详细

浅谈爬虫 《一》 ===python

时间:2018-07-31 23:37:35      阅读:223      评论:0      收藏:0      [点我收藏+]

标签:python3   导入   5.0   傻傻   简介   浅谈   pytho   并且   --   

浅谈爬虫 《一》 ===python

?‘’正文之前先啰嗦一下,准确来说,在下还只是一个刚入门IT世界的菜鸟,工作近两年了,之前做前端的时候就想写博客来着,现在都转做python了,如果还不开始写点什么,估计时间都不会原谅这么懒散的我了……

闲话到此,下面说正事儿——首先来个爬虫简介

??咋一听挺神秘的样子,简单来讲爬虫就是从网络获取资源,比如你想知道淘宝上的女装什么颜色的销量好,或者哪一款零食比较有赚头儿…… ??在说现在流行的人工智能,其实所谓的人工智能也就是足够的数据支撑,以及数据标记等等,使机器可以对足够多的场景作出反应……以上纯属个人观点,如有不对请指正

这次是真的讲正题了,爬虫分类,爬虫原理,以及python代码简单实现

比较同用的说法:爬虫分两类

总的来说都是网络爬虫

????我们这里主要谈论的是聚焦爬虫:

爬虫简单来讲分三步:

  1. 发起请求
  2. 得到反馈
  3. 处理数据

由于python2已经快要停止更新了(大概2020年停止), 所以我们这里直接谈论python3的方法

# 导入需要的工具包
from urllib.request import Request,urlopen
# 发起请求(以请求百度为例)
request = Request(‘http://www.baidu.com‘)
# 得到反馈
response = urlopen(request)
# 获取数据流
data = response.read()
# 数据打印并且转码为 UTF-8
print(data.decode("utf-8"))
打印结果(简略)
<!DOCTYPE html>
<!--STATUS OK-->
<html>
<head>
 …………
<title>百度一下,你就知道</title>
…………

俗话说越是简单的越南学习,在爬虫这里就体现出来了, 上面的代码看起来简单,理解起来也没难度,但是不实用,只要网站稍做防范(反爬虫),就只能傻傻发呆了……,如果您打算从事爬虫工作那么发爬虫将是您工作生涯的中心!

下面介绍一个简单的反爬虫的例子:

from urllib.request import Request,urlopen
# 请求头信息,伪装成浏览器访问
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

request = Request("http://note.youdao.com/iyoudao/?p=2411",headers=ua_header)
#urlopen()函数,url是必须要传入的,data如果传入就是POST请求,如果不传就是GETT请求
response = urlopen(request)

#到服务器返回的数据,读取里面的全部内容
response_data = response.read()
#打印返回的数据
print(response_data.decode("utf-8"))

只在请求头(ua_header)里面添加(User-Agent)只是最简单的伪装反爬,更多的反爬虫的方式包括但不限于cookie,session,代理等等。反爬方式有待探究,下次讨论简单代理以及爬虫的其他库

 


浅谈爬虫 《一》 ===python

标签:python3   导入   5.0   傻傻   简介   浅谈   pytho   并且   --   

原文地址:https://www.cnblogs.com/LoongitArt/p/9398466.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!