python 爬虫

时间：2018-06-16 22:34:22 阅读：205 评论：0 收藏：0 [点我收藏+]

标签：主机名编码格式输入 www. .com charset http 目录字符串

一、爬虫定义

    网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就        
    是URL。
            我们输入的url由三部分组成： 
         (1)protocol：第一部分就是协议，例如百度使用的就是https协议；

         (2)hostname[:port]：第二部分就是主机名(还有端口号为可选参数)，一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址;

         (3)path：第三部分就是主机资源的具体地址，如目录和文件名等。

         网络爬虫就是根据这个URL来获取网页信息的。

二、步骤

（1）获取HTML页面，注意获取的HTML编码格式。我在其中install了 chardet,用于获取要解析页面的编码格式。

response = request.urlopen("http://xxxxx")
    html = response.read()
    chardet = chardet.detect(html)
    print(charset)
    html = html.decode("utf-8")

（2）解析html。
使用BeautifulSoup：构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。
”html.parser” 是Python内置的解析器

soup = BeautifulSoup(html,"html.parser")
    print(soup.title.string )
    print(soup.p.string)

python 爬虫

标签：主机名编码格式输入 www. .com charset http 目录字符串

原文地址：https://www.cnblogs.com/gloria-liu/p/9191460.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行