码迷,mamicode.com
首页 > 编程语言 > 详细

bs4 python解析html

时间:2016-04-24 12:25:53      阅读:741      评论:0      收藏:0      [点我收藏+]

标签:

使用文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

python的编码问题比较恶心。

decode解码
encode编码


在文件头设置
# -*- coding: utf-8 -*-
让python使用utf8.




# -*- coding: utf-8 -*-
__author__ = ‘Administrator‘

from bs4 import BeautifulSoup
import requests
import os
import sys
import io

def getHtml(url):
    r = requests.get(url)
    content = r.content.decode(‘utf8‘)
    #print(content)
    soup = BeautifulSoup(content)
    print(soup.find_all(‘h2‘))
    print(soup.find_all(‘p‘))

if __name__=="__main__":

    print(sys.getdefaultencoding())
    print("start.......")
    url = "http://www.jiakaobaodian.com/mnks/exercise/0-c1-kemu1-chengdu.html?id=800000"
    getHtml(url)
    print("end.......")

  Demo

bs4 python解析html

标签:

原文地址:http://www.cnblogs.com/MyNameIsMT/p/5426664.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!