码迷,mamicode.com
首页 > 编程语言 > 详细

python简单的HTML解析

时间:2018-02-23 12:06:34      阅读:209      评论:0      收藏:0      [点我收藏+]

标签:新闻   int   dump   模块   ffd   utf-8   request   esc   div   

# coding:utf-8 # 引入相关模块 import json import requests from bs4 import BeautifulSoup url = "http://news.qq.com/" # 请求腾讯新闻的URL,获取其text文本 wbdata = requests.get(url).text # 对获取到的文本进行解析 soup = BeautifulSoup(wbdata,‘lxml‘) # 从解析文件中通过select选择器定位指定的元素,返回一个列表 news_titles = soup.select("div.text > em.f14 > a.linkto") #对返回的列表进行遍历 for n in news_titles: # 提取出标题和链接信息 title = n.get_text() link = n.get("href") data = { ‘标题‘:title, ‘链接‘:link } print json.dumps(data).decode("unicode-escape").replace(u‘\ufffd‘, u‘ ‘)

python简单的HTML解析

标签:新闻   int   dump   模块   ffd   utf-8   request   esc   div   

原文地址:http://blog.51cto.com/itafei/2072313

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!