码迷,mamicode.com
首页 >  
搜索关键字:BeautifulSoup    ( 1186个结果
python 爬虫学习笔记1
经过一段时间的学习,终于入了门先爬一个csdn 的blog练练手整体思路是首先判断某个blog有多少页然后根据页数 去获得相应的url再爬出每一页的title和对应的url这里使用了BeautifulSoup来解析页面#coding=utf-8import urllib2from bs4 impor...
分类:编程语言   时间:2015-08-17 19:02:09    阅读次数:146
转:Python网页解析:BeautifulSoup vs lxml.html
转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html,其中前者可能更知名一点吧,熊猫开始也是使用的BeautifulSo...
分类:编程语言   时间:2015-08-15 01:24:01    阅读次数:236
selenium抓取元素排除某个特定的class标签
排除某个因素,第一优选想到正则表达式,无奈折腾半天没有成功,感觉是selenium对元素的attrs按re search在操作,$对字符串末尾检测都没什么用。 BeautifulSoup可以用element[‘class’]输出元素的class进行检测,...
分类:其他好文   时间:2015-08-13 16:07:41    阅读次数:359
Python爬取CSDN专家博客系类——移动开发
文章分为两部分:爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下: 第一部分: {CSDN:CODE:891921} 第二部分: {CSDN:CODE:891923} 结果如下图:...
分类:移动开发   时间:2015-08-11 21:31:26    阅读次数:237
china-pub
#!/usr/bin/env python #coding:utf-8import urllib2,re,sys,os,types #from bs4 import BeautifulSoup reload(sys);sys.setdefaultencoding('gbk'); province=....
分类:其他好文   时间:2015-08-09 10:37:48    阅读次数:321
Python 简单爬虫抓取糗事百科
#coding:utf-8importtimeimportrandomimporturllib2frombs4importBeautifulSoup#引入beautifulsoup模块#p=1#定义页url=‘http://www.qiushibaike.com/text/page/‘#定义headermy_headers=[‘Mozilla/5.0(WindowsNT6.1;WOW64;rv:39.0)Gecko/20100101Firefox/39.0‘,‘Mozilla/4.0(com..
分类:编程语言   时间:2015-08-06 18:35:20    阅读次数:281
爬虫笔记(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4一.解析器概述 如同前几章笔记,当我们输入:soup=BeautifulSoup(response.body) 对网页进行析取时,并未规定解析器,此时使用的是python内部默认的解析器“html.p.....
分类:其他好文   时间:2015-08-06 07:06:42    阅读次数:361
练习3
简单小爬虫#!/usr/bin/envpython#coding:utf-8importurllib2importbs4url=‘http://www.163.com‘content=urllib2.urlopen(url).read()content=content.decode(‘gbk‘)soup=bs4.BeautifulSoup(content)links=soup.select(‘lia[href]‘)result=[]forlinkinlinks:href=link.attrs[‘hr..
分类:其他好文   时间:2015-08-04 23:15:28    阅读次数:230
BeautifulSoup 安装使用
BeautifulSoup 安装使用下载:http://www.crummy.com/software/BeautifulSoup/bs4/download/4.2/解压:tar -xzvfbeautifulsoup4-4.2.0.tar.gz安装:进入解压后的目录python setup.py b...
分类:其他好文   时间:2015-08-04 22:39:53    阅读次数:115
Python爬虫之模拟登录豆瓣获取最近看过的电影
众所周知,很多网站都设置了登录之后才能获取查看页面的权利,因此模拟登录成了爬取信息的第一步,这一步成功了,嘿嘿,just do it! 好,废话不多说,直接说重点: 首先,你应该要了解网站登录的流程以及你需要post的信息,以豆瓣为例: 这就是你需要提交的信息了,包括用户名和密码,以及验证码和验证码的ID,看到这可能有人会想我怎么知道验证码的ID,各位放心,在页面加载时就已经到客户端这边来了,也就是说你可以直接从浏览器中看到,是不是很炫酷! 第二步,需要了解一些requests这个库了,因为reque...
分类:编程语言   时间:2015-08-03 14:42:55    阅读次数:183
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!