搜索关键字：BeautifulSoup，搜索到1186个结果！码迷,mamicode.com！

python 爬虫学习笔记1

经过一段时间的学习，终于入了门先爬一个csdn 的blog练练手整体思路是首先判断某个blog有多少页然后根据页数去获得相应的url再爬出每一页的title和对应的url这里使用了BeautifulSoup来解析页面#coding=utf-8import urllib2from bs4 impor...

分类：编程语言时间：2015-08-17 19:02:09 阅读次数：146

转：Python网页解析：BeautifulSoup vs lxml.html

转自：http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html，其中前者可能更知名一点吧，熊猫开始也是使用的BeautifulSo...

分类：编程语言时间：2015-08-15 01:24:01 阅读次数：236

selenium抓取元素排除某个特定的class标签

排除某个因素，第一优选想到正则表达式，无奈折腾半天没有成功，感觉是selenium对元素的attrs按re search在操作，$对字符串末尾检测都没什么用。 BeautifulSoup可以用element[‘class’]输出元素的class进行检测，...

分类：其他好文时间：2015-08-13 16:07:41 阅读次数：359

Python爬取CSDN专家博客系类——移动开发

文章分为两部分：爬取移动开发专家的姓名和博客首页地址，爬取每个专家的所有博客存放在已该专家名字命名的txt文件中说明：本爬虫主要是采用BeautifulSoup和少量的正则匹配，在第一部分抓取完毕后需要将文件格式改为ANSI，代码如下：第一部分： {CSDN:CODE:891921} 第二部分： {CSDN:CODE:891923} 结果如下图：...

分类：移动开发时间：2015-08-11 21:31:26 阅读次数：237

china-pub

#!/usr/bin/env python #coding:utf-8import urllib2,re,sys,os,types #from bs4 import BeautifulSoup reload(sys);sys.setdefaultencoding('gbk'); province=....

分类：其他好文时间：2015-08-09 10:37:48 阅读次数：321

Python 简单爬虫抓取糗事百科

#coding:utf-8importtimeimportrandomimporturllib2frombs4importBeautifulSoup#引入beautifulsoup模块#p=1#定义页url=‘http://www.qiushibaike.com/text/page/‘#定义headermy_headers=[‘Mozilla/5.0(WindowsNT6.1;WOW64;rv:39.0)Gecko/20100101Firefox/39.0‘,‘Mozilla/4.0(com..

分类：编程语言时间：2015-08-06 18:35:20 阅读次数：281

爬虫笔记(四)------关于BeautifulSoup4解析器与编码

前言：本机环境配置：ubuntu 14.10,python 2.7,BeautifulSoup4一.解析器概述如同前几章笔记，当我们输入:soup=BeautifulSoup(response.body) 对网页进行析取时，并未规定解析器，此时使用的是python内部默认的解析器“html.p.....

分类：其他好文时间：2015-08-06 07:06:42 阅读次数：361

练习3

简单小爬虫#!/usr/bin/envpython#coding:utf-8importurllib2importbs4url=‘http://www.163.com‘content=urllib2.urlopen(url).read()content=content.decode(‘gbk‘)soup=bs4.BeautifulSoup(content)links=soup.select(‘lia[href]‘)result=[]forlinkinlinks:href=link.attrs[‘hr..

分类：其他好文时间：2015-08-04 23:15:28 阅读次数：230

BeautifulSoup 安装使用

BeautifulSoup 安装使用下载：http://www.crummy.com/software/BeautifulSoup/bs4/download/4.2/解压：tar -xzvfbeautifulsoup4-4.2.0.tar.gz安装：进入解压后的目录python setup.py b...

分类：其他好文时间：2015-08-04 22:39:53 阅读次数：115

Python爬虫之模拟登录豆瓣获取最近看过的电影

众所周知，很多网站都设置了登录之后才能获取查看页面的权利，因此模拟登录成了爬取信息的第一步，这一步成功了，嘿嘿，just do it! 好，废话不多说，直接说重点：首先，你应该要了解网站登录的流程以及你需要post的信息，以豆瓣为例：这就是你需要提交的信息了，包括用户名和密码，以及验证码和验证码的ID，看到这可能有人会想我怎么知道验证码的ID，各位放心，在页面加载时就已经到客户端这边来了，也就是说你可以直接从浏览器中看到，是不是很炫酷！第二步，需要了解一些requests这个库了，因为reque...

分类：编程语言时间：2015-08-03 14:42:55 阅读次数：183

共1186条上一页 1 ... 106 107 108 109 110 ... 119 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)