码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
天涯抓取
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:其他好文   时间:2014-08-09 13:19:37    阅读次数:283
抓取天涯文章的蜘蛛代码,刚经过更新(因为天涯页面HTML代码变化)
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:Web程序   时间:2014-08-08 21:14:36    阅读次数:311
【已解决】BeautifulSoup已经获得了Unicode的Soup但是print出来却是乱码
【问题】某人遇到的问题:关于BeautifulSoup抓取表格及SAE数据库导入的问题(跪求大神帮忙)简单说就是:用如下代码:?1234567importre,urllib2fromBeautifulSoupimportBeautifulSoupfromurllibimporturlopendoc=...
分类:其他好文   时间:2014-08-06 22:37:32    阅读次数:375
Beautifulsoup学习笔记
1.导入beautifulsoupfrom BeautifulSoup import BeautifulSoup 2.实例化一个soup对象html=""soup = BeautifulSoup(html)html的字符串可以通过打开本地文件或者抓取网络的html来得到测试用的html是:3.bea...
分类:其他好文   时间:2014-08-05 18:53:19    阅读次数:281
BeautifulSoup下Unicode乱码解决
今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful...
分类:其他好文   时间:2014-07-22 22:53:55    阅读次数:229
(转)python下很帅气的爬虫包 - Beautiful Soup 示例
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:编程语言   时间:2014-07-18 11:35:42    阅读次数:287
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库。第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib;第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦。requests使用,1直接使用库内提供的get、post等函数,在比简单的情况下使用,2利用session...
分类:编程语言   时间:2014-07-11 18:51:34    阅读次数:250
用python的BeautifulSoup分析html
http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html用python的BeautifulSoup分析htmlhttp://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.htmlBeautifulSoup中文文档1)搜索tag:find(tagname)#直接搜索名为tagname的tag如:find(‘head‘)find..
分类:编程语言   时间:2014-07-10 19:12:38    阅读次数:265
Python 爬虫插件
#coding:utf-8import sys,urllib2,re,Queuesys.path.append("..")from lib.Http_Class import Http_Classfrom BeautifulSoup import BeautifulSoup#############...
分类:编程语言   时间:2014-07-07 20:49:39    阅读次数:350
Python 实现的下载op海贼王网的图片(网络爬虫)
没得事就爬一下我喜欢的海贼王上的图片 需要在d盘下建立一个imgcache文件夹 # -*- coding: utf-8 -*- import urllib import urllib2 import json from bs4 import BeautifulSoup import threadpool import thread class htmlpaser: de...
分类:编程语言   时间:2014-06-29 07:15:05    阅读次数:304
1186条   上一页 1 ... 116 117 118 119 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!