码迷,mamicode.com
首页 >  
搜索关键字:urllib    ( 2222个结果
Python模块之urllib
importurllib.request,urllib.parse#引入模块remotefile=urllib.request.urlopen(remoteaddr)#返回远端文件对象remoteaddr=‘ftp://zks:%s@192.168.100.113/%s;type=i‘%(password,filename)#ftp密码和文件名,也可以是http开头的网页地址localfile=open(filename,‘wb‘).write(re..
分类:编程语言   时间:2015-06-09 06:19:57    阅读次数:137
Python html.parser库学习小结
分类路径:/Datazen/DataMining/Crawler/前段时间,一朋友让我做个小脚本,抓一下某C2C商城上竞争对手的销售/价格数据,好让他可以实时调整自己的营销策略。自己之前也有过写爬虫抓某宝数据的经历,实现的问题不大,于是就答应了。初步想法是利用pyhton中的urllib.reque...
分类:编程语言   时间:2015-06-08 23:11:46    阅读次数:217
Python爬虫学习笔记1
加入实验室,要写爬虫,以前写过java的,新学python练练手首先是发包程序,框架如下:首先是POST方式,代码如下: 1 import urllib 2 import urllib2 3 url='http://someserver.com/cgi-bin/register.cgi' 4 use...
分类:编程语言   时间:2015-05-30 23:57:40    阅读次数:181
urllib2
【urllib2】1、基本用法 。 2、geturl()方法 3、urllib.urlencode方法。 4、添加post数据 。 5、连接的过程最容易出错。
分类:Web程序   时间:2015-05-28 19:56:47    阅读次数:143
获取百度贴吧的里QQ号
importurllib.requestimportreasggimportos,string,sysimporteasyguiasgresult=[]#urllib.urlopen(url)获取网页源码函数#urllib.urlretrieve(url,‘存储名字‘)将网页资源下载到本地函数defgetyuanma(_url):page=urllib.request.urlopen(_url).read()page1=page.decode(‘UTF-8‘)#..
分类:其他好文   时间:2015-05-27 19:28:15    阅读次数:185
python cralwer (爬虫)心得
最近用python做了个小crawler, 可以自动整理一些网站的内容,推送到当地文件中,做个小小的总结。 主要lib就是urllib 和 beautifulsoup. urllib和urllib2是很方便的网页提取库,核心就是发送各种自定义的url request,然后可以返回网页内容。 最简单的函数,判定一个网页是否存在: def isUrlExists(url): ...
分类:编程语言   时间:2015-05-26 10:49:11    阅读次数:190
新浪明星日志推荐系统——爬虫爬取数据(2)
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下: import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding("utf-8") def if_st...
分类:其他好文   时间:2015-05-26 09:10:41    阅读次数:229
Python抓取简书的热门文章
原理和上章获取段子一样,只不过是换了解析的内容。 代码: #-*- coding: utf-8 -*- import urllib2 import re def GetPageContent(page_url,heads): try: req = urllib2.Request(page_url,headers=heads) resp = urllib...
分类:编程语言   时间:2015-05-25 10:02:53    阅读次数:166
python爬取标题和作者时间的小程序
#encoding:UTF-8 import urllib.parse import urllib.request import base64 import re import sys import time from random import sample import codecs from html.parser import HTMLParser log = ‘gogogo.txt...
分类:编程语言   时间:2015-05-20 11:32:48    阅读次数:169
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!