importurllib.request,urllib.parse#引入模块remotefile=urllib.request.urlopen(remoteaddr)#返回远端文件对象remoteaddr=‘ftp://zks:%s@192.168.100.113/%s;type=i‘%(password,filename)#ftp密码和文件名,也可以是http开头的网页地址localfile=open(filename,‘wb‘).write(re..
分类:
编程语言 时间:
2015-06-09 06:19:57
阅读次数:
137
分类路径:/Datazen/DataMining/Crawler/前段时间,一朋友让我做个小脚本,抓一下某C2C商城上竞争对手的销售/价格数据,好让他可以实时调整自己的营销策略。自己之前也有过写爬虫抓某宝数据的经历,实现的问题不大,于是就答应了。初步想法是利用pyhton中的urllib.reque...
分类:
编程语言 时间:
2015-06-08 23:11:46
阅读次数:
217
加入实验室,要写爬虫,以前写过java的,新学python练练手首先是发包程序,框架如下:首先是POST方式,代码如下: 1 import urllib 2 import urllib2 3 url='http://someserver.com/cgi-bin/register.cgi' 4 use...
分类:
编程语言 时间:
2015-05-30 23:57:40
阅读次数:
181
【urllib2】1、基本用法 。 2、geturl()方法 3、urllib.urlencode方法。 4、添加post数据 。 5、连接的过程最容易出错。
分类:
Web程序 时间:
2015-05-28 19:56:47
阅读次数:
143
importurllib.requestimportreasggimportos,string,sysimporteasyguiasgresult=[]#urllib.urlopen(url)获取网页源码函数#urllib.urlretrieve(url,‘存储名字‘)将网页资源下载到本地函数defgetyuanma(_url):page=urllib.request.urlopen(_url).read()page1=page.decode(‘UTF-8‘)#..
分类:
其他好文 时间:
2015-05-27 19:28:15
阅读次数:
185
最近用python做了个小crawler, 可以自动整理一些网站的内容,推送到当地文件中,做个小小的总结。
主要lib就是urllib 和 beautifulsoup.
urllib和urllib2是很方便的网页提取库,核心就是发送各种自定义的url request,然后可以返回网页内容。 最简单的函数,判定一个网页是否存在:
def isUrlExists(url):
...
分类:
编程语言 时间:
2015-05-26 10:49:11
阅读次数:
190
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:
import urllib
import os,re
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
def if_st...
分类:
其他好文 时间:
2015-05-26 09:10:41
阅读次数:
229
原理和上章获取段子一样,只不过是换了解析的内容。
代码:
#-*- coding: utf-8 -*-
import urllib2
import re
def GetPageContent(page_url,heads):
try:
req = urllib2.Request(page_url,headers=heads)
resp = urllib...
分类:
编程语言 时间:
2015-05-25 10:02:53
阅读次数:
166
#encoding:UTF-8 import urllib.parse import urllib.request import base64 import re import sys import time from random import sample import codecs from html.parser import HTMLParser log = ‘gogogo.txt...
分类:
编程语言 时间:
2015-05-20 11:32:48
阅读次数:
169