scrapy是一个python爬虫框架,使用起来还是非常简单的。使用pip安装scrapy 首先安装pip,安装后使用pip安装scrapy,pip install scrapyscrapy创建项目,及简单测试 这里有几个比较好的例子 http://blog.csdn.net/HanTangSo.....
分类:
其他好文 时间:
2014-12-08 22:59:17
阅读次数:
333
python 网页爬虫抓取的url页面 是GBK格式。
会显示乱码,所以以至于后面的用正则表达式匹配都是错误的。
以下方法可以解决此问题:
reload(sys)
sys.setdefaultencoding('utf-8')
在程序开头添加以上代码即可。...
分类:
编程语言 时间:
2014-12-08 19:39:09
阅读次数:
144
最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块,Python2.x版本是...
分类:
编程语言 时间:
2014-12-07 20:19:36
阅读次数:
222
python2.7.6urllib:发送报文并得到responseBeautifulSoup:解析报文的body(html)#encoding=UTF-8
frombs4importBeautifulSoup
fromurllibimporturlopen
importurllib
list_no_results=[]#没查到的银行卡的list
list_yes_results=[]#已查到的银行卡的list
#解析报文,以字典..
分类:
编程语言 时间:
2014-12-05 19:49:25
阅读次数:
233
scrapy安装脚本#######installdependentpackageanddevelopment-lib#######
yum-yinstallgcczlibzlib-developensslopenssl-develbzip*libxml2*libxslt*libffi-devellibffi
#######installpython-2.7.7
wget‘https://www.python.org/ftp/python/2.7.7/Python-2.7.7.tgz‘
tar-zxvf..
分类:
编程语言 时间:
2014-12-04 15:53:54
阅读次数:
207
【前言】#本脚本用来爬取jd的页面:http://list.jd.com/list.html?cat=737,794,870到
#......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。
#本脚本仅用于技术交流,请勿用于其他用途
#byRiver
#qq:179621252
#Date:2014-12..
分类:
编程语言 时间:
2014-12-03 01:56:51
阅读次数:
405
这两天决定学一下python,就找了个评价还不错的公开课看了两天,边看边敲代码,感觉python确实是一门很简单的语言,只要有点C++、C、Java或者其他语言基础,一两天完全可以入门python。当然入门简单,精通难,还是要靠多练。因为刚好要看Andrew Ng的机器学习课程,所以就顺便用这个爬虫程序抓取了网页上的视频...
分类:
编程语言 时间:
2014-11-30 09:19:22
阅读次数:
677
转载自我的博客:http://www.mylonly.com/archives/1418.html#!/usr/bin/env python #coding: utf-8 ############################################################## F...
分类:
编程语言 时间:
2014-11-24 19:02:35
阅读次数:
261
网站选择桌面壁纸网站的汽车主题:
下面的两个print在调试时打开
#print tag
#print attrs
#!/usr/bin/env python
import re
import urllib2
import HTMLParser
base = "http://desk.zol.com.cn"
path = '/home/mk/cars/'
star = ''
def get_...
分类:
编程语言 时间:
2014-11-16 23:07:13
阅读次数:
387
Github博文地址,此处更新可能不是很及时。
1.背景
最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法。结合最近在学英语,然后干脆就用英文喽。然后选定一本参考书籍《Data Structures and Algorithms in Java》。
刚开始看还是蛮吃力的,慢慢来。由于之...
分类:
编程语言 时间:
2014-11-12 00:48:04
阅读次数:
285