这几天闲着没事,写了个python爬虫,专把堆糖上的摄影类图片扒下来...
分类:
编程语言 时间:
2014-05-09 01:05:09
阅读次数:
295
先看看列表里的__setslice__方法函数的帮助文档
help(list.__setslice__)
帮助文档如下所示:
__setslice__(...)
x.__setslice__(i, j, y) x[i:j]=y
Use of negative indices is not supported.
从帮助文档可以看出这个方法函数可...
分类:
编程语言 时间:
2014-05-09 01:01:56
阅读次数:
326
最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使.....
分类:
Web程序 时间:
2014-05-08 22:54:09
阅读次数:
1123
小月月是个懒家伙,博客更新好慢...前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查...
分类:
编程语言 时间:
2014-05-07 17:11:38
阅读次数:
457
前几天请了三天假,加上两个周末,一个五一,总共八天没有上班。在今天之前,那感觉真爽啊!可是事情总是相对的,祸兮,福之所倚,福兮,祸之所伏,现在又高兴不起来了。
今天是我的生日,一个人的节日,有点凄凉,感觉有点难受。早上刚到公司,然后又获悉部门里一位女同事辞职了,当时第一感觉,这是开玩笑么?这是生日礼物么?
iOS部门十几人,就那一位女性,这下好了,全剩下汉子,以后的日子不好过了。
其实我进现...
分类:
其他好文 时间:
2014-05-07 04:36:10
阅读次数:
274
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368
t = '''www.jeapedu.com
www.chinagame.me
www.quanzhan.org
'''
print t.splitlines()
Python的split方法函数可以分割字符串成列表,默认是以空格作为分隔符sep来分割字符串。
In [1]: s = "www jeapedu com"
In [2]: p...
分类:
编程语言 时间:
2014-05-07 02:37:08
阅读次数:
478
Python是一种强大的语言,即可浅尝辄止,也可深入挖掘。很适合做科学计算、数据挖掘等等。今天我将简单介绍一下Python的装饰器(Decorators)的用法 。
假设我们想要庆祝下生日,需要邀请一些朋友过来参加。但是你有个讨厌的朋友,叫Joe,必须不能让他来啊。可能首先你想到的是建一个list,然后迭代查找并移除所有的Joe童鞋。这当然是个好方法,但是这里为了介绍装饰器,我们会用@来完成...
分类:
编程语言 时间:
2014-05-06 23:19:53
阅读次数:
371
http://acm.hdu.edu.cn/showproblem.php?pid=1201
分析:
看到题目时,纠结了一会儿——出生那一年算不算一岁? 不算的。 1900.3-1901.3 才是一岁,是个时间间隔
(主要是因为这里是按生日来算年龄,而有些题是按年份来说而非生日,这两者还是有些区别)
1. 闰年判断
...
分类:
其他好文 时间:
2014-05-06 22:24:46
阅读次数:
278
标题用标题 iamge 中加上 alt=“” 的属性 这样有利用百度的搜索引擎爬虫搜索到
分类:
其他好文 时间:
2014-05-06 13:19:51
阅读次数:
249