好吧,没想到居然这么快,才两天我就把入门看完了,当然只是入门,以后如果用到,会把那些各个类型的细化都总结一下例如数学函数,或者总结一下一些框架的应用如Scarpy(爬虫框架,听着就很兴奋呢,很多人都是了解有,但是没用过......),笔者写完这段暂时先开心的看电影去,回学校再说。Python的屏幕I...
分类:
编程语言 时间:
2014-07-15 08:26:59
阅读次数:
204
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下( 不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:
编程语言 时间:
2014-07-12 22:45:47
阅读次数:
341
虽然上一篇博客中我们可以连续地阅读章节了,但是,难道每一次看小说都运行一下我们的 Python 程序?连记录看到哪里都不行,每次都是重新来过?当然不能这样,改!现在这么多小说阅读器,我们只需要把我们要的小说抓取到本地的 txt 文件里就好了,然后自己选个阅读器看,怎么整都看你了。
其实上个程序我们已经完成了大部分逻辑,我们接下来的改动只需要把抓取到每一章的时候不用显示出来,而是存入 txt 文件之中。另外一个是程序是不断地根据下一页的 Url 进行抓取的,那么什么时候结束呢?注意当到达小说的最后一章...
分类:
编程语言 时间:
2014-07-12 18:35:14
阅读次数:
279
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享。 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl =.....
分类:
编程语言 时间:
2014-07-12 13:28:16
阅读次数:
385
1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcess...
分类:
编程语言 时间:
2014-07-11 21:41:10
阅读次数:
217
本文记录下用来爬虫主要使用的两个库。第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib;第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦。requests使用,1直接使用库内提供的get、post等函数,在比简单的情况下使用,2利用session...
分类:
编程语言 时间:
2014-07-11 18:51:34
阅读次数:
250
这是一个简单的c++爬虫,效率并不是很高... 1 #include 2 int s1[1000000],s2[1000000]; 3 void fun(int a, int b) 4 { 5 int i,ii; 6 bool t1,t2,t3,t4; 7 s1[0] = s...
分类:
编程语言 时间:
2014-07-11 18:05:16
阅读次数:
297
有的网站防采集,会在页面加上this.window.location.reload()
分类:
Web程序 时间:
2014-07-10 14:34:18
阅读次数:
310
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200