有的网站防采集,会在页面加上this.window.location.reload()
分类:
Web程序 时间:
2014-07-10 14:34:18
阅读次数:
310
最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码...好吧,满足这个要求的爬虫应该是最基本的爬虫了。当然这也是做复杂的爬虫的基础。使用的是httpclient4的相关API。不要跟我讲网上好多都是httpclient3...
分类:
编程语言 时间:
2014-07-09 20:49:07
阅读次数:
299
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200
程序员如何哄女朋友开心的秘籍,定制给女朋友一个应用(生日礼物)...
分类:
其他好文 时间:
2014-07-09 09:09:54
阅读次数:
158
明天就是大三的暑假了。
其实大学到现在也没过过一个半完整的暑假,大一留在了实验室,大二在ACM,都是回家十几天的样子。这样也好,回家倒说不定荒废了。
转眼就到了大三都结束的时候,却总是感觉高三好像还是昨天。那些往日整天在一起的同学好多都已经长时间没有联系,青春的日子一去不返了。无法忘记的进入大学的第一天2011.8.27 ,正好也是我十八岁的生日。满怀憧憬和热情,真是完美的成人礼,到了奔三的...
分类:
其他好文 时间:
2014-07-08 20:30:24
阅读次数:
227
你是否苦恼于网上无法下载的“小说在线阅读”内容?或是某些文章的内容让你很有收藏的冲动,却找不到一个下载的链接?是不是有种自己写个程序把全部搞定的冲动?是不是学了 python,想要找点东西大展拳脚,告诉别人“哥可是很牛逼的!”?那就让我们开始吧! 哈哈
好吧,我就是最近写 Yii 写多了,想找点东西调剂一下.... = =
本项目以研究为目的,所有版权问题我们都是站在作者的一边,以看盗版小说为目的的读者们请自行面壁!
说了这么多,我们要做的就是把小说正文的内容从网页上爬下来,我们的...
分类:
编程语言 时间:
2014-07-08 19:53:59
阅读次数:
311
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作。由于.NET BCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的。加上编写C#需要使用Visual Studio这个很"重"的工具,开...
分类:
Web程序 时间:
2014-07-06 20:03:05
阅读次数:
346
一、身份证号码验证题目描述:我国公民的身份证号码特点如下:1、 长度为18位;2、 第1~17位只能为数字;3、 第18位可以是数字或者小写英文字母x。4、 身份证号码的第7~14位表示持有人生日的年、月、日信息。例如:511 002 1988 08 08 0111或...
分类:
其他好文 时间:
2014-07-06 15:46:50
阅读次数:
138
最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。
先把完整的代码贴上来,如果朋友们需要试验下,请...
分类:
编程语言 时间:
2014-07-06 10:11:48
阅读次数:
325
多亏了自己的宝贝女儿,一位Google员工在今年夏天得到了一星期福利假期。这位小盆友给互联网大巨头写了一封信,请求公司在她爸爸生日那天给他放一天假庆祝生日。「各位大哥哥大姐姐你们好」小盆友的信上写到「我能帮爸爸请个假吗?每星期他都只有星期六放假,但我想让他星期三也能休息。」而星期四这封信已经在 tw...
分类:
其他好文 时间:
2014-07-05 22:15:31
阅读次数:
402