码迷,mamicode.com
首页 >  
搜索关键字:生日 爬虫    ( 12567个结果
python核心编程中网络爬虫的例子
1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser ...
分类:编程语言   时间:2014-07-22 22:58:15    阅读次数:284
Oracle归档与非归档模式
一、什么是Oracle归档模式 Oracle数据库有联机重做日志,这个日志是记录对数据库所做的修改,比如插入,删除,更新数据等,对这些操作都会记录在联机重做日志里。一般数据库至少要有2个联机重做日志组。当一个联机重做日志组被写满的时候,就会发生日志切换,这时联机重做日志组2成为当前使用的日志,当联....
分类:数据库   时间:2014-07-16 18:40:28    阅读次数:230
Extjs4 中date时间格式的问题
在Grid中显示时间,后台传过来的是date格式的数据(PHP date('Y-m-d', time()),一般在Ext model中定义数据的类型和格式:{name:'birth', type:'date'},view层:{ header: '生日', dataIndex: 'birth', ed...
分类:Web程序   时间:2014-07-16 18:29:36    阅读次数:199
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:数据库   时间:2014-07-16 17:09:20    阅读次数:289
NYOJ 325 zb的生日
zb的生日时间限制:3000ms | 内存限制:65535KB难度:2描述今天是阴历七月初五,acm队员zb的生日。zb正在和C小加、never在武汉集训。他想给这两位兄弟买点什么庆祝生日,经过调查,zb发现C小加和never都很喜欢吃西瓜,而且一吃就是一堆的那种,zb立刻下定决心买了一堆西瓜。当他...
分类:其他好文   时间:2014-07-16 15:12:50    阅读次数:187
(插播)网络爬虫,抓取你想要得东西。
最近,有个朋友说,想在一些页面上获取一些关键性得信息。比如,电话,地址等等。一个个页面去找 又很麻烦。这时候,想起了 何不去用“爬虫”去抓取一些想要得东西。省事,省里。好,今天 我们就讲讲,关于爬虫得一些东西。 这里 自己也是,看了一些关于爬虫得知识,正好,这几日闲来没事。做了一个功能小得爬虫。 这里是使用 java来进行编写得  首先 我们来介绍下。使用得框架,jdk1.6,...
分类:其他好文   时间:2014-07-16 10:08:54    阅读次数:267
网站内部搜索引擎简单实现
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:Web程序   时间:2014-07-15 23:08:41    阅读次数:330
怒学Python——完结篇——I/O
好吧,没想到居然这么快,才两天我就把入门看完了,当然只是入门,以后如果用到,会把那些各个类型的细化都总结一下例如数学函数,或者总结一下一些框架的应用如Scarpy(爬虫框架,听着就很兴奋呢,很多人都是了解有,但是没用过......),笔者写完这段暂时先开心的看电影去,回学校再说。Python的屏幕I...
分类:编程语言   时间:2014-07-15 08:26:59    阅读次数:204
robots.txt用法
主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是...
分类:其他好文   时间:2014-07-15 08:01:58    阅读次数:189
java如果模拟请求重启路由器(网络爬虫常用),还有java如何下载图片
我们如果在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,常常对方的网站有defence机制,会给你的http请求返回500错误,只要是相同IP就请求不到数据,这时候我们只能去重启路由器,这样IP地址会改变,网络爬虫就能正常工作了 下面是通过发送Socket请求来模拟路由器的重启指令: protected void rebotadsl() { try { BufferedO...
分类:编程语言   时间:2014-07-14 13:00:50    阅读次数:274
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!