简单爬虫R实现1、广度优先搜索策略网页的结构通常是一个页面包含正文和多个链接,这些链接大部分是域内链接,但也含有域外链接。通过对这些链接进行遍历,一层一层地搜索就可以搜索到所有页面。如图,网页结构已经很好的显示了一种图的层次结构。在这种图的结构中,简单地实现遍历,我们就可以采用两种遍历方式,广度优先...
分类:
其他好文 时间:
2014-05-16 21:08:33
阅读次数:
339
最近在做语义方面的问题,需要反义词。就在网上找反义词大全之类的,但是大多不全,没有我想要的。然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把“老师”-“学生”,“医生”-“病人”这样对立关系的反义词查出来。一开始我想把网站中数据库...
分类:
编程语言 时间:
2014-05-16 08:10:36
阅读次数:
465
只需要使用一台笔记本,打开几个web标签页,仅仅拷贝一些指向10MB文件的链接,Google去抓取同一文件的流量就超过了700Mbps。Google的FeedFetcher爬虫会将spreadsheet的=image(“link”)中的任意链接缓存。如果我们将=image(“http://examp...
分类:
其他好文 时间:
2014-05-16 06:43:25
阅读次数:
461
本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地。...
分类:
编程语言 时间:
2014-05-15 15:09:46
阅读次数:
450
学校的服务器可以上外网了,所以打算写一个自动爬取笑话并发到bbs的东西,从网上搜了一个笑话网站,感觉大部分还不太冷,html结构如下:
可以看到,笑话的链接列表都在里面,用正则表达式可以把最近的几个笑话地址找出来,再进到一个笑话页面看下:
每一个笑话页面里面是有多个小笑话组成的,全部在标签下,每个小笑话又单独一个包裹,这样非常容易...
分类:
编程语言 时间:
2014-05-15 11:18:58
阅读次数:
362
使用模块第一种应用://module/AppUtils.js
exports.random=function(){
returnMath.random();
}
exports.showAuthor=function(){
return"chenlong";
}
//app.js
varut=require(‘./module/AppUtils‘);
console.info(‘.......startapp.......‘);
varrn=ut.random();
varmy=ut.sh..
分类:
Web程序 时间:
2014-05-15 08:44:50
阅读次数:
398
昨天对网站的架构做了一个简要的分析,有些人不太理解,有了 NodeJS 还要 php
干啥?我推荐了几篇文章给这位童鞋看了:也谈基于NodeJS的全栈式开发(基于NodeJS的前后端分离)基于前后端分离的模版探索Midway-ModelProxy
— 轻量级的接口配置建模框架前后端分离模式下的安全解...
分类:
Web程序 时间:
2014-05-15 07:29:47
阅读次数:
398
OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起!
已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了.
首先观赏一下原始代码,我给加了一些注释:
# -*-...
分类:
编程语言 时间:
2014-05-15 02:39:45
阅读次数:
439
QT连接数据库,在pro文件中加上QT+=sql连接数据库QSqlDatabaseOpenDB()
{
QSqlDatabasedb=QSqlDatabase::addDatabase("QODBC");
//注意,对于express版本数据库,一定要加\\sqlexpress这种后缀
//QStringdsn="DRIVER={SQLSERVER};SERVER=192.168.24.71\\sqlexpress;DATABASE=wdgl..
分类:
数据库 时间:
2014-05-15 00:33:32
阅读次数:
381
node.js API 英文原版
http://nodejs.org/api/all.html
node.js API 中文翻译
http://nodeapi.ucdok.com/#/api/
node.js API 中文翻译下载
http://download.csdn.net/detail/bad19876414641/4608699
javascrip...
分类:
Web程序 时间:
2014-05-14 15:15:10
阅读次数:
329