Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212
12.3.3.2 直接使用平面映射
首先,我们要看看平面映射到底是什么样子。通常,理解函数如何运行的第一步,就是研究类型签名。图 12.2 比较了 Seq.map(普通映射)和 Seq.collect(平面映射)的类型签名。
图 12.2 对于每个输入元素,普通映射返回一个元素,而平面映射,可以返回元素的任意集合。
提醒一下,类型签名中的 # 号,描述映射函数,传递给...
分类:
其他好文 时间:
2015-01-25 18:18:48
阅读次数:
213
Linux抓取网页,简单方法是直接通过 curl 或 wget 两种命令。
curl 和 wget支持协议
curl 支持 http,https,ftp,ftps,scp,telnet等网络协议
wget支持 http,https,ftp网络协议
curl 和 wget抓取实例
抓取网页,主要有url 网址和proxy代理两种方式
1、 url 网址方式抓取
...
分类:
Web程序 时间:
2015-01-25 18:17:43
阅读次数:
231
类:
1、物以类聚,把具有相似特性的对象归类到一个类中
2、类定义了这些相似对象拥有的相同的属性和方法
3、类的对象称为类的一个实例
4、类的属性和方法统称为类成员
通过一个类实现
1、如何定义类
2、如何实例化类的对象
3、如何调用类的方法
<?php
//类的定义以关键词class开始,后面跟类的名称
class ceshi{
//定义属性
public $a="ce...
分类:
Web程序 时间:
2015-01-25 18:19:05
阅读次数:
171
题目:
求一个一维数组(N个元素)中最长递增子序列的长度
DP题
代码如下:
#include
using namespace std;
const int MAXN = 100000;
const int INF = 10000000;
int minV[MAXN], lis[MAXN], Array[MAXN];
int n;
//lis[i]表示从第i个元素开...
分类:
编程语言 时间:
2015-01-25 18:18:01
阅读次数:
168
题目大意:给你N个点,M条双向边。再给你起点s和终点t,求点s到点t的最短路径。
思路:求一对顶点之间的最短路径。用Dijkstra算法来做。这道题需要注意的几点:
(1)注意重边情况;(2)注意s == t的情况,输出为0;(3)标记k的时候,初始化千万不
能标记成0~N-1。...
分类:
其他好文 时间:
2015-01-25 18:16:44
阅读次数:
152
题目:
Merge two sorted linked lists and return it as a new list. The new list should be made by splicing together
the nodes of the first two lists.
思路:
设置两个头指针,一个指针不动,用来返回最后头结点,一个指针用来组织节点顺序,遍...
分类:
其他好文 时间:
2015-01-25 18:18:40
阅读次数:
203
着实让我激动了两三天~~前段时间从Japan直邮了一把HHKB Pro2 type s,圆了两年的梦~这可是RMS的御用键盘啊~
这把键盘的ctrl刚好就在大小写锁的位置,而且delete键小拇指直接就能按到,特别有效率
真是UNIX程序员的一大杀器...
分类:
其他好文 时间:
2015-01-25 18:16:01
阅读次数:
220
最近用maven搭建一个ssh项目,然后tomcat:run 时报错,端口被占用,于是就想换一个端口,从网上找资料,都是说在pom.xml里配置下tomcat-maven-plugin,但是都是从组org.codehaus.mojo里下,而且版本都是1.0或者1.1,开始不知道,直接复制进去,然后各种下载不了插件,后来上http://tomcat.apache.org/一查才知道官网支持的最低版本...
分类:
其他好文 时间:
2015-01-25 18:17:58
阅读次数:
232
1、安装cmake
sudo apt-get install cmake
CMake是一个跨平台的安装(编译)工具,可以用简单的语句来描述所有平台的安装(编译过程)。他能够输出各种各样的makefile或者project文件,能测试编译器所支持的C++特性,类似UNIX下的automake。OpenCV使用cmake进行makefile的创建。
2、安装 opencv
将Ope...
分类:
系统相关 时间:
2015-01-25 18:15:29
阅读次数:
155
本文以消息之间的通信为起点介绍如下内容:
JMS消息系统中的组件分为:
JMS消息生产者:发送消息、不连续
JMS消息消费者:接收消息、一直监听消息
同步:易阻塞、效率低、更可靠(可立即获取异常信息)
异步:不易阻塞、效率高、不可靠
【MDB】属于异步消息消费者。简化开发、被看做是一种特殊的控制器。...
分类:
其他好文 时间:
2015-01-25 18:15:46
阅读次数:
191
题目:把一个含有N个元素的字符串右移K位,要求时间复杂度为O(N),且只允许使用两个附加变量。
例子:
字符串为:abcd1234,右移4位,结果变为:1234abcd
思路:
移动前跟移动后是有两段的顺序是不变的,所以可以把这两段看成两个整体
右移K位的过程就是把数组的两部分交换一下。
交换的过程:(1)逆序排列第一部分
(2)逆序排列第二部分
(3)再全部逆序!
...
分类:
编程语言 时间:
2015-01-25 18:16:08
阅读次数:
210
题目链接:传送门题目要求:求S(2004^x)%29。题目解析:#include #include #include #include #include #define mod 29using namespace std;typedef long long ll;ll mpow(ll x,ll k)...
分类:
移动开发 时间:
2015-01-25 18:13:53
阅读次数:
198
function numberToCapital(number) { if (!/^(0|[1-9]\d*)(\.\d+)?$/.test(number)) { return "数字格式不正确!" } // 如果有小数,截取整数位和小数位 number += '...
分类:
编程语言 时间:
2015-01-25 18:16:00
阅读次数:
315
this 相信大家在写代码的时候都会遇到,可是怎么样才能用好this,估计这个还是有点困难的,虽然你有时候你会用到,但是他所在的具体的几个场景中所代表的是什么意思了?可能这个你就不是很清楚啊。这个就会在你使用的过程中出现很多的问题,于是今天我们来总结一下this,到底这个this?他真的有想象中的那...
分类:
Web程序 时间:
2015-01-25 18:15:11
阅读次数:
166
UC游戏共有6种状态,UCGameInstance就是控制游戏在这6种状态之间转换及HUD显示,单机游戏中能引起游戏状态改变的其实不多,用户主动的比如按下ESC键,用户被动的比如被怪杀死进入死亡菜单,或者剧情强制切换 比如,响应玩家 的ESC按键, 比如玩家死亡,显示死亡菜单 都是些极简单的代码,O...
分类:
其他好文 时间:
2015-01-25 18:15:28
阅读次数:
245
1 Timothy John Berners-Lee 蒂姆·伯纳斯·李 HTML 英国 2 Bert Bos 伯特·波斯 CSS 荷兰...
分类:
编程语言 时间:
2015-01-25 18:15:01
阅读次数:
216