Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212
本文处理ACK标志,更新窗口信息,处理URG标志及报文段中携带的所有数据,最后处理FIN标志,如果需要,则调用
tcp_output。
1.完成被动打开和同时打开...
分类:
其他好文 时间:
2015-01-07 22:09:08
阅读次数:
240
?1,霍夫曼编码描述哈夫曼树─即最优二叉树,带权路径长度最小的二叉树,经常应用于数据压缩。 在计算机信息处理中,“哈夫曼编码”是一种一致性编码法(又称“熵编码法”),用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之处在于,它是根据每一个源字符出现的估算概率而建立起来的(出现概率高的字符使用较短的编码,反之出现概率低的则使用较长的编...
分类:
编程语言 时间:
2014-12-30 23:36:36
阅读次数:
382
调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。
首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。
图形界面使用MFC搭建,新建基于对话框的MFC应用程序,同时要将HLSSplit.li...
分类:
其他好文 时间:
2014-12-30 11:51:17
阅读次数:
152
什么是神经网络
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
神经网络BP算法
BP...
分类:
其他好文 时间:
2014-12-28 20:54:23
阅读次数:
1132
北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEE Computer Society北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室 - PARNEC南京大学机器学习与数据挖掘研究所 - LAM...
分类:
Web程序 时间:
2014-12-26 16:24:13
阅读次数:
212
定义:抽象、继承、多态、封装实例:类—〉 对象属性:公共(public)私有(provie) 保护(provied)发展:机器语言-汇编语言-结构化程序设计-面向对象程序设计目的:重用性、灵活性和扩展性。为了实现整体运算,每个对象都能够接收信息、处理数据和向其它对象发送信息开发中涉及到:队列、 缓存...
分类:
其他好文 时间:
2014-12-23 19:01:51
阅读次数:
108
PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ASCII 码,中国的 GB2312-80,日本的 JIS 等。作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为 S...
分类:
Web程序 时间:
2014-12-23 15:13:51
阅读次数:
173
按照MSDN描述System.Configuration 命名空间 包含处理配置信息的类型本篇文章主要两方面的内容1. 如何使用ConfigurationManager 读取AppSetting和ConnectionStrings2. 如何使用自定义 Section,我这里的自定义Section格式...
分类:
其他好文 时间:
2014-12-22 21:04:27
阅读次数:
126
PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ASCII 码,中国的 GB2312-80,日本的 JIS 等。作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为.....
分类:
Web程序 时间:
2014-12-18 18:48:59
阅读次数:
222