码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
社会化海量数据采集爬虫框架搭建
如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...
分类:其他好文   时间:2014-05-12 17:06:14    阅读次数:396
su命令2
震数据处理软件-SU 之使用方法第一章帮助工具1. suhelp 显示可执行的程序和Shell脚本。2. suname 列出SU中各项命令的名字和简短描述,以及编码的地址。3. sudoc 得到编码的DOC列表,列出SU中各条目的在线文档。4. sufind 在自述文档...
分类:其他好文   时间:2014-05-09 12:17:18    阅读次数:486
sql server 表变量存储临时查询数据
对于使用sql server 编写存储过程或者类似的sql 查询的时候我们使用表变量进行临时数据的存储,可以方便我们进行下来的数据处理表变量的使用类似如下:declare @userinfo table(id nvarchar(50),name nvarchar(50));insert into @...
分类:数据库   时间:2014-05-09 11:01:07    阅读次数:436
Apache Spark源码走读之5 -- DStream处理的容错性分析
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:其他好文   时间:2014-05-06 00:58:21    阅读次数:465
Glusterfs目录ls性能优化方案分析
讨论了glusterfs对文件系统爬虫rsync/ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作,减少fuse client的负载,减少req的网络轮询次数,减少一次网络通信时间,缓存预抓取,并发,异步,bulk 传输。...
分类:其他好文   时间:2014-05-05 13:24:35    阅读次数:536
屏幕事件控制器
SAP程序的执行时通过事件来驱动的1.INITIALIZATION事件,这个事件是在屏幕未显示之前执行,对程序设置值及屏幕元素进行初始化赋值2.START-OF-SELECTION事件该事件是单击执行按钮时触发的3.END-OF-SELCTION事件该事件应用于所有事件数据处理完成,即START-O...
分类:其他好文   时间:2014-05-05 12:49:25    阅读次数:352
java和c++混合编程尝试
下载源代码    现在的程序员,不再像以前一样,掌握一种编程语言就可以混得有模有样了,现实的情况是,真实的项目中,通常是涉及多种编程语言,举几个简单的例子,一个软件为了快速开发,可能是使用 Delphi 或 VB 作为界面开发首选语言,底层的指令或核心算法,会使用 C/C++ 处理,涉及数据处理的时候,为了安全和快速开发,会使用 Javascript 或 Python 等脚本语言实现数据分析处理...
分类:编程语言   时间:2014-05-04 18:58:34    阅读次数:474
异步DNS解析的实现
在高性能爬虫为什么使用定制DNS客户端一文中阐述了DNS解析是网络爬虫的瓶颈。目前主要有两种方法来提高DNS解析效率:1. 基于多线程的DNS 解析2. 基于NIO的DNS解析dnsjava中使用的解析方式就是基于多线程的DNS解析class ResolveThread extends Thread...
分类:其他好文   时间:2014-05-04 11:15:14    阅读次数:300
MODIS NDVI数据处理相关问题
现NDVI产品数据处理过程中遇到以下问题: 问题1:    NDVI是归一化植被指数,它的取值范围是-1—1,如何理解? 方法 :    对于陆地表面覆盖来说,云、雨、雪在可见光比近红外波段有较高的反射作用,所以NDVI为负值;岩石、裸土的NDVI一般为0;有植被覆盖的地方一般大于0。   问题2:    导入ENVI进行查看,发现未拼接重投影之前影...
分类:其他好文   时间:2014-05-04 09:36:39    阅读次数:2643
百度技术沙龙 - 广告数据上的大规模机器学习
上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。 1.  数据处理     目标: 获取信息, 去除噪音     机器学习技术点: 选择对点击概率分布 预估足够多样本     解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测     算法:a. 百度...
分类:其他好文   时间:2014-05-03 21:12:36    阅读次数:378
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!