如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭
随着BIG
DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...
分类:
其他好文 时间:
2014-05-12 17:06:14
阅读次数:
396
震数据处理软件-SU 之使用方法第一章帮助工具1. suhelp
显示可执行的程序和Shell脚本。2. suname 列出SU中各项命令的名字和简短描述,以及编码的地址。3. sudoc
得到编码的DOC列表,列出SU中各条目的在线文档。4. sufind 在自述文档...
分类:
其他好文 时间:
2014-05-09 12:17:18
阅读次数:
486
对于使用sql server 编写存储过程或者类似的sql
查询的时候我们使用表变量进行临时数据的存储,可以方便我们进行下来的数据处理表变量的使用类似如下:declare @userinfo table(id
nvarchar(50),name nvarchar(50));insert into @...
分类:
数据库 时间:
2014-05-09 11:01:07
阅读次数:
436
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark
Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:
其他好文 时间:
2014-05-06 00:58:21
阅读次数:
465
讨论了glusterfs对文件系统爬虫rsync/ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作,减少fuse client的负载,减少req的网络轮询次数,减少一次网络通信时间,缓存预抓取,并发,异步,bulk 传输。...
分类:
其他好文 时间:
2014-05-05 13:24:35
阅读次数:
536
SAP程序的执行时通过事件来驱动的1.INITIALIZATION事件,这个事件是在屏幕未显示之前执行,对程序设置值及屏幕元素进行初始化赋值2.START-OF-SELECTION事件该事件是单击执行按钮时触发的3.END-OF-SELCTION事件该事件应用于所有事件数据处理完成,即START-O...
分类:
其他好文 时间:
2014-05-05 12:49:25
阅读次数:
352
下载源代码
现在的程序员,不再像以前一样,掌握一种编程语言就可以混得有模有样了,现实的情况是,真实的项目中,通常是涉及多种编程语言,举几个简单的例子,一个软件为了快速开发,可能是使用 Delphi 或 VB 作为界面开发首选语言,底层的指令或核心算法,会使用 C/C++ 处理,涉及数据处理的时候,为了安全和快速开发,会使用 Javascript 或 Python 等脚本语言实现数据分析处理...
分类:
编程语言 时间:
2014-05-04 18:58:34
阅读次数:
474
在高性能爬虫为什么使用定制DNS客户端一文中阐述了DNS解析是网络爬虫的瓶颈。目前主要有两种方法来提高DNS解析效率:1. 基于多线程的DNS 解析2.
基于NIO的DNS解析dnsjava中使用的解析方式就是基于多线程的DNS解析class ResolveThread extends Thread...
分类:
其他好文 时间:
2014-05-04 11:15:14
阅读次数:
300
现NDVI产品数据处理过程中遇到以下问题:
问题1: NDVI是归一化植被指数,它的取值范围是-1—1,如何理解?
方法 : 对于陆地表面覆盖来说,云、雨、雪在可见光比近红外波段有较高的反射作用,所以NDVI为负值;岩石、裸土的NDVI一般为0;有植被覆盖的地方一般大于0。
问题2: 导入ENVI进行查看,发现未拼接重投影之前影...
分类:
其他好文 时间:
2014-05-04 09:36:39
阅读次数:
2643
上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。
1. 数据处理
目标: 获取信息, 去除噪音
机器学习技术点: 选择对点击概率分布 预估足够多样本
解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测
算法:a. 百度...
分类:
其他好文 时间:
2014-05-03 21:12:36
阅读次数:
378