今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。 1、Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。 Scrapy ...
分类:
其他好文 时间:
2019-02-06 23:54:26
阅读次数:
235
atop是一个功能非常强大的linux服务器监控工具,它的数据采集主要包括:CPU、内存、磁盘、网络、进程等,并且内容非常的详细,特别是当那一部分存在压力它会以特殊的颜色进行展示,如果颜色是红色那么说明已经非常严重了。 注意:所有的信息都是反映过去10S的状态信息 使用 atop工具安装好后在运行命 ...
分类:
系统相关 时间:
2019-02-01 01:15:42
阅读次数:
248
agent选择 agent1 exec source + memory channel + avro sink agent2 avro source + memory channel 模拟实际工作中的场景,agent1 为A机器,agent2 为B机器。 avro source: 监听avro端口, ...
分类:
Web程序 时间:
2019-01-27 14:37:21
阅读次数:
239
一、电商RFM模型 RFM模型是一个简单的根据客户的活跃程度和交易金额贡献所做的分类。因为操作简单,所以较为常用。 近度R:R代表客户最近的活跃时间距离数据采集点的时间距离,R越大,表示客户越久未发生交易,R越小,表示客户越近有交易发生。R越大则客户越可能会“沉睡”,流失的可能性越大。在这部分客户中 ...
分类:
其他好文 时间:
2019-01-23 20:27:17
阅读次数:
355
纵观任何一家大数据平台的技术架构,总少不了ElasticSearch;ES作为溶合了后端存储、快速检索、OLAP分析等功能的一套开源组件,更绝的是提供了一套集数据采集与前端展现为一体的框架(即ELK), 在我们的应用过程中,与ES集成的前端框架包含有Kibana、Grafana等系统,实际应用过程中 ...
分类:
其他好文 时间:
2019-01-23 17:33:14
阅读次数:
1039
UiBot0.7版新增加了【数据抓取】功能,这项功能可以方便获取网页中的相似元素,将相似元素的数据采集到数组中,比如各种电商网站(淘宝、京东、拼多多等)的商品分类、商品列表信息(商品名、价格等),或者网页中的各种列表、表格的数据。本期教学以抓取【京东】网站搜索某个关键字列出的所有商品为例,实现商品列表的数据采集:准备工作目前数据抓取功能仅支持GoogleChrome浏览器,在安装UiBot时,会自
分类:
其他好文 时间:
2019-01-17 14:10:27
阅读次数:
3732
大数据(big data) 目录 目录 1 什么是大数据 2 大数据的定义 3 大数据的特点[1] 4 大数据的作用[2] 5 大数据的分析 6 大数据的技术 7 大数据的处理 8 大数据的常见误解 9 大数据时代存储所面对的问题[3] 10 大数据应用与案例分析 11 相关条目 12 参考文献 什 ...
分类:
其他好文 时间:
2019-01-17 14:05:46
阅读次数:
268
1.自定义InputFormat–数据分类输出 需求:小文件的合并 分析: -在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS -在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并 -在MapReduce处理时,可采用CombineFileIn
分类:
其他好文 时间:
2019-01-13 14:23:38
阅读次数:
167
前言 所谓开放封闭原则即:开放配置、封闭源码。例如django 中间件的插拔特性配置 CMDB 中不同模式下(agent/ssh/salt)采用不同的数据采集方法,每个方法定义成一个单独的插件脚本。通过读取settings.py 配置觉得执行那种插件,通过配置settings.py 扩展模式类型。 ...
分类:
其他好文 时间:
2019-01-13 01:55:46
阅读次数:
208