搜索关键字：数据采集，搜索到1158个结果！码迷,mamicode.com！

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。 1、Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。 Scrapy ...

分类：其他好文时间：2019-02-06 23:54:26 阅读次数：235

Linux atop 监控系统状态

atop是一个功能非常强大的linux服务器监控工具，它的数据采集主要包括：CPU、内存、磁盘、网络、进程等，并且内容非常的详细，特别是当那一部分存在压力它会以特殊的颜色进行展示，如果颜色是红色那么说明已经非常严重了。注意：所有的信息都是反映过去10S的状态信息使用 atop工具安装好后在运行命 ...

分类：系统相关时间：2019-02-01 01:15:42 阅读次数：248

Flume整合Kafka完成实时数据采集

agent选择 agent1 exec source + memory channel + avro sink agent2 avro source + memory channel 模拟实际工作中的场景，agent1 为A机器，agent2 为B机器。 avro source: 监听avro端口， ...

分类：Web程序时间：2019-01-27 14:37:21 阅读次数：239

数据采集服务器的设计

test ...

分类：其他好文时间：2019-01-26 11:20:56 阅读次数：203

支付机构MRC模型

一、电商RFM模型 RFM模型是一个简单的根据客户的活跃程度和交易金额贡献所做的分类。因为操作简单，所以较为常用。近度R：R代表客户最近的活跃时间距离数据采集点的时间距离，R越大，表示客户越久未发生交易，R越小，表示客户越近有交易发生。R越大则客户越可能会“沉睡”，流失的可能性越大。在这部分客户中 ...

分类：其他好文时间：2019-01-23 20:27:17 阅读次数：355

ES总结-Kibana定制化扩展

纵观任何一家大数据平台的技术架构，总少不了ElasticSearch；ES作为溶合了后端存储、快速检索、OLAP分析等功能的一套开源组件，更绝的是提供了一套集数据采集与前端展现为一体的框架（即ELK），在我们的应用过程中，与ES集成的前端框架包含有Kibana、Grafana等系统，实际应用过程中 ...

分类：其他好文时间：2019-01-23 17:33:14 阅读次数：1039

【RPA实例教学】UIbot——数据抓取功能

UiBot0.7版新增加了【数据抓取】功能，这项功能可以方便获取网页中的相似元素，将相似元素的数据采集到数组中，比如各种电商网站（淘宝、京东、拼多多等）的商品分类、商品列表信息（商品名、价格等），或者网页中的各种列表、表格的数据。本期教学以抓取【京东】网站搜索某个关键字列出的所有商品为例，实现商品列表的数据采集：准备工作目前数据抓取功能仅支持GoogleChrome浏览器，在安装UiBot时，会自

分类：其他好文时间：2019-01-17 14:10:27 阅读次数：3732

大数据

大数据(big data) 目录目录 1 什么是大数据 2 大数据的定义 3 大数据的特点[1] 4 大数据的作用[2] 5 大数据的分析 6 大数据的技术 7 大数据的处理 8 大数据的常见误解 9 大数据时代存储所面对的问题[3] 10 大数据应用与案例分析 11 相关条目 12 参考文献什 ...

分类：其他好文时间：2019-01-17 14:05:46 阅读次数：268

MapReduce的典型编程场景3

1.自定义InputFormat–数据分类输出需求：小文件的合并分析： -在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS -在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并 -在MapReduce处理时，可采用CombineFileIn

分类：其他好文时间：2019-01-13 14:23:38 阅读次数：167

开放封闭原则、importlib getattr

前言所谓开放封闭原则即：开放配置、封闭源码。例如django 中间件的插拔特性配置 CMDB 中不同模式下（agent/ssh/salt）采用不同的数据采集方法，每个方法定义成一个单独的插件脚本。通过读取settings.py 配置觉得执行那种插件，通过配置settings.py 扩展模式类型。 ...

分类：其他好文时间：2019-01-13 01:55:46 阅读次数：208

共1158条上一页 1 ... 32 33 34 35 36 ... 116 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)