Scrapy是什么? scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步 ...
分类:
其他好文 时间:
2019-01-11 12:11:04
阅读次数:
377
本人微信公众号,欢迎扫码关注! HDFS的数据流 1 HDFS写数据流程 1.1 剖析文件写入 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 2)namenode返回是否可以上传。 3)客户端请求第一个 block上传到哪几个datanode服务 ...
分类:
其他好文 时间:
2019-01-10 19:32:22
阅读次数:
173
离线和实时大数据开发实战 目 录 前言 第一篇 数据大图和数据平台大图 第1章 数据大图 2 1.1 数据流程 2 1.1.1 数据产生 3 1.1.2 数据采集和传输 5 1.1.3 数据存储处理 6 1.1.4 数据应用 7 1.2 数据技术 8 1.2.1 数据采集传输主要技术 9 1.2.2 ...
分类:
其他好文 时间:
2019-01-10 19:31:47
阅读次数:
132
1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle ...
分类:
其他好文 时间:
2019-01-02 23:28:02
阅读次数:
243
机器学习令人无比神往,但从事这个工作的人可能并不这么想。 机器学习的工作内容往往复杂枯燥又困难——通过大量重复工作进行提升必不可少: 汇总工作流及传输渠道、设置数据源以及在内部部署和云部署的资源之间来回分流。 所以使用工具提升你的工作效率实在很关键,而且像这样的工具越多越好。 好在你学的是Pytho ...
分类:
编程语言 时间:
2018-12-20 14:26:23
阅读次数:
202
很多人听说过数据分析这个工作,也听说过了数据分析师的高薪资和高待遇,,但是对于数据分析师的工作内容不是很清楚,一般来说,数据分析工作说简单也简单,说难也难,具体总结起来就是5个问题。这五个问题就是数据分析工作的具体内容,那么这五个问题是什么呢?它包含以下方面:分析什么数据、什么时候分析数据、从哪里获... ...
分类:
其他好文 时间:
2018-12-13 14:58:07
阅读次数:
198
以上是登录流程图 说明: 之后开发者服务器可以根据用户标识来生成自定义登录态,用于后续业务逻辑中前后端交互时识别用户身份。 注意: 代码部分 wxutil.js 文件 /** * Promise化小程序接口 JJ */ class WxUtil { constructor() { } /** * 初 ...
分类:
微信 时间:
2018-12-12 17:39:26
阅读次数:
424
3.对现有系统的分析 根据我们调查,很多学校仍在使用落后的人工管理系统,学生需要人工提交论文题目,且不易修改,老师需要整理信息,该系统不仅效率低下,人力成本高,并且出错率高,这种情况应急需改善 3.1处理流程和数据流程 3.2工作负荷 每年全校毕业的学生有3500名,毕业设计指导的老师只有85名,这 ...
分类:
其他好文 时间:
2018-12-10 22:05:25
阅读次数:
213
1. HDFS的写数据流程 1.客户端通过fs模块向NameNode申请文件上传,NameNode检查请求是否合法,如用户权限,目标文件是否已存在,父目录是否存在等等 2.NameNode返回是否可以上传,如果是的话,建立连接通道 3.客户端通过FSDataOutputStream模块请求上传blo ...
分类:
其他好文 时间:
2018-12-08 17:54:52
阅读次数:
148
第一组 沈*峰 王*赫: 1引言: 1.1编写目的 1.2.背景 1.3.定义 1.4.参考资料 第二组 王*蝶、黄*丽: 2可行性研究的前提: 2.1要求 2.2目标 2.3条件,假定和限制 2.4 进行可行性研究的方法 2.5评价尺度 3对现有系统的分析: 3.1处理流程和数据流程 3.2工作负 ...
分类:
其他好文 时间:
2018-11-29 15:03:12
阅读次数:
260