shuffle阶段其实就是多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。 Map端: 1、在map端首先接触的是InputSplit,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束 ...
分类:
其他好文 时间:
2018-12-21 15:24:10
阅读次数:
212
之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计划: spark-sql> explain select * from test1 limit 10 ...
分类:
数据库 时间:
2018-12-21 15:24:01
阅读次数:
385
1、参考:https://github.com/hankcs/pyhanlp 2、问题: C:\Users\ADMINI~1\AppData\Local\Temp\pip-install-u617cfx3\jpype1\setup.py:173: FeatureNotice: Turned ON N ...
分类:
其他好文 时间:
2018-12-21 15:23:50
阅读次数:
263
什么是聚类 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。 聚类分析起源于分类学,但是聚类不等于分类。聚类与分类 ...
分类:
编程语言 时间:
2018-12-21 15:23:34
阅读次数:
402
单例模式 定义:确保一个类只有一个实例,并提供一个全局访问点。 设计思路 私有化构造函数,使外界不能创建该类的实例 对外开放一个共有静态方法,用于并返回全局唯一实例。 示例代码(C ) ...
分类:
其他好文 时间:
2018-12-21 15:23:25
阅读次数:
138
Django 模板的路径,有两种方法来使用 设置一个总的templates在大项目外面,然后在sittings的TEMPLATES中声明 在每一个APP中创建templates,然后在settings的INSTALLED_APPS中声明 模板变量的使用 语法: {{ 变量名 }} 命名由字母和数字以 ...
分类:
其他好文 时间:
2018-12-21 15:23:16
阅读次数:
272
继承我们可以理解为一个类获取了另外一个类的方法和属性。 当一个类继承其它类时,继承类叫子类,被继承类叫超类(或父类) 在 Swift 中,类可以调用和访问超类的方法,属性和下标脚本,并且可以重写它们。 我们也可以为类中继承来的属性添加属性观察器。 基类 没有继承其它类的类,称之为基类(Base Cl ...
分类:
编程语言 时间:
2018-12-21 15:23:07
阅读次数:
192
能源是每个国家生活不可或缺的一项资源,而合理利用每一份能源则是每一个公民应尽的职责。国家十三五规划中提出实施制造强国战略,降低企业能源成本,鼓励和引导企业创新管理、改进工艺、节能节材
分类:
其他好文 时间:
2018-12-21 15:23:00
阅读次数:
197
关键词: 1. draggable:规定元素是否可拖动的,draggable=true可拖动 2. dataTransfer:拖拽对象用来传递的媒介,使用方式:event.dataTransfer 3. ondragstart:拖拽元素被拖拽时触发的事件,作用于被拖拽元素 4. ondragente ...
分类:
Web程序 时间:
2018-12-21 15:22:49
阅读次数:
162
【传送门】:log4j官网配置文件详解 1. 排除 spring boot 自带的 spring-boot-starter-logging 依赖 2. 添加log4j依赖 3. log4j.xml配置 4. 日志格式配置 PatternLayout: %m 输出代码中指定的消息; %M 输出打印该条 ...
分类:
编程语言 时间:
2018-12-21 15:22:39
阅读次数:
249
pandas移花接木 数据准备两表: 我们接下来要进行的操作: 增 将两表进行合并 追加一行数据到最后 图太长,放结果那几行 追加一行数据到中间的位置,例如索引为20的前面 改 修改数据有两种做法,原理不同结果相同 条条大路通罗马 1.修改其中的一行数据,把38行的Student_39改了 2.Da ...
分类:
其他好文 时间:
2018-12-21 15:22:29
阅读次数:
181
[nginx] linux nginx 安装 作者:flymaster qq:908601287 blog:http://www.cnblogs.com/flymaster500/ nginx反向代理原理和配置讲解最近有打算研读nginx源代码,看到网上介绍nginx可以作为一个反向代理服务器完成负 ...
分类:
系统相关 时间:
2018-12-21 15:22:20
阅读次数:
165
lucene索引文件大小优化小结 1 数值数据类型索引优化 1.1 数值类型索引问题 lucene本质上是一个全文检索引擎而非传统的数据库系统,它基于倒排索引,非常适合处理文本,而处理数值类型却不是强项。 1.2 lucene解决方法 为解决这一问题, Schindler和 Diepenbroek提 ...
分类:
Web程序 时间:
2018-12-21 15:22:10
阅读次数:
256
自定义Web框架 自定义Web框架 自定义Web框架 自定义Web框架 http协议 HTTP简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTT ...
分类:
Web程序 时间:
2018-12-21 15:22:03
阅读次数:
167
SQL(Structured Query Language)是关系数据库查询语言。from后面跟的是“表名”,where后用“表中字段”做条件 HQL(Hibernate Query Language)是面向对象的查询,from后面跟的是“表名”,where后用“表中字段”做条件。在Hibernat ...
分类:
数据库 时间:
2018-12-21 15:21:52
阅读次数:
163
11.1 前言 統計的技巧與資料分析常常形影不離。一般統計使用加法、累加法、平均值,中間值等等,由於處理的對象是矩陣資料,故其基本統計之技巧已經廣為應用,其觀念也會在正常之運作中出現。統計學中比較特殊應用者為機率、亂數、常態分配等,而配合應用者為其相關之圖表。在MATLAB中,有一個統計學工具箱,內 ...
分类:
其他好文 时间:
2018-12-21 15:21:41
阅读次数:
289