ForkJoin框架详解 什么是Fork/Join框架 提供一个可以用于并行执行任务的框架. 是把一个大任务分割成若干个小任务,最终汇总小任务结果后得到大任务结果的框架. Fork:将大任务切分成若干个子任务并行的执行. Join:合并这些子任务的执行结果,最后得到大任务的结果. 工作窃取算法(wo ...
分类:
其他好文 时间:
2020-06-30 22:34:49
阅读次数:
77
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他的 ...
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:
其他好文 时间:
2020-06-25 19:54:40
阅读次数:
51
1. 索引树高度(1) 表的数据量: 数据量越大,树的高度就会变高,理论上三层索引树的高度最为理想,可以支持百万级别的数据量解决办法: 可以使用分表(横切,竖切),分库,增加缓存,解决数据量大,查询慢 (2) 索引键值过长: 该索引字段存储数据太大,每个叶子节点最大存储16k,超过这个范围会新增加叶 ...
分类:
数据库 时间:
2020-06-24 20:12:29
阅读次数:
85
没有多余的废话,直接上方案吧! 方案一: 最笨的方案即:for * for,对应的时间复杂度为:O(n*n) 每个搜索词命中的网页是非常多的,O(n*n) 的复杂度是明显不能接受的。倒排索引是在创建之初可以进行排序预处理,问题转化成两个有序的list求交集,就方便多了。 画外音:比较笨的方法。 方案 ...
分类:
编程语言 时间:
2020-06-24 17:51:03
阅读次数:
53
git基础命令(黏贴shift + insert)拷贝项目:git clone <仓库地址> 创建分支:git branch <name>創建並进入分支:git checkout -b <name>切分支:git checkout <name>查看状态:git status添加所有:git add. ...
分类:
其他好文 时间:
2020-06-21 19:54:25
阅读次数:
72
真正的执行都是在这里完成,start代码如下: View Code 主要执行流程为: 1、preHandle():job前置操作 2、init():初始化reader和writer 3、prepare():执行插件的prepare操作 4、split():切分任务 5、schedule():执行任务 ...
分类:
其他好文 时间:
2020-06-18 19:59:52
阅读次数:
67
1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息 ...
分类:
其他好文 时间:
2020-06-18 14:33:17
阅读次数:
67
ID3,C4.5算法缺点 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。 在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分, 也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中, 将不再起作用, ...
分类:
编程语言 时间:
2020-06-17 20:29:17
阅读次数:
57
作 者:陈鄞 编 出版社:哈尔滨工业大学出版社 I S B N: 9787560341262 定 价: ¥28.00 出版时间:2017年04月 http://product.dangdang.com/24245701.html?point=comment_point 第1章绪论1.1什么是自然语言 ...
分类:
编程语言 时间:
2020-06-16 13:13:26
阅读次数:
156