HBase分布式数据库,面向列存储(准确的说是面向列族),支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供 稳定服务和Failover机制,因此,Hbase 是一个通过大量廉价 ...
分类:
其他好文 时间:
2020-05-06 01:13:24
阅读次数:
103
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:
数据库 时间:
2020-05-05 18:27:44
阅读次数:
87
前言 所有的胜利,与征服自我的胜利比起来,都是微不足道。 一、handlers是什么? logging模块中包含的类 用来自定义日志对象的规则(比如:设置日志输出格式、等级等) 常用3个子类:StreamHandler、FileHandler、TimedRotatingFileHandler 二、h ...
分类:
编程语言 时间:
2020-05-04 17:23:10
阅读次数:
86
深度学习模型训练过程 一.数据准备 1. 基本原则: 1)数据标注前的标签体系设定要合理 2)用于标注的数据集需要无偏、全面、尽可能均衡 3)标注过程要审核 2. 整理数据集 1)将各个标签的数据放于不同的文件夹中,并统计各个标签的数目 2)样本均衡,样本不会绝对均衡,差不多就行了 3)切分样本集 ...
分类:
其他好文 时间:
2020-05-03 20:19:25
阅读次数:
462
题目描述:输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。 方法一:快排 直接通过快排切分排好第 K 小的数(下标为 K-1),那么它左边的数就是比它小的另外 K-1 个数 class Solution: def ...
分类:
其他好文 时间:
2020-05-01 20:46:49
阅读次数:
63
DStream接收socket数据统计 安装并启动生产者 #在linux系统上安装nc工具,利用它向某个端口发送数据 yum -y install nc #执行发送数据命令 nc -lk port 执行streaming依赖 <dependency> <groupId>org.apache.spar ...
分类:
其他好文 时间:
2020-04-30 19:37:50
阅读次数:
83
link 解法: maxprime存一个数的最大质因数,primeMin[i] 一个数n的质因数存在i,以n结尾所分得的最小子数组数。 class Solution { public: static const int maxn=1000000; int maxprime[maxn+1]; int ...
分类:
编程语言 时间:
2020-04-28 19:00:01
阅读次数:
84
想必大家都比较了解 RocketMQ 消息服务,那么 RocketMQ 与 Serverless 结合会碰撞出怎样的火花呢?我们今天介绍一下如何基于 RocketMQ + Knative 驱动云原生 Serverless 应用 。本文主要从以下几个方面展开介绍: 云原生与 Serverless Kn ...
分类:
其他好文 时间:
2020-04-27 11:46:06
阅读次数:
497
汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。 ...
分类:
编程语言 时间:
2020-04-26 22:32:41
阅读次数:
103
一、什么是敏捷开发: 敏捷开发以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。在敏捷开发中,软件项目在构建初期被切分成多个子项目,各个子项目的成果都经过测试,具备可视、可集成和可运行使用的特征。换言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件... ...
分类:
其他好文 时间:
2020-04-23 01:09:44
阅读次数:
87