搜索关键字：textfile，搜索到261个结果！码迷,mamicode.com！

Hive(10)-文件存储格式

Hive支持的存储数据的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 一. 列式存储和行式存储左边为逻辑表，右边第一个为行式存储，第二个为列式存储 1. 行式存储的特点查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需 ...

分类：其他好文时间：2018-12-23 23:59:36 阅读次数：343

【原创】大数据基础之Spark（4）RDD原理及代码解析

一简介 spark核心是RDD，官方文档地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重点是可容错，可并行处理 Spark r ...

分类：其他好文时间：2018-12-20 21:35:21 阅读次数：159

PHPSTORM Live-Templates变量速查表

php变量 ...

分类：Web程序时间：2018-12-18 10:58:41 阅读次数：254

hive建表语句

导入hdfs建表 use ods_db;CREATE EXTERNAL TABLE BER_O2O_PV(JSON STRING)PARTITIONEDBY(YEARSTRING,MONTHSTRING)STORED AS TEXTFILELOCATION '/ODS/ODS_DB/BER_O2O_ ...

分类：其他好文时间：2018-12-14 19:26:51 阅读次数：533

hive不同格式数据大小，无重复数据

-- 重点，目标表无重复数据从结果可以看出，在无重复数据的情况下，parquet的压缩无用武之地，占用空间比textfile还大，ORC是压缩最强的文件模式。 ...

分类：其他好文时间：2018-12-05 20:32:24 阅读次数：201

Spark RDD 操作实战之文件读取

/1、本地文件读取 val local_file_1 = sc.textFile("/home/hadoop/sp.txt") val local_file_2 = sc.textFile("file://home/hadoop/sp.txt") //2、当前目录下的文件 val file1 = s... ...

分类：其他好文时间：2018-12-04 13:14:51 阅读次数：219

【NLP】Python3.6.5中使用 Stanford NLP工具包进行词性标注

摘要：本文在Linux Ubuntu1804下Python3.6.5环境中实现了StanfordNLP的词性标注。 1. 写在前面《 ...

分类：编程语言时间：2018-11-25 13:20:47 阅读次数：367

Scala构建元数据

反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...

分类：其他好文时间：2018-11-24 14:21:32 阅读次数：210

DataX-操作HDFS

DataX操作HDFS 读取HDFS 1 快速介绍 HdfsReader提供了读取分布式文件系统数据存储的能力。在底层实现上，HdfsReader获取分布式文件系统上文件的数据，并转换为DataX传输协议传递给Writer。目前HdfsReader支持的文件格式有textfile（text）、orc ...

分类：其他好文时间：2018-11-18 22:29:52 阅读次数：1673

spark实现wordcount

spark-shell --master yarnsc:val lineRDD=sc.textFile("/test/input/test")lineRDD.collect().foreach(println)val wordRDD = lineRDDwordRDD.collect().foreac ...

分类：其他好文时间：2018-11-10 16:47:32 阅读次数：190

共261条上一页 1 ... 8 9 10 11 12 ... 27 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)