SparkSQL External Datasource简易使用之CSV

时间：2014-12-24 11:27:55 阅读：514 评论：0 收藏：0 [点我收藏+]

标签：

下载源码&编译：

git clone https://github.com/databricks/spark-csv.git
sbt/sbt package

Maven GAV：

groupId: com.databricks.spark
artifactId: spark-csv_2.10
version: 0.1

$SPARK_HOME/conf/spark-env.sh

export SPARK_CLASSPATH=/home/spark/software/source/spark_package/spark-csv/target/scala-2.10/spark-csv-assembly-0.1.jar:$SPARK_CLASSPATH

测试数据下载：

wget https://github.com/databricks/spark-csv/raw/master/src/test/resources/cars.csv

Scala API：

import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
import com.databricks.spark.csv._
val cars = sqlContext.csvFile("file:///home/spark/software/data/cars.csv")
cars.collect

SQL：

CREATE TEMPORARY TABLE cars
USING com.databricks.spark.csv
OPTIONS (path "file:///home/spark/software/data/cars.csv", header "true");

select * from cars;

SparkSQL External Datasource简易使用之CSV

标签：

原文地址：http://www.cnblogs.com/luogankun/p/4181884.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行