Akiraka Akiraka
  • 首页
  • Linux
    • ELK
    • PHP
    • Shell
    • Nginx
    • Docker
      • Docker Compose
    • Centos
    • Ubuntu
    • Jenkins
  • Python
  • Mac OS
  • Windows
  • 大数据
    • Hadoop
    • CDH
    • Hive
    • Spark
    • ZooKeeper
  • 微服务
    • Kubernetes
    • Helm
  • Other
  • Quark
  • 首页
  • Linux
    • ELK
    • PHP
    • Shell
    • Nginx
    • Docker
      • Docker Compose
    • Centos
    • Ubuntu
    • Jenkins
  • Python
  • Mac OS
  • Windows
  • 大数据
    • Hadoop
    • CDH
    • Hive
    • Spark
    • ZooKeeper
  • 微服务
    • Kubernetes
    • Helm
  • Other
  • Quark
首页 › Hadoop › SPARK 命令行读取 parquet 数据

SPARK 命令行读取 parquet 数据

Akiraka3月前

文章目录

  • 查看 HDFS 数据
  • 查看表
  • 查看数据

查看 HDFS 数据

[root@node-master]# hadoop fs -ls /
Found 12 items
drwxrwxrwx   - hdfs   hadoop            0 2020-11-24 17:59 /app-logs
drwxrwxrwx   - hdfs   hadoop            0 2020-11-24 17:59 /ats
drwxr-xr-x   - hdfs   hadoop            0 2020-11-24 17:59 /datasets
drwxrwxrwx   - flink  hadoop            0 2020-11-24 18:00 /flink
drwxrwxrwx   - mapred hadoop            0 2020-11-24 17:59 /mr-history
drwxrwxrwx   - hdfs   hadoop            0 2020-11-24 17:59 /mrs
drwxrwxrwx   - hdfs   hadoop            0 2020-11-24 18:03 /tmp
drwxr-xr-x   - root   ficommon          0 2020-12-07 17:41 /aka
drwxrwxrwx   - hdfs   hadoop            0 2020-12-07 17:40 /user

查看表

val db = spark.read.parquet("/aka/test")
db: org.apache.spark.sql.DataFrame = [value: string]
db.show(false)

查看数据

# 拷贝文件到 hdfs 我已经拷贝过去 /train_data/下全部文件
# 打开spark-shell
# 输入以下内容
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val parquetFile = sqlContext.parquetFile("/data/test/*.parquet")
# 打印 150 行内容
parquetFile.take(150).foreach(println)
#hadoop#Spark
1
分享
Akiraka 站长
文章 121评论 10
相关文章
  • 本地文件拷贝到 HDFS
  • 大数据环境 Pyenv 搭建
  • jdk Hadoop Spark Hive Zookeeper环境变量
  • CDH Spark 设置python版本
  • Spark 默认 python版本修改
Akiraka
站长
本人擅长 Ai、Au、Fl、Ae、Pr、Ps 等软件的安装与卸载,精通 CSS、JavaScript、PHP、Python、Shell、Go 等单词的拼写,熟悉 Windows、Linux、Mac、Android、IOS 等系统的开关机!
121文章
10评论
47获赞
想找什么搜一下
文章聚合
Docker nginx和php分离配置
1年前
AD域重命名NetBios
1年前
搭建 NTP 服务器与客户端同步
4月前
Grails+Gradle+Maven+NodeJs 环境变量
1年前
Kubernetes(k8s)Helm 部署 EFK 集群
12月前
微信小程序
微信小程序
标签云
brew cdh centos cmd docker docker compose elasticsearch elk filebase filebeat gitlab grafana hadoop helm hive hue jdk jenkins k8s kibana kubernetes liniux linux logstash mac mikrotik mydumper mysql nfs nginx openssl oss php pip pyspark python RabbitMQ redis rocketmq shell Spark ubuntu windows ZooKeeper 容器编排
Copyright © 2019-2021 Akiraka. Designed by nicetheme. 沪18036911号