Flink 写入hdfs
flink 入门实战
Flink 入门记录
python 单例模式
虽然一直都知道单例模式,但是一直都没有系统的了解
flume 自定义es sink
自定义flume sink
hive 常用sql记录
记录一些hive常用的sql
一文读懂大数据各组件.md
随着慢慢深入学习大数据的个个组件,记录一下这些组件的功能与使用。
pyspark df添加列
编写pyspark任务,对df添加新的列。
使用自定义函数和自带的函数。
hive表迁移到spark on hdfs集群(跨集群迁移)
由于源数据在于旧的hbase集群的hdfs上,并未开启8020端口,没办法直接通过文件迁移到新集群。只能通过pyspark 读取hive表数据,写入新的集群的hdfs中。
zeppelin安装搭建
安装搭建zeppelin,测试zeppelin查询hbase/phoenix表
Ganglia-api
ganglia-api添加到ganglia镜像中