binlog日志实时采集,支持按事物聚合输入到flink udf中进行处理
HDFS需要搞懂的问题
基础问题
- HDFS是什么?
- HDFS与常规的文件系统(nfs,oss)有什么区别?
- HDFS的物理架构,有哪些角色和他们之间的关系?
- HDFS的数据读&写的流程?
- HDFS的数据存储格式,元数据&数据+内存&磁盘?
设计问题
- HDFS的3类容错的设计方案:namenode容错,datanode容错,网络分区容错?
- HDFS的文件存储格式
- HDFS的数据一致性如何保证:raft?
- HDFS的HA实现方式
实战问题
- HDFS配置文件解读
- HDFS的小文件优化方案
参考
https://lanechen.gitbooks.io/spark-dig-and-buried/content/hadoop/hadoop-ipc.html