0%

HDFS原理

binlog日志实时采集,支持按事物聚合输入到flink udf中进行处理

HDFS需要搞懂的问题

基础问题

  • HDFS是什么?
  • HDFS与常规的文件系统(nfs,oss)有什么区别?
  • HDFS的物理架构,有哪些角色和他们之间的关系?
  • HDFS的数据读&写的流程?
  • HDFS的数据存储格式,元数据&数据+内存&磁盘?

设计问题

  • HDFS的3类容错的设计方案:namenode容错,datanode容错,网络分区容错?
  • HDFS的文件存储格式
  • HDFS的数据一致性如何保证:raft?
  • HDFS的HA实现方式

实战问题

  • HDFS配置文件解读
  • HDFS的小文件优化方案

参考

https://lanechen.gitbooks.io/spark-dig-and-buried/content/hadoop/hadoop-ipc.html