0%

SparkJdbc数据同步

记录spark jdbc做数据同步的问题和解决方案

数据重复问题

问题描述

  1. spark.speculation会启动一个线程执行slow task,2个task执行相同的数据写入,导致数据重复

    spark.config(‘spark.speculation’,’false’),默认是false

  2. partition内transaction commit 后出现执行失败,任务重试,会导致数据重复

    先写入临时表(无unique index),去重后再写入目标表

schema定义问题