SparkJdbc数据同步 发表于 13 七月 2021 更新于 15 十二月 2021 记录spark jdbc做数据同步的问题和解决方案 数据重复问题问题描述 spark.speculation会启动一个线程执行slow task,2个task执行相同的数据写入,导致数据重复 spark.config(‘spark.speculation’,’false’),默认是false partition内transaction commit 后出现执行失败,任务重试,会导致数据重复 先写入临时表(无unique index),去重后再写入目标表 schema定义问题