数据仓库中每张表都需要自增ID吗?是必要放在里面的吗?作用是什么?

问题描述:

在公司和同事在沟通设计数据仓库中表的时候产生的分歧,我觉得没必要放在表里,因为我觉得没什么用处;他觉得要加在里面,但是不知道有什么用处,所以想请教大家这个自增ID是不是有必要放在表里?是一个默认的规定?还是他有实质性的用处?

自增ID,类似编号。可以在排序统计的时候用到,根据自增id查询时,效率也快。

自增的id就相当于流水号一样,每次都是不一样的,这样方便你你进行数据的筛选。

仓库主要用来统计分析的,而不是精确查询的。
所以如果原始数据有唯一键,那么直接拿过来用。
如果没有,那就没必要单独造一个出来,除非数据量不多,影响小,否则每天1000亿,你处理这个号就很崩溃。
另外: 去重,那是前端ETL,中间库的任务。