Hash & Co.

Heu­te möch­te ich mich ein­mal mit einer sehr nütz­li­chen T-SQL-Funk­ti­on namens CHECKSUM() beschäf­ti­gen. An einem Bei­spiel aus dem Daten­la­de­pro­zess soll gezeigt wer­den, wie die­ser durch die Ver­wen­dung von CHECKSUM() schnel­ler und ele­gan­ter gestal­tet wer­den kann. 

Wir Model­lie­rer ken­nen aus unse­rer täg­li­chen Pra­xis eine häu­fig man­gel­haf­te Daten­qua­li­tät, egal in wel­cher Form die not­wen­di­gen Daten bereit­ge­stellt wer­den. Gera­de in Work­shop-Situa­tio­nen, in denen sehr schnell eine Viel­zahl an Kun­den­wün­schen imple­men­tiert wer­den muss, kön­nen wir nicht immer einen per­fek­ten ETL-Pro­zess erwar­ten. Geht es dann auch noch um The­men wie eine inkre­men­tel­le Daten­la­de-Logik bei gro­ßen Daten­vo­lu­mi­na, bei der die Roh­da­ten aber nicht per ein­deu­ti­gem Schlüs­sel gefun­den wer­den kön­nen, hilft man sich oft mit einer dif­fe­ren­zier­ten JOIN-Bedin­gung (X=X AND Y=Y AND Z=Z etc.). Das funk­tio­niert grund­sätz­lich auch sehr gut. Aller­dings kann dies die Abfra­ge­per­for­mance nega­tiv beein­flus­sen, und das gilt es zu ver­mei­den.

Den gesam­ten Arti­kel kön­nen Sie hier abru­fen.

Ein Gedanke zu “Hash & Co.

Schreibe einen Kommentar