Validace – ověření správnosti dat,
Čištění – odstranění či změna nesprávných dat,
Integrace – dosažení konzistence dat pocházejících z různých systémů (datové typy, formáty),
Derivace – vytvoření derivovaných dat na základě vstupních dat,
Denormalizace – snížení potřeby spojování tabulek při využívání DW,
Sumarizace – vytvoření požadovaných souhrnů z detailních dat.
Transformace dat z provozních systémů do datového skladu je časově nejnáročnější částí projektů budování datového skladu, u většiny případů tato část zabírá 70-80 % času realizace projektu. Pro snadnější provedení těchto činností se využívají tzv. datové pumpy (ETL – Extraction Transformation and Loading). Transformace je netriviální proces, který se skládá ze dvou typů kroků:
Přenosových – přenos dat ze zdrojového systému (jako výsledek SQL dotazu) do cíle (tabulka v relační databázi datového skladu).
Transformačních – obvykle procedurální transformace dat v rámci jedné nebo více tabulek.
Žádné komentáře:
Okomentovat