ETL:抽取(extract)、轉置(transform)、載入(load),又稱資料工程,或稱資料分析

轉載自:ETL - 维基百科,自由的百科全书

ETL ,是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過抽取(extract)、轉置(transform)、載入(load)至目的端的過程。ETL 一詞較常用在資料倉儲,但其物件並不限於資料倉儲

ETL與ELT

ETL所描述的過程,一般常見的作法包含ETL或是ELT(Extract-Load-Transform),並且混合使用。通常愈大量的資料、複雜的轉換邏輯、目的端為較強運算能力的資料庫,愈偏向使用ELT,以便運用目的端資料庫的平行處理能力。

工具

ETL(or ELT)的流程可以用任何的程式語言去開發完成,由於ETL是極為複雜的過程,而手寫程式不易管理,有愈來愈多的企業採用工具協助ETL的開發,並運用其內建的metadata功能來儲存來源與目的的對應(mapping)以及轉換規則。

工具並可以提供較強大的連接功能(connectivity)來連接來源及目的端,開發人員不用去熟悉各種相異的平台及資料的結構,亦能進行開發。

當然,為了這些好處,付出的代價便是金錢。

參見

建議大家基礎資料工程先打好基礎,如Python, MySQL, MongoDB等,有了這些經驗,經過三年五年後,在做資料分析。會比較全方位。