資料湖泊(Data Lake)

以下資料轉載自:数据湖 - 维基百科,自由的百科全书

資料湖泊英語:data Lake),是指使用大型二進位物件或檔案這樣的自然格式儲存資料的系統[1] 。它通常把所有的企業資料統一儲存,既包括源系統中的原始副本,也包括轉換後的資料,比如那些用於報表, 視覺化, 資料分析和機器學習的資料。資料湖泊可以包括關聯式資料庫結構化資料(行與列)、半結構化的資料(CSV,紀錄檔,XML, JSON),非結構化資料 (電子郵件、檔案、PDF)和 二進位資料(圖像、音訊、影片)。[2]

儲存資料湖泊的方式包括 Apache Hadoop 分散式檔案系統, Azure 資料湖泊 或 亞馬遜雲 Lake Formation’s雲端儲存服務,以及諸如 Alluxio 虛擬資料湖泊之類的解決方案。

重點在於資料的整合,資料的存放並沒有一定要放在oracle或hadoop。

尚未精練的data可以放在hadoop這種成本低廉的資料倉儲,經過精煉後的資訊可以放在oralce這種比較貴的資料庫。

image

1個讚