以下資料轉載自:数据湖 - 维基百科,自由的百科全书
資料湖泊(英語:data Lake),是指使用大型二進位物件或檔案這樣的自然格式儲存資料的系統[1] 。它通常把所有的企業資料統一儲存,既包括源系統中的原始副本,也包括轉換後的資料,比如那些用於報表, 視覺化, 資料分析和機器學習的資料。資料湖泊可以包括關聯式資料庫的結構化資料(行與列)、半結構化的資料(CSV,紀錄檔,XML, JSON),非結構化資料 (電子郵件、檔案、PDF)和 二進位資料(圖像、音訊、影片)。[2]
儲存資料湖泊的方式包括 Apache Hadoop 分散式檔案系統, Azure 資料湖泊 或 亞馬遜雲 Lake Formation’s雲端儲存服務,以及諸如 Alluxio 虛擬資料湖泊之類的解決方案。