数据仓库(Data Warehouse)和数据湖(Data Lake)现在都广泛被用于存储大量数据,但是它们之间并不是可以互换的概念。
数据湖 (Data Lake)
数据湖可以直接存储原始数据(raw data),数据可以是结构化(structured)、半结构化(semi-structured)甚至是无结构(unstructured)的。
只有当从数据湖查询数据的时候,才需要对其赋予模式(schema-on-read),这对于数据科学家或者数据分析师来说非常方便,可以根据需求随时创建新的数据模型。但数据湖一般不会直接面向没有技术背景的业务用户。
在数据湖中存储数据一般比在数据仓库中存储更便宜。由于其灵活性和低成本,数据湖在企业中的应用也越来越广泛。
数据仓库(Data Warehouse)
数据仓库用来把大量的结构化数据从多个数据源集中在一起进行存储。它可以为业务和运营决策人员提供快速地决策支持。但与数据湖不同,数据仓库必须在创建之初就定义好其数据结构(schema-on-write)。
数据湖 | 数据仓库 | |
数据类型 | 原始数据 | 结构化数据 |
数据模式 | 不需要预定义 Schema-on-read | 需要预定义 Schema-on-write |
面向用户 | 数据科学家 | 业务与运营决策者 |
灵活性 | 高 | 低 |
易用性 | 差 | 好 |
存储成本 | 低 | 高 |
本文链接:http://bookshadow.com/weblog/2022/03/18/data-lake-vs-data-warehouse/
请尊重作者的劳动成果,转载请注明出处!书影博客保留对文章的所有权利。