数据库、数据仓库、数据湖、数据集市、数据中台这些概念
随着互联网的快速发展,越来越多的人倾注到互联网上。通过浏览器,智能终端和各种设备,已生成大量数据。同时,还生成了许多数据概念,例如数据库,数据仓库和数据。湖泊,数据集市,数据中心等,这些概念被交织在一起和相互关联。他们是什么,如何使用它们,以及它们之间的关系是什么?今天的一篇文章可以给你一个明确的想法。该数据库本质上是一种二维关系存储系统,存储结构化数据,例如学校的学生信息表,学生的等级表等。由于其使用简单和高度的结构,它大大促进了发展互联网。它包括操作数据库和分析数据库。所谓的运营数据库主要用于“交易”类型操作,用于支持日常业务,例如购买商品,订购外卖器和DIDI。所谓的分析数据库主要分析历史数据,例如分析某一产品的销售量,某个商店的订单量,以及某个硕士的汽车订单量。由于操作数据库的特点,如更多的写作和较少搜索,数据的动态变化,以及低存储时间要求,它注定不是与分析数据库相同的数据库。分析数据库较少,更频繁地写入,数据基本稳定,并且存储时间很长。随着我们对分析数据的要求变得更高,我们希望看到更多的尺寸分析,传统分析数据库的支持变得困难。例如,我们希望在淘宝商店的披萨是最好的。对于销售,有必要将多个表,如披萨信息表,订单销售表,消费者信息表,中国天气桌等,以分析天气,地理位置,品味和价格最佳卖。 ,所以数据仓库发生了。数据仓库基本上是一个面向主题的集成,相对稳定的数据收集,反映历史更改,并且是比数据库更大的库。所谓的主题导向,是指根据某个主题的数据仓库中信息的聚合,例如区域,成本,商品,收入,利润等;所谓的集成,它指的是能够将不同数据库中的数据聚合在一起;所谓的相对稳定,这意味着数据仓库中的数据不会像运营数据库一样变化;所谓的反映历史变化,这意味着数据仓库中的信息不仅反映了企业的当前情况,而且还可以记录从过去到现在的某个时间点的分析变化。在数据仓库开发和探索的过程中,还出现了数据集市和商业智能概念。所谓的数据集市是一个小型数据仓库,只关注某个主题。例如,如果您只关注成本,那么它只包含与成本相关的数据。数据源可以是您自己的源数据库或数据仓库。获取某个主题的数据;所谓的商业智能是运营分析数据的先进水平。在通过数据仓库获取分析数据后,BI员工将结合当前的业务条件,市场条件和分析数据,以分析当前的业务判断,提供老板的决定。数据湖是一个大于数据仓库的大型仓库,对数据没有限制。内部的数据可以自然地流动,如湖水,可以存储,处理和分析数据。在数据湖中,存储的数据直接从源系统导入而无需任何处理。它包含结构化数据,非结构化数据和半结构化数据。它具有非常宽的范围,也是数据仓库的数据源。此外,它还用于机器学习,预测分析和信息跟踪等方案,并为科学家提供大量数据来进行模型训练,并成为某个领域的推荐引擎。数据仓库和数据湖之间的区别可以在下面的表格中看到。
数据中心本质上是一种服务业务的数据分析系统。它自出生以来出生于商业。数据仓库提供统计分析,单域维度,被动分析和非实时分析,这不可避免地不能满足企业的多维分析,主动分析,预测分析,实时分析,多样化分析和其他情况。因此,数据中心发生了。整个数据中心产品是闭环解决方案,不再是业务流程的一部分。它包括五个模块:数据埋注点,数据访问标准化,数据仓库抽象,数据治理和数据服务。有多个尺寸的东西和田地可以更好地服务前台。此外,在建设数据中心,企业组织文化也非常重要。它需要将各种业务线链接到访问此系统并标准化治理和管理。但是,在数据仓库的构建中,无需关注此水平。因此,数据中心是数据仓库的另一个定性飞跃。数据库,数据湖泊,数据仓库,数据集市和数据中心都是我们在不同阶段的不同需求结合的数据处理解决方案。这并不意味着一个解决方案已经过时了。每种解决方案都存在它直到现在。对于要使用的场景,我们可以根据自己的要求构建相应的对应?