一份大数据学习宝典、值得收藏
在大数据的研究中,我们可以将研究分为五个主要部分:数据收集,数据传输,数据存储,数据处理和数据治理。在数据收集部分中,可以分为收集数据以及收集的规则的位置。互联网时代为我们提供了各种数据格式的数据,包括结构化数据,半结构化数据和非结构化数据。数据收集来源包括系统日志,网络数据和传感器。系统日志的集合主要通过浏览器,应用程序和用于埋地点的服务器获得,例如用户访问点击数据,接口呼叫数据等以及网络数据主要通过爬行者等技术从网站获得。设备数据主要通过传感器从物理设备收集。数据收集器确认后,下一个问题是用于分配数据存储和数据收集的规则。数据量的快速增加一直无法直接在单机系统中存储PB级数据。有必要在分布式模式下存储数据。数据可以通过散列分配到不同的机器,然后与路由机制配合。 ,您可以在某个机器上快速找到某个记录。可以根据分布式帽/ ACD /碱的原理决定数据的选择。在数据更新中,主从更新的策略,每个机器节点的同步更新以及任何节点的更新都可用于处理数据。在数据传输方面,通常存在可以将收集的数据发送到存储信道的消息队列,数据同步和其他方法。消息队列现在应该是Internet公司最常用的方法。通过消息队列,如Kafka和RabbitMQ,服务分离。生产者负责数据生产,消费者订阅了对消费和业务处理需求的数据。数据同步通常用于数据仓库中,并且在各种数据源中未处处理的数据被传送到数据仓库。
收集并传输数据后,存储数据。在存储方面,通常存在物理存储,分布式对象存储和大型数据库存储。物理存储的定义是数据存储在磁盘上。存储类型支持文件存储,块存储和对象存储。分布式存储主要提供多个存储节点以实现大规模数据的存储和方面,并支持高可用性,高性能和高可扩展性。大型数据库存储主要用于特定类型或离线分析,例如点击屋,Hbase,Elasticsearch等大型数据库,用于直接统计分析,MongoDB和其他文档数据库主要存储半结构化数据。在数据处理方面,它主要使用流式计算,大规模批量计算和其他方法来处理数据以授权业务。就实时处理而言,流传输计算方法,例如传递,火花和风暴通常用于实时处理数据。大规模批量计算主要是离线分析。通过离线计算方法处理数据,例如MapReduce和Hive,适用于不需要高实时数据的业务。在数据收集,传输,存储和处理阶段之后,数据具有其值,可以更好地用于业务决策和操作分析。然而,随着数据量变大,业务变得越来越复杂,数据的治理是必要的。数据治理包括三个方面:元数据管理,数据质量控制和数据安全性。元数据通常是指数据和数据之间的相关信息。通过生命周期管理和业务属性管理,管理员可以更好地执行系统维护和管理。数据质量主要通过一些过程质量管理控制系统控制。在数据安全性方面,主要控制数据收集安全性,数据传输安全性,存储安全性,应用程序安全性和其他方面。企业在用户信息后掌握更多,我们应该做好安全管理和控制。除了上面介绍的专业内容外,大规模数据的存储,计算,分析和治理还需要掌握分布式技术,高并发处理,高可用性处理,集群和实时计算。您需要了解微服务架构,云计算和云计算。概念,如本地,东西,5g等。