大数据关键技术

先看一张图,在微博上看见的
s

人们谈到大数据的时候不仅仅是数据,而是大数据技术和数据的综合。大数据技术,是伴随大数据的采集、存储、分析和应用的相关技术,从而获得分析和预测结果的一系列数据处理和分析技术。

数据采集与预处理

利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或者数据集市中,成为联机分析处理,数据挖掘的基础;也可以利用日志采集工具(Flume、Kafka等)把实时采集数据作为流计算系统输入,进行实时处理分析

数据存储和管理

利用分布式文件系统、数据仓库、关系型数据库、NoSQL数据库、云数据库,实现结构化,半结构化和非结构化海量数据的存储和管理

数据处理和分析

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据

SaaS:一个集中的系统部署软件,使其在本体计算机上运行的一个模型
PaaS:
IaaS:

大数据计算模式

MapReduce,它其实是大数据计算模式中的一种,代表了针对大规模数据的批量处理技术,还有查询分析计算、图计算、流计算等多种大数据计算模式。极大地的方便了分布式编程工作,将复杂的、运行在大规模集群上的并行计算过程高度地抽象到了两个函数-Map和Reduce上,编程人员在不会分布式并行编程的情况下,可以很容易地将自己的程序运行在分布式系统上,完成海量数据集计算。

  • 批处理计算:针对大规模数据的批量处理 / MapReduce、Spark
  • 流计算:对流数据实时计算 / Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台
  • 图计算:针对大规模图结构数据的处理:Pregel、GraphX、Girah、PowerGraph
  • 查询分析计算:大规模 数据的存储管理和查询分析:Dremel、Hive、Gassandra、Impala

批处理计算

Spark是一个针对超大数据集合的低延时的集群分布式计算系统,比MapReduce快很多,Spark启用了内存分布数据集,除了能提供交互式查询还可以优化迭代工作负载。在MapReduce中,数据流从一个稳定的来源进行一系列加工处理,流出到一个稳定的文件系统中。而对于Spark而言,使用内存替代HDFS或本体磁盘来存储中间结果,所以Spark比MapReduce速度快很多。

流计算

流数据也是大数据分析中的 重要数据类型

图计算

目前已经出现了不少相关图计算产品。Pregel是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统。

交互式查询计算模式

1.使用交互式查询运算公式
2.交互式算法或者使用编程语言实现交互式

  • spark系统:基于内存计算、可扩展的、开源的集群计算系统

    • 开启交互式计算模式
  • Dremel:结合web搜索和DBMS技术,可把处理数据时间缩短到秒级

    • 属于交互式分析处理模式
最后修改:2021 年 03 月 08 日
如果觉得我的文章对你有用,请随意赞赏