Hadoop 大数据概述

由于新技术,设备和通信手段(如社交网站)的出现,人类生产的数据量每年都在快速增长。我们从2003年开始生产的数据量是50亿千兆字节。如果以磁盘的形式堆积数据,它可能会填满整个足球场。在2011年每两天创建一次,2013年每十分钟创建一次。这个比率仍在增长。虽然所有这些产生的信息是有意义的,并且在处理时可以是有用的,但它被忽略。

90%的世界数据是在过去的几年中产生的。

什么是大数据?

大数据意味着真正的大数据,它是大数据集的集合,不能使用传统的计算技术来处理。大数据不仅仅是一个数据,它已经成为一个完整的主题,涉及各种工具,技术和框架。

大数据领域有什么?

大数据涉及由不同设备和应用程序产生的数据。下面是大数据领域的一些领域。

  • 黑匣子数据 :它是直升机,飞机和喷气机等的组件。它捕捉飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。

  • 社会媒体数据 :Facebook和Twitter等社交媒体保存着全球数百万人发布的信息和观点。

  • 证券交易所数据 :证券交易所数据保存关于由客户在不同公司的份额上做出的“买入”和“卖出”决定的信息。

  • 电网数据 :电网数据保持特定节点相对于基站消耗的信息。

  • 运输数据 :运输数据包括车辆的型号,容量,距离和可用性。

  • 搜索引擎数据 :搜索引擎从不同的数据库检索大量数据。

大数据

因此,大数据包括大量,高速度和可扩展的数据。其中的数据将有三种类型。

  • 结构化数据 :关系数据。

  • 半结构化数据 :XML数据。

  • 非结构化数据 :Word,PDF,文本,媒体日志

大数据的优势

大数据对我们的生活及其作为现代世界最重要的技术之一的重要性至关重要。跟随是只有几个好处,这是我们所有人都知道的:

  • 使用诸如Facebook的社交网络中存储的信息,营销机构正在了解他们的活动,促销和其他广告媒体的响应。

  • 使用社交媒体中的信息,如喜好和产品对消费者的认知,产品公司和零售组织正在计划他们的生产。

  • 使用关于患者的以前的病史的数据,医院正在提供更好和快速的服务。

大数据技术

大数据技术在提供更准确的分析方面很重要,这可能导致更具体的决策,从而提高业务效率,降低成本,降低业务风险。

为了利用大数据的力量,您需要一个可以实时管理和处理大量结构化和非结构化数据的基础架构,并可以保护数据隐私和安全性。

市场上有来自包括亚马逊,IBM,微软等不同供应商的各种技术来处理大数据。在研究处理大数据的技术时,我们看看以下两类技术:

操作大数据

这包括像MongoDB这样的系统,为实时,交互式工作负载提供操作功能,其中主要捕获和存储数据。

NoSQL大数据系统旨在利用在过去十年中出现的新云计算架构,以允许大量计算廉价高效地运行这使得操作的大数据工作负载更容易管理,更便宜,更快地实现。

一些NoSQL系统可以基于具有最少编码的实时数据以及不需要数据科学家和附加基础设施的模式和趋势提供洞察。

分析大数据

这包括像大规模并行处理(MPP)数据库系统和MapReduce提供对于可能触及的大部分或所有的数据的回顾性和复杂的分析的分析能力的系统。

MapReduce的提供分析数据的基础上的MapReduce可从单个服务器可以按比例放大至数千高端和低端机即由SQL提供的功能,并且一个系统的互补的新方法。

这两类技术是互补的,并经常一起部署。

操作与分析系统

操作分析
潜伏1 ms - 100 ms1 min - 100 min
并发1000 - 100,0001 - 10
访问模式Writes and ReadsReads
查询SelectiveUnselective
数据范围OperationalRetrospective
最终用户CustomerData Scientist
技术NoSQLMapReduce,MPP Database

大数据挑战

与大数据相关的主要挑战如下:

  • Capturing data
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

为了满足上述挑战,组织通常采取企业服务器的帮助。