“大数据”眼下成为最热门、最时髦的话题之一。
就像每个人心中都有一个哈姆雷特一样,每个人对大数据的定义也各有不同。
在自媒体时代,每个人都在定义自已的大数据概念。所有的事物都在与大数据联系起来。
但大部分是鹦鹉学舌,人云亦云。和“云”一样,“大数据”是一个过渡使用但倍感模糊的名词。
几千年来我们一直在利用数据,数据并不是新概念。但大数据的价值最近几年才被公众关注到,这有着时代背景的原因。
大数据时代背景:
数据采集从人工转变为自动化,在结构化数据快速增长的同时,巨量非结构化数据以更大的数量级增长。超出了常规信息加工处理的手段。
同时数据蕴含的价值可以从采集的数据集中挖掘出来。数据量的几何级增长、数据类型的多样化、以及用户对于数据访问、分析与应用的苛刻需求已经让传统的数据存储与管理无
从应对。
大数据概念:
Big Data is a broad term for data sets so large or complex that they are difficult to process using traditional data processing applications. Challenges
include analysis, capture, curation, search, sharing, storage, transfer, visualization, and information privacy. (Wikipedia)
1.大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。
(Merv Adrian @ Gartner)
2.大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(Gartner)
3.大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。
(麦肯锡全球数据分析研究所)
4.大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V
特点:Volume、Velocity、Variety、Veracity。(百度百科)
5.”大数据”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的”4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规
模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
(互联网周刊)
6.大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、使用、管理和处理能力。大数据的大小经常改变,单一数据集的大小从数兆字节(TB)至数十兆
亿字节(PB)不等。
大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及
其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十
或数百兆字节才会对他们造成困扰。”(维基百科)
7.大数据的价值就在于透过表象,究其本质,提升人类活动的准确性,减少传统方式下的“试错”成本,从而提升效率。(陈坚)
大数据的“大”并不仅仅指容量,尽管大数据必然包含大量的数据。与过去的数据源相比,大数据的速度(数据传输和接收的速度)、复杂度、多样性都有所增加。
重要的不是它的容量,而是你如何使用它!
我们并不关注大数据的数据量很大这样的事实,也不关注大数据确实会带来很多内在价值的事实。
这些价值体现在你如何分析它们,并采取怎样的措施来提升你的业务。
传统数据源通常是最开始就被严格地定义。数据的每一个字节都有重要的价值,否则就不会包含这个字节。随着存储空间的成本越来越低,大数据源在开始通常不会被严格定义, 而是去收集所有可能使用到的各种信息。因此,在分析大数据时,面对的大部分是杂乱无章、充斥着垃圾的数据。(Bill Franks)
准备好丢弃数据
驾驭大数据的关键是鉴别出那些是重要信息。有些信息具有长期战略价值,有些只有临时战术价值,大部分可能毫无价值。
大数据、快数据、深数据、宽数据