您的位置:首 页 > 其他类别 > 计算机单招内卷书 > 计算机单招内卷书目录 > 章节目录 第5章 大数据的基本概念
返回目录 | 加入书签 | 推荐本书 | 收藏本页

计算机单招内卷书 章节目录 第5章 大数据的基本概念


****3*6*0**小**说**阅**读**网**欢**迎**您****

请用户自行鉴定本站广告的真实性及其合法性,本站对于广告内容不承担任何责任。

    大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。

    1.定义1,在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。

    2.定义2:IDC在对大数据作出的定义为:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流,或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。

    定义3:研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。

    二、大数据特征

    1.数据规模大(Volume)

    大数据聚合在一起的数据量是非常大的,根据IDC的定义至少要有超过100TB的可供分析的数据,数据量大是大数据的基本属性。

    2.数据种类多(Variety)

    数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐地排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。

    3.数据要求处理速度快(Velocity)

    要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间内形成结果,否则处理结果就是过时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。

    4.数据价值密度低(Value)

    数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。
>>>点击查看《计算机单招内卷书》最新章节