大数据都包括什么
现在几乎每个人都在谈论大数据。那么,你知道大数据吗?你知道大数据包括什么吗?
流程处理
决策者感兴趣的是紧固组织的命脉,取得实时结果。他们需要的是可以处理随时发生的数据流的结构,目前的数据库技术不适合数据流处理。
例如,计算一组数据的平均值可以通过传统脚本实现。但是,关于移动数据平均值的计算,无论是到达、成长还是单元,都有更高效的算法。如果你想建立一个数据仓库,并执行任意的数据分析和统计,开源产品R或类似SAS的商业产品可以实现。但是,想要制作的是数据流统计集,逐渐添加或删除数据块,进行移动平均计算,数据库不存在或不成熟。
数据流周边的生态系统不发达。换句话说,如果你正在和供应商谈判大数据项目,你必须知道数据流程处理对你的项目是否重要,供应商是否有能力提供。
并行化
大数据的定义有很多种,以下相对有用。小数据的情况类似于桌面环境,磁盘的存储能力在1GB到10GB之间,中数据的数据量在100GB到1TB之间,大数据的分布式存储在多台机器中,包括1TB到多个PB的数据。
如果您在分布式数据环境中工作,在短时间内处理数据,则需要分布式处理。
并行处理在分布式数据中脱颖而出,Hadoop是分布式/并行处理领域广为人知的例子。Hadoop包含大型分布式文件系统,支持分布式/并行查询。
摘要索引
摘要索引是对数据制作预算摘要,加快查询运行的过程。摘要索引的问题是,必须制定实施的查询计划,因此有限制。
数据增长迅速,对摘要索引的要求不会停止。无论是长期考虑还是短期考虑,供应商都必须确定摘要索引的制定。
数据可视化
可视化工具有两种。
探索可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是可视化的洞察力。类似的工具有Tableau、TIBCO和QlikView,这是一种。
故事可视化工具被设计成以独特的方式探索数据。例如,如果想以可视化的方式在时间序列中根据地区看企业的销售业绩的话,可视化格式会事先制定。数据按地区每月展示,按预定义的公式排序。供应商PercepTIvePixel属于这一类。