2011年,1.8ZB(也就是1.8万亿GB)的大数据创建产生,这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年。据IDC报告预测,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数量也将相应增加10倍以满足需求。
毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算、数据仓库、数据挖掘、商业智能等应用的连锁反应。
我们知道,互联网领域应用系统的构建存在诸多问题,如:客户群体是不确定的、系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。
在大数据技术上用云计算构建下一代数据仓库成为可能。从系统需求来看,大数据的架构对系统提出了新的挑战,而这也可视为云计算的“天赐良机”:
一、集成度更高:这意味着一个标准机箱最大限度完成特定任务,华硕不久推出的一款高密度机架式服务器RS720,2U高度最大能采用支持4个双路计算节点,实现单机8个英特尔5600系列处理器和高达总计768G内存资源。
二、配置更合理、速度更快:存储、控制器、I/O通道、内存、CPU、网络均衡设计,针对数据仓库访问最优设计,比传统类似平台高出一个数量级以上,这方面的经典案例是数据仓库头号厂商Teradata,其采用双路Xeon六核处理器的企业级数据仓库5650可轻松为数千名用户处理更复杂、更大量的工作负载、持续负载以及批负载、操作性查询、简单报表和复杂的分析,所有功能均在同一个平台上运行。与上一代产品相比,动态企业级数据仓库5650的性能提高了43%,占地面积保持不变,减少了能源消耗和空间需求。
三、整体能耗更低:同等计算任务,能耗最低。
四、系统更加稳定可靠:能够消除各种单点故障环节,统一一个部件、器件的品质和标准。
五、管理维护费用低:数据藏的常规管理全部集成。
六、可规划和预见的系统扩容、升级路线图。