沈阳中合智网信息技术有限公司前身是沈阳龙腾软件技术有限公司,有着十年的发展经营史,注册资金1200万,公司位于沈阳市浑南新区,主要从事云平台服务、平安城市监控工程、政府行业解决方案、智慧城市建设方面,有着诸多成功案例。

沈阳市浑南新区科幻路9号百科大厦

电话:024-67866792

最新动态
Hadoop 推动?#25191;?#25968;据仓库技术的变革
发布时间:2016-4-19 17:31:14


一、中美Hadoop应用统计对比

       Hadoop是如何推动数据仓库技术进行深刻变革的。这里有一组统计数据:

     

左边的数据是Wikibon的分析师做的美国市场中Hadoop新技术的应用场景统计。他采访了上千名Hadoop的用户,这其中有60%的用户使用Hadoop技术来做数据仓库,有25%的用户?#21069;?#29031;交互式BI的,在 Hadoop之上用报表工具、可视化工具来做交互式分析数据报表。同时有6%的用户是在用HBaseCassandra来做OLAP的简单轻量级Key-Value查询。有4%用户使用MongoDBCouchbase文档式数据库进行文档存储,还有5%的用户使用流处理来做实时数据?#20449;校?#30001;此构成一个完整的100%的应用分类。?#27604;?#36824;有可能有一些其他的应用漏掉了,但这几个是主要的应用产品。

在中国市场,根据我们的样本中几百名企业用户进行统计,结果跟美国稍微有点差异。分析结果显示,有56%的客户是做数据仓库的,包括ODSETL、数据清洗等,如在我们的客户中,用于取代关系型数据库提供完整的数据仓库支持,来建构各种主题模型。这个比例是比较接近美国用户的。但是我们只有8%的用户在做交互式BI。自主BI这一块在国内也开始兴起。注意到和美国市场相比,显著不一样的地方在于我们有24%的客户是?#32654;?#20570;轻量级查询的,这个百分比指的是客户数量占比而不是客户集群规模(构成的集群节点数量)。这个比较有趣的现象说明,实际上在中国,应用比较简单,因为客户的数据量非常巨大,才会使用新技术解决问题。实际上中国客户的数据量,跟美国同类型客户的数据量相比是要大一个数量级(10倍)的,简单的查询对中国的客户来说是有巨大的困难的。所以我们可以看到有24%的客户在用         Hyperbase(HBase)组件进行简单查询。还有2%的客户是用我们的产品来进行文档的搜索和?#25216;?#32034;。另外还有个很大的不同是有10%的用户是用流处理的。从图中就可以发现,我们国家的工业4.0制造业传感器的网络建设速度是快于美国的。我们的用户群中比例明显?#32479;?#36807;了美国的市场比例。

二、传统数据仓库面临的四大挑战

实际上大家可以看到,Hadoop技术在过去一段时间之内,至少在2015年逐渐开始往数据仓库方向转变。?#27604;唬?span>Hadoop在早年刚开始创建的时候,主要也是作为数据仓库的,所以现在越来越多的行业也开始用Hadoop技术做数据仓库。那么什么是数据仓库?Gartner的解释是:数据仓库不仅是一个单一的数据库,它是一整套的数据管理系统,包含很多的辅助工具、一些设计理念和管理方法。传统的数据仓库技术,经过快20年或者更长时间的发展,已经面临了一些瓶颈。

第一个问题,我们看到随着数据量增大,包括复杂程序应用的增多,传统数据仓库越来越不堪重负。我们有一个客户在数据仓库建立了5000个统计报表应用。我们也有客户使用着数据量近20PB的商业系统。对于大部分的企业用户,数据量?#35805;?#22312;几十个TB或者几百个TB左右。这么大的数据量?#28304;?#32479;的仓库系统来说是非常大的负担。单一的数据仓库无法处理这么大量的数据,所以在这一块需要新的技术,特别是利用分布式计算来取代原本单一的计算方式来进行横向扩展。我们认为Hadoop技术能成功的最根本的原因是它是从单机的集中式运算变成了分布式计算,这是它最大的计算模式的演变。把集中计算变成分?#25216;?#31639;是一个必然趋势,这是碰到的第一个困难,一是需要一些新型的分布式数据库技术进行性能的加速,来处理这种几百TB或者上PB的数据量。二是随着数据源的不?#26174;?#22810;,访问数据的方式变得非常复杂。我们很多客户有几百个库表,有几千上万张表,这样复杂的数据模型通常很难把所有数据存储到一个数据库当中,只能分摊到很多个库当中。对数据的使用者带来了很大的困难,因为他们需要把多种数据全部存储起来。这个是第一个大的困难。

第二个问题是数据的类型发生变化,过去是以结构化数据为主,80%是结构化数据。现在非结构化数据逐渐增多,这个值开始反过来,80%是非结构化数据和半结构化数据。但是从价值度来讲, 80%的价?#24471;?#24230;仍然是来自于结构化数据。而对于企业来讲,需要这些非结构化数据,进行存储分析。另外在数据源变多以后,用户和业务部门也变多。这些部门之间如何进行资源?#34892;?#31649;理和隔离,变成一个非常?#29616;?#30340;问题。例如过去?#34892;?#38134;行客户是采用行政处罚措施,如果有人写一条SQL,把数据仓库资源耗尽,导致其他人不能使用,那么这个人今年的奖励就没有了。采用这种方式是没?#34892;?#26524;的,因为用户根本就不知道他写的这个SQL,会不会把数据仓库跑?#19994;簟?#21478;外做访问控制也是很痛苦的,为了?#20849;?#21516;的分支机构只能访问自己的数据,需要创建视图。如果用户有1000张表,同时还有几十个分支机构,那么久需要创建上万个视图,这对数据的视图管理会带来巨大的挑战。所以在几年前,分析机构就提出要建逻辑数据仓库。逻辑数据仓库就是在过去几年当中一直被数据仓库领导者反复强调,我们需要去建一个逻辑上大的数据仓库,他底下可以包括多个数据源----通过database federation(数据联邦)功能,同时它可以跨多种数据源,可以把结构化数据和非结构化数据统一处理。Michael Stonebraker在前段时间讲过,未来不管是传统数据库技术还是大数据技术,大家都会统一到使用SQL接口,包括结构化数据与非机构化数据,非结构化数据也会被结构化后进行处理。所以逻辑数据仓库适应于这种变化,通过统一接口统一方式访问数据源,完成跨各种数据源的访问,同时也会建造一个有多租户管理、资源管控的环?#24120;?#33021;够被很多部门、用户进行使用。这从理论上来讲是区别于传统数据仓库的应用场景。

第三个挑战是数据处理的延时太长。过去整个数据架构前面是OLTP系统,中间是ODS,后面是数据仓库层,再往后是数据集市。那么在数据仓库这一层,数据是T+1的,意味着第二天才访问前一天的数据。但是很多行业需要更实时的数据,为了了解当前的生产运营状况,它们需要基于T+0、准实时的,甚至是实时的几分钟几秒钟之内的数据。这?#20013;?#27714;就演变成第三种数据仓库运营模式——Operational Data Warehouse。这种业务模式的设计初衷是希望把数据实时或准实时的导入到数据仓库当中,能够对实时数据进行快速的分析和挖掘。传统的数据仓库是?#21051;?#26202;上数据导入,花7-8个小时进行批处理计算,第二天才能看到报表。所?#28304;?#32479;技术面临一个普遍的问题:不能实现实时处理。

第四个挑战是原先的逻辑数据模型不能?#34892;?#25903;撑数据快速分析和价值发现。过去大?#26131;?#32479;计是对数据做一些常见的聚合以及连接关联操作。遵循关系数据库的模式,有很多模型和各种范式,像很多厂商在相关行业设计了十大主题模型、八大主题模型,中间数据的关联程度是非常高的。一个有几千个数据源表的业务系统,中间层需要用上万张数据表来满足它的模型。这样一个复杂的模型所带来的弊?#21496;?#26159;数据结构一旦发生变化或者增加时,模型就不堪重负。预先设定的模型没法适应业务的快速变化,所以我们经常能看到银行花几年时间建立一个数据仓库,反复投入,每年在改造它。近期了解到一家银行科技部门,前后10年投入十几亿来建数据仓库。而今天一方面大量数据在产生,同时新的数据也在增加,?#34892;?#26469;自内部的数据,?#34892;?#26469;自新的外部数据。数据处理方法的确到了应该变革的时候。通过利用新的机器学习的统计方法,不仅做传统SQL的统计,还希望能够从数据关联上面发现规律、关联模式、时序?#31995;?#29305;征。通过?#36816;?#36827;行一些预测分析,能够发现统计学意义?#31995;?#22240;果关系。这就变得?#20113;?#19994;更加重要。这一块是第四种数据仓库新的设计模式,叫context independent data warehouse也就是说抛弃这些逻辑关联模型,在不知道这些模型的情况下,也能通过机器学习的方法?#19994;?#25968;据之间的关联关系,能够?#19994;?#20182;们之间统计学的因果关系。

Copyright © 1995-2015 中合智网 All right reserved. 辽ICP备15011899号
莱万特vs揽胜运动
在线二十一点手机游戏 时时彩6码组选 安徽时时 sg飞艇彩票计划 星空娱乐广州 全天重庆时时彩大小单双计划 十一选五河北时时 时时彩一星定位胆公式 三公棋牌游戏可提现 员工管理系统代码 百赢棋牌真人赌博下载 中国福利彩票注册 足球比分网即时比分捷报 云南时时走势图 北京pk赛车2期计划软件 赛车pk10冠军计划软件