到那时,数据库还是数据库吗?好吧,这个问题看似很愚蠢。但是,在关系数据库、关系数据库管理系统风靡数年后(事实上,数据库相关的技术和操作是企业IT部门的核心功能之一),我们似乎转入了一场市场营销大战,几大巨头在产品发布上奋力攀比,抢人眼球。而所有的发布内容无非在阐述两点:第一,我们的新产品与传统的关系数据库管理系统大不相同;第二,我们在数据处理和存储方面有实质性的突破。而就在不久前,Oracle和IBM两大巨头还仅在数据源的存储和处理速度上你追我赶,互不相让。而两家产品的竞争早在一年前就已有人给出结果了。
SAP HANA:我们在开拓数据库的新领域
这篇博客主要谈及近来发生的几件事情,其中第一件便是SAP发布消息称SAP HANA的推出使得SAP成为数据库市场的大赢家,他们将继续推进这一产品,并将在这一市场形成更强有力的竞争优势。
我在The Register上读到了一系列与此相关的报道。其中一篇为“SAP还希望将其ERP套件下使用的旧数据库平台更新换代,并已经重新调整预算,推出了总额为3.37亿美元的SAP HANA激励计划”。文章中还引用了SAP HANA在上海大众汽车的基准测试数据,写道:“原来在传统磁盘数据仓库上(产品名字并未披露)需要20分钟才能返回的查询结果,在基于SAP HANA的NetWeaver Business Warehouse数据仓库上45秒即可获得。”哇,棒极了!简直不可思议!
好在The Register对这类消息不会随随便便就买账,紧接着就发布了另一篇文章,写道“然而SAP并未披露具体的配置细节,这才是重点”。我们正在尝试用新的技术来开拓新的领域,并且目前只有一个突破性的共识,那就是:非结构化数据在结构化关系数据库中的使用效果非常糟糕,而只要换一种方法另辟蹊径,很容易便可倚靠一个“新型”数据库产品制胜。
HP Vertica:非结构化数据凸显孰优孰劣
类似的,HP也发布了一组HP Vertica数据库与其竞争对手产品的对比测试结果。测试结果悬殊至极,以致于让人联想到SAP发布的测试结果,从而不得不质疑这样的竞争是否有意义。按照这样的趋势,我们随便再用一些基于Hadoop的或者其他的技术,便又可以得到一组效果惊人的测试结果。然而,我们所作的这些测试到底是为了什么呢?让我们仔细研究一下Vertica,来看看它到底有什么吧。相信我,这并不是一件容易的事。因为单单是这些产品特性描述里那些花哨的概念,就足够让你头大的了。HP在自己的官网上是这么介绍的:“HP Vertica分析系统提供了革命性的实时分析平台,预先实现企业明天的需求。简单易用,为企业用户,数据库管理员和程序员均最大限度节省了时间,提升了价值。”这样的介绍简单易懂,然而仔细一想,同样的介绍不是也完全适用于SAP HANA吗?
真是令人费解。然而维基似乎比HP还更了解Vertica,无论对于产品的描述还是用途,都比HP网站上写的更加清楚易懂。此外,维基对于SAP HANA的介绍也相当到位。更重要的是,从维基的介绍里更容易理解两者在实现方法和用途上的区别。Web、云计算和服务所带来的大数据时代仍旧让人捉摸不定,如何为大数据提供解决方案也不断面临新的挑战。但是大数据时代的核心也还是数据本身 – 只是这些数据不再是结构化和面向业务的了。非结构化、访问方式的多样化和随机性颠覆了我们传统的数据处理,这要求我们用全新的角度来应对。
亚马逊网络服务:回归数据本身
计算机网络时代之初所带来的剧变让我们得到了一个惨痛的教训:数据、数据模型和数据管理至关重要。如今是该重新研究数据本身以及如何使用数据了,这意味着你要根据需求考虑如何使用和存储数据。我认为单靠传统型数据库没办法应对这些新的挑战。相反,我认为我们应该回归基础,回归数据本身,清楚我们具体的需求并选择合适的产品。
抱歉,我刚刚是提到产品了吗?或许我应该用服务这个词,因为还有一条信息的发布令我暴跳如雷并开始编写这篇博客。有消息称,亚马逊网络服务的云存储已经处理了海量的对象。并且BusinessCloud9发布的一张图表显示,截至2012年第二季度,亚马逊的云存储对象将超过一万亿。或许这为我们提供了一条出路,我们再也无须担心数据库的储存能力和大小了!