“大数据”已成新的热词,频频见诸报端及各类演示活动。如果我们仍按照传统的内部结构化数据来定义“大数据”,这不过是运用更多手段和力量更好地分析既有资料的一场游戏,因此市面上用于此目的的产品和服务不断涌现。但是,真正的挑战在于大多数公司都在试图发现并利用外部非结构化数据以便利用他方数据突破性地洞察“真实”世界,这也是大数据的真正价值,因此问题其实是:我们可以从哪些外部来源获得至少可以合理相信的数据?我们如何存储这些海量数据?我们如何管理这些数据的访问请求?
9月份,这些问题取得了一些进展。“开放政府伙伴关系”组织在纽约举行第一次会议,会议得到了联合国的大力支持,并作出了以下原则性陈述:面对目前动荡不安的世界经济形势,我们需要开放政府以建立信任,振兴政府与公民之间的社会契约。开放能让政府和公民团结一心,加强共识,有助于解决我们的实际问题。开放首先从信息共享开始。
参会政府以及越来越多的地方政府机构纷纷加入“开放数据”这一潮流,意味着至少会有合理数量的可信数据公开,方便企业进行角色或者开发新的解决方案。开放数据,这种公开自己数据给他人使用而不受版权或其他阻力制约的行为,已经催生了一些非常有意思的新服务。Google Transit Feed便是一个广为人知的例子。该工具在谷歌地图中嵌入了城市交通管理机构的实时交通数据,并向NextBus等新一代移动设备应用程序推送信息。
这一现象的根源是一个非常严肃的话题,即如何“使用”(需从完整意义上来理解这个词)开放数据。开放数据意味着能发现和使用新的实时信息源,同时以这种方式公开自己的数据以鼓励他人在市场上为您的公司带来更大“能见度”。开放数据要求使用应用程序接口 (API) 来访问数据,虽然我们可以定义并发布这一接口以适应提供的开放数据集,好的做法则是在开发“服务”时确保数据围绕自己的 API 分离而服务随后通过该 API 使用数据。不妨将其视为向所有应用程序开发迈进的重要一步,有关政府计划中这一点的详细信息,请参阅“美国法典”。
另一件值得一提的事件是网络存储工业协会 (SNIA) 发布了云数据管理接口 (CDMI),即以数据即服务 (DaaS) 形式提供虚拟化存储的标准。以下援引其网站“标准”页面所述:
CDMI 定义了应用程序将用来从云计算平台创建、检索、更新和删除数据元素的功能接口。作为此接口的一部分,客户端将能发现云存储产品的功能,并使用这一接口来管理存储容器以及其中放置的数据。此外,还可通过这一接口在容器及其数据元素上设置元数据。管理应用程序还可使用这一接口来管理容器、帐户、安全访问和监测/帐单信息,甚至是通过其他协议才能访问的存储容器。基础存储和数据服务的功能公开,以便客户端能理解产品。
CDMI 的宗旨是提供一个“简单”而又安全可靠的接口,以鼓励使用虚拟化存储,实现对虚拟化存储数据的访问,而这种数据当然也是返回开放数据的链路!CDMI 适合大多数数据类型,但针对 REST (Restful State Transfer) 进行了优化,因为有人可能希望基于 HTML5 的 Web 架构构建新一代应用程序。CDMI 不仅简化了可访问性和使用,还管理着一套紧密结合的安全措施,事实上这些措施非常全面,本身就为采用 CDMI 标准提供了足够的理由。
因此,这两大进步令移动客户端应用程序,即可从数据源结合到 Web 模型并从云端运行的新一代功能,更易于部署。但是,正如新的环境都会遇到的情况,新的开发方法和标准非常重要!