另一个变化就是在企业级市场,大数据核心软件主要由国外企业把持的市场格局开始松动,中国大数据核心软件迅速成长,在一些方面实现了超越。
在全球大数据软件分工越来越专业、竞争越来越有序的环境下,大数据应用对大数据基础软件提出了更高的要求,在大数据核心软件众多发展路线中,谁会迈过这道坎,引领发展呢?
1.技术路线之争延绵十余年
在大数据基础软件发展中,技术路线发展演绎精彩纷呈,令人目不暇接。不过,经过多方采访,记者发现目前大数据软件的技术路线基本可以分为四大类:
第一条技术路线就是Hadoop
提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。
提到Hadoop,就不能不提Cloudera。虽然Cloudera也发布商业化工具产品,但以提供Hadoop发行版为主。产品分为免费版和企业版,只有企业版的核心组件不对外开放,其他技术均提供给社区。
Hortonworks就是通过Hadoop框架搭建其产品的最大的一家公司,将自己的技术完全贡献给社区,不靠产品获利,而是靠向企业客户提供支持服务和后期维护盈利。
MapR以发布商业化工具产品为主,同时提供Hadoop发行版。基于开源技术,提高稳定性,同时强化了一些高级功能,定制化程度较高,核心技术是不公开的,营收主要来自软件收入。MapR的企业级产品的优势是更好地管理和确保数据在Hadoop中的可恢复性和可靠性,以及多租户和高可用性功能提供了工具。
专家认为,作为大数据基础软件的一大技术路线,基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,运行速度虽然不占优势,但却十分稳定。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。
第二条技术路线就是Spark。
Gartner连续多年唱衰Hadoop,并认为,尽管企业对大数据解决方案的需求不断增长,但对Hadoop的需求没有像预期那样加速。同时,25%的Spark已经开始脱离Hadoop生态单独运行。
一位业界专家介绍非常形象:如果说Hadoop是一家大型包工队,Hadoop是人工的搬砖盖房子,所以慢,但是稳妥;Spark是用机器搬砖盖房子,可以很快很灵活,缺点就是更容易出机械故障。
Hadoop开始升级,指定调度专家YARN调度工人,其MapReduce也可以支持Mesos;Spark从多个仓库(HDFS、Cassandra、S3、HBase)搬砖,还允许不同专家如YARN/ MESOS对人员和任务进行调度。
其实,这两者并不是水火不容。Spark经常和Hadoop团队合作,让问题变得更加复杂。不管怎么说,Spark和Hadoop都是两个独立的包工队,都有着各自的优缺点和特定的业务用例。
Spark技术的代表企业是Databricks。Databricks公司是由加州大学伯克利分校负责开发流行的开源Apache Spark数据处理框架的团队创建的。该公司帮助大企业快速处理、整合和分析大量数据。它的统一分析平台旨在孤立的数据存储系统之间建立数字管道,并帮助工程师和数据科学家更好地沟通。
Spark的优势是在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。此外,Spark在机器学习应用中的速度同样更快,如Naive Bayes和k-means。
所以说大数据应用基础平台并不是固定的,也是需要优化的,优化后的性能表现会有出色的表现。
第三条技术路线就是以星环科技为代表的自主开发。
中国独特的国情带来的大数据量,国外的技术在处理本土业时经常会水土不服:中国用户需要处理的数据量远超过之前在其他国家的需求。同时中国用户在应用场景方面有着非常强的创新意识,需要处理的场景复杂度也超过了其他国家用户。星环科技就是专注解决用户难点,不盲从社区或其他路线的代表,走出了一条独特的自主研发技术创新之路。星环的产品体系已经从最早的分析型数据库扩展至分析型数据库、实时计算、全文检索数据库、图数据库、Bigtable数据库、交易数据库、基于容器技术的数据云等,从底层资源调度到上面的计算引擎,形成了一条有别于Hadoop或Spark、而具有星环特色的技术路线,实现了多个领域的技术突破。例如分析型数据库ArgoDB采用了星环统一的计算引擎以及统一的存储管理系统,同时针对闪存设计的存储格式,取代了传统的Hadoop+MPP的结构,同时对比MPP和Hadoop平台在数据量较大时都有性能上的优势。