https://static.jiayezz.com/72/cc4a3f9ee625d3b37dec570b561922

今日,谷歌在其云平台的大数据服务范围添加了另一个产品。新的谷歌云Dataproc服务目前是测试版, 它能够直接在虚拟机和一个类似云数据流的完全托管服务中管理数据处理引擎或Hadoop框架,也可以让用户在谷歌平台安排自己的数据管道。

谷歌云平台产品的经理Greg DeMichillie告诉我们:Dataproc用户可以在90秒内旋转一个Hadoop集群,而这明显快于其他服务, 谷歌对于集群中每个虚拟CPU仅收取1美分每小时。这是通常运行虚拟机和数据存储的最高成本,但正如DeMichillie指出的那样,用户可以添加谷歌低抢占式实例集群来降低预计成本。

因为Dataproc可以快速旋转集群,用户将能够在需要的时候建立特别的集群,因为它是受到托管的,谷歌将对其进行管理。

DeMichillie 说:“在这个空间里,一个适合所有人的标准是不存在的。我们认为这将是对整体投资组合的一个非常重要的补充。”spacer.gif

因为这种服务使用标准的Spark和Hadoop发行版(有一些调整),它能兼容几乎所有现有的Hadoop-based产品,用户能够轻松地运用谷歌的新服务,并减少现有的工作量。

DeMichillie和谷歌大数据产品经理James Malone告诉我们:谷歌之所以能够保证服务的速度,既是因为那些网络基础设施,也因为在建立优化的图像后成功地修复了几个Spark问题。

DeMichillie承认,有些人只是想要完全控制他们的数据管道和处理架构,因此可能想要运行和管理自己的虚拟机。在他看来, 与自己安装基础设施相比,用户理应选择Dataproc而不需要做任何实际权衡。

不出所料,Dataproc还集成了谷歌其他的云服务,例如BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging和Cloud Monitoring.

文章原文链接:https://www.anquanke.com/post/id/82634