请问大数据平台容器化之后,flink、spark等计算任务运行到容器上了,那相应原有部署模式下计算任务读写数据存储的HDFS运行在哪里?读写性能相对原有物理机部署模式有多大差异?
收起大数据平台容器化之后,flink、spark等计算任务运行到容器上了,那相应原有部署模式下计算任务读写数据存储的HDFS运行在哪里?
根据你的问题,我谈谈我的一些经验和看法,大数据容器化混合部署后,容器化只是计算部分容器化,作业容器也是运行在物理的容器宿主机上,计算部分性能和原有物理机部署方式没有差异。hdfs可以还是用原有的hdfs,实现存算分离。 通过测试,存储密集型作业性能在存算分离场景下有一定影响(<15%),但是在可接受的范围内。希望这个可以对你有帮助。