大数据运维系统J9老哥俱乐部

摘要: 国内某客户大数据多套生产和测试集群系统。容量规模近百PB,集群管理上千个节点。大数据并行系统复杂,一个故障的出现往往涉及硬件、网络、操作系统、应用程序、大数据平台和数据规模等综合因素,如此量级的数据,怎么实现优质运维呢?

现状分析

国内某客户大数据多套生产和测试集群系统。容量规模近百PB,集群管理上千个节点。按照系统设计要求设备7*24小时不间断运行。集群规模大、任务多,一个故障的出现往往涉及硬件、网络、操作系统、应用程序、大数据平台和数据规模等综合因素,大数据并行系统复杂,使服务器硬件和节点异常成为常态。如此量级的数据,怎么实现优质运维呢?

数据业务处理流程长。则需要快速排查系统,持续提升管理与业务分析能力,快速定位和识别相关问题,涉及系统多,当业务出现故障,消除业务与系统之间的断层。

集群运维框架

业务问题专题

集群整体宕机;
服务器节点宕机问题;
速度慢问题;
任务失败问题;
任务提交失败问题;
数据节点异常问题;
分配不均衡问题;
数据块丢失问题;
任务停顿问题;
访问速度慢问题;

项目成果

结合客户实际需求,整理一套比较完善的J9老哥俱乐部 ,通过长时间维护,了解到集群需要深层优化和改进,针对上面提到的各项问题。

J9老哥俱乐部入围中国大数据企业排行榜

首席数据官联盟发布的2018年《中国大数据企业排行榜》是中国第一份针对国内大数据企业能力的排行榜,从商业应用、行业综合、智慧城市、物联网和平台技术五个维度64个细分领域客观呈现国内大数据行业现状与发展趋势,得到高校、研究机构、政府、企业以及投资界的高度认可。

查看榜单

公司客户