收录:
摘要:
一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型,首先根据Spark系统中批处理应用执行原理选取分类方法影响因素,从中筛选出强相关指标并构建批处理应用执行时间分类方法,然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法(PCA)和梯度提升决策树算法(GBDT)对应用执行时间进行预测,最后当即席应用到达之后,先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。
关键词:
通讯作者信息:
电子邮件地址: