收录:
摘要:
Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行.基于时间窗口的数据分析是一类典型的大数据迭代型应用.基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低.针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率.实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%.
关键词:
通讯作者信息:
电子邮件地址: