收录:
摘要:
Hadoop分布式文件系统( HDFS)适合处理和存储大文件,在处理的文件体积较大时表现出色,但是在处理海量的小文件时效率和性能下降明显,过多的小文件将会导致整个集群的负载过高。为了提高HDFS处理小文件的性能,提出了双重合并算法-即基于文件之间的关联关系和基于数据块平衡的小文件合并算法,能够将小文件的文件体积大小进行均匀分布。通过该算法能够进一步提升小文件的合并效果,减少HDFS集群主节点内存消耗,降低负载,有效降低合并所需的数据块数量,最终能够提高HDFS处理海量小文件的性能。
关键词:
通讯作者信息:
电子邮件地址: