收录:
摘要:
为解决北京水务数据资源面临多源异构数据难以分析及数据集成困难等难题,在分析北京水务数据资源的基础上,采用大数据和云计算等相关技术进行北京水务数据资源的有效融合。针对北京水务的结构化及非结构化数据,研究相应的数据抽取、转换及存储的技术,提出基于水务数据资源融合的技术架构,其中结构化数据抽取使用D2RQ工具,非结构化数据的抽取使用jieba分词工具及tf-idf权重算法,并进行实验验证,证明该套技术方案的可行性与可信度,在数据存储模块采用基于云计算的分布式数据存储技术,用于存储融合后的海量数据。研究的数据资源融合技术方案能够帮助提高北京水务数据资源的融合效率与应用能力。
关键词:
通讯作者信息:
电子邮件地址: