数据仓库、数据湖...智慧水务如何玩转大数据?
大数据技术日益成熟,在各行业发挥了巨大的作用,与水务行业的深度融合亦是智慧水务创新发展的趋势。智慧水务大数据分析标准以大数据构建和分析标准为主要内容进行研究,提出智慧水务大数据三层架构,初步构建分析标准体系,为水务企业智慧水务大数据建设和分析应用提供参考资料。
0 引言
随着智慧水务的发展和水务数据的指数级别增长,水务企业面临着严峻的数据管理问题。将大数据技术及其应用分析引入到水务行业,更好地挖掘和使用这些数据,将会释放出更多的隐藏价值。智慧水务大数据分析通过集成和优化多个业务部门的协同应用,对水务企业整体的综合绩效和关键事件进行分析和统一管理,从信息集成平台接受并处理来自多个业务系统的数据,连续不断地监控重大事件、预测趋势并做出相应的输出,对生产运行进行量化考核,从而实现决策的科学化,体现智慧水务建设对水务企业运营数据的深层次挖掘和应用。
智慧水务大数据平台能够提高信息系统交互速度和质量,及时、准确、全面地掌握企业的整体状况。但是如何应用大数据技术,如何构建大数据架构,如何进行大数据分析还缺乏指导规范,需要建设相关的平台构建标准和分析指标体系。因此,研究智慧水务大数据构建和分析标准能够有力推动智慧水务建设和发展,能够更好地帮助水务企业开展具有针对性的分析、研究工作,有效地制定相关发展措施和建立相关考核体系,帮助水务企业制定科学的发展战略。
1 智慧水务大数据建设目标
1.1 实现水务全要素信息采集和存储
数据采集、存储、整合是智慧水务大数据分析的前提和基础。运用大数据技术,帮助水务企业实现从原水到水厂、从管网到用户等环节全方位、全要素的信息采集,消除信息孤岛实现系统的互联互通,实现海量数据的传输与存储。构建智慧水务数据仓库和数据湖,实现数据资源标准化、数据来源唯一化和信息流程简洁化,对数据进行集中管理,实现大数据整合应用。
1.2 打造水务大数据资源标准和规范
智慧水务大数据的分析应用,数据资源的标准化建设是重中之重,参考现有大数据的国家标准和行业规范,结合智慧水务对大数据标准化需求,提出了大数据标准体系框架(见图1),具体的标准规范由水务企业按需梳理和建设。
图1 智慧水务大数据标准体系
智慧水务大数据标准体系由7个类别的标准组成,分别为基础标准、数据标准、技术标准、平台标准、应用标准、安全标准和管理标准。基础标准:为整个标准体系提供包括总则、术语、参考架构和通用要求等基础性标准。
数据标准:为数据资源相关要素进行规范,包括数据资源规范和编码分类标准。
技术标准:为大数据相关技术应用进行规范,包括描述评估、处理分析和互操作等技术应用标准。
平台标准:为大数据平台应用、工具产品进行规范,指导建设数据仓库、数据集市、数据湖等涉及技术、功能和接口要求,包括数据平台和工具平台等标准。
应用标准:为大数据在水务行业所能提供的应用和服务制定的标准,包括数据交换共享、数据访问和数据应用等要求。
安全标准:为保障大数据安全进行规范,包括通用安全和行业安全等要求。
管理标准:为大数据管理制定的支撑体系,贯穿于大数据整个生命周期,包括数据运维、数据治理和数据评估等要求。
1.3 构建水务大数据分析平台和体系
利用大数据技术,构建水务大数据分析平台并对水务运行管理状态进行梳理,建立一套可量化、标准化的分析指标体系,对城市水务情况进行全面统计与深度分析,为数据消费者提供大数据服务。利用知识图谱和深度学习技术,建立各个业务条线的分析算法模型,挖掘水务行业海量数据中的潜在价值,提升水务企业科学决策能力。
2 智慧水务大数据构建标准
智慧水务大数据构建首先是明确业务场景和应用需求,从而决定数据源和数据采集的范围,并按照数据资源的标准和规范进行数据整合;其次是确定大数据平台要具备的基本的功能,以此选择大数据处理工具和技术框架,并设计大数据中心的数据处理流程;最后是构建顶层的数据决策平台,选择数据挖掘工具并建立大数据分析模型,提供各类大数据分析应用。
因此,智慧水务大数据构建可分为数据整合、数据治理和数据应用三大步骤,对应的技术架构自下而上分为三个部分(见图2),分别是数据层、大数据中心和数据决策层。
图2 智慧水务大数据三层架构
(1)数据层。针对不同业务和应用系统进行分析,制定数据采集范围与目标,收集各系统产生的全要素信息,将各种结构化、半结构化和非结构化数据进行整合,为智慧水务大数据的分析提供支撑。水务系统的数据通过数据层汇至大数据中心需经历数据抽取、过滤、清洗、转换和装载等数据准备过程。数据抽取:通过系统接口和ETL工具进行数据集成,从智慧水务体系各应用系统中抽取大数据中心需要的数据。
数据过滤:按照相应规范和需求进行数据筛选,快速高效地过滤出有价值的信息。
数据清洗:为保持数据一致性,需对数据无效值、缺失值、重复数据进行处理和加工。
数据转换:将数据按照业务需求,转换成大数据中心要求的形式。
数据装载:将经过清洗和转换之后的数据加载到大数据中心。
(2)大数据中心。智慧水务大数据中心汇聚了水务系统全要素信息数据,按照数据资源集合形式可分为两类:一类是数据仓库和数据集市,主要存储大数据技术治理后结构化的数据,数据仓库主要包括主数据、元数据、参考数据和一般数据,数据集市是针对特定业务和场景需求进一步构造的数据仓库子集,大数据中心中会有多个智慧水务业务条线的数据集市;另一类是数据湖,能够存储结构化和半结构化的数据,相较于数据仓库存储了更多的原始数据,数据不需要进行清理和转换,能够随时取用信息进行大数据分析,具有广泛数据发现和多维交叉分析优势。广义上数据湖可以包含数据仓库,但在大数据中心架构中,两者是互补互促的大数据应用格局。
(3)数据决策层。智慧水务大数据分析常用方法有可视化分析、预测性分析、数据挖掘算法和语义引擎等,通过可视化数据分析平台来直观展示海量数据关联,通过建立水务专业知识模型来预测未来状态和风险,通过信息集成来提供决策参考信息,通过为已有数据添加语义来获取非结构化数据的信息价值,最终为水务企业提供预警预测、风险识别、主动决策和综合治理等分析应用和数据服务。
3 智慧水务大数据分析标准
2020年 1月,中国城镇供水排水协会发布的《中国城镇水务 2035年行业发展规划》中指出“要明确智慧水务的概念、内涵及指标体系”,本文以供水行业为例,结合国内供水行业的特点和大数据应用场景因素,将供水行业大数据分析指标分为生产、经营、管理和服务型四类,以构建供水大数据分析的标准体系(见图3)。
图3 供水大数据分析指标体系
(1)生产型指标。城市供水生产的可靠性、持续性和高效运行关乎城市供水安全,从水源、水厂、管网、管网中途泵站、小区二次供水再到用户,生产链条环节上的大数据分析指标,反映了供水企业生产效率的高低、管理计划执行等情况,有助于发现问题并采取改进措施(见表1)。
表1 生产型指标
表2 经营型指标
表3 管理型指标
表4 服务型指标
智慧水务大数据分析标准研究贯彻了国家大数据发展战略,能够帮助水务企业进一步推进数据资源整合共享,促进智慧水务大数据发展与创新应用。本文讨论了智慧水务大数据分析的初步构建标准和指标体系,兼顾了数据仓库和数据湖并存的情况,为智慧水务大数据融合创新建立了一定的基础。
未来智慧水务大数据分析应用需要紧密结合水务行业的研究热点,通过大数据技术解决实际问题,如生产运行节能降耗、产销差漏损管控、客户主动服务等,水务企业还需进一步推进数据整合和利用,创新大数据应用,提升大数据价值,持续提高基于大数据分析的管理能力和服务水平。
微信对原文有修改。原文标题:智慧水务大数据分析标准研究和展望;作者:谢晋、蒋怀德、张晔明、罗贤伟;作者单位:上海市政工程设计研究总院(集团)有限公司。刊登在《给水排水》2021年增刊S1期。
来源: 给水排水