第02版:要闻
3上一版  下一版4
 
河南新县“游”出“绿色掘金”路
黑臭水体治理示范等将获资金补助
山西开展“百日清零”专项行动
河北对持证排污单位确权
海南推进环评与排污许可信息化衔接
深圳打通数据审核“最后一公里”
甘肃5市(州)公开省级环保督察意见整改方案
图片新闻
图片新闻
 
版面导航
 
返回电子报首
3上一篇  下一篇4 2019年7月5日 放大 缩小 默认        
利用大数据技术 强化查漏补缺
深圳打通数据审核“最后一公里”

 

◆本报记者刘晶 实习记者李菁

记者近日从广东省深圳市第二次全国污染源普查工作办公室(以下简称深圳市普查办)获悉,经过多次数据审核校验和修改的考验,深圳市审核通过率实现了100%的目标。“深圳数据”持续走在广东省前列。

据悉,第二次全国污染源普查指标多达1700余项,对数据的完整性、逻辑性和准确性有极高要求。为此,深圳市利用大数据技术,打通数据审核“最后一公里”,确保普查数据真实准确,这一“深圳特色”也获得生态环境部普查办的肯定。

建立模型,夯实数据基础

作为全国经济发展领头羊之一,深圳市拥有大量工业企业,污染源头复杂多样。据介绍,深圳市需要开展入户调查的工业污染源达9.4万家,占全国工业源总数的3%以上。数量如此庞大,普查员该如何保证数据填报精准无误?

深圳市普查办工作人员介绍,普查员在上门填报时,对于普查企业的基础信息掌握有限,一般仅知道企业名称、地址、联系人和联系电话。对于企业是否存在行业特征污染物、是否使用普查所关注的原材料、是否生产涉污产品等指标,仅有一个模糊的概念。

因此,深圳市普查办立刻启动大数据预填报项目,通过搭建部门监管数据与互联网公开数据之间的关系网,在已有部门监管数据源的基础上,使用大数据技术获取普查对象在互联网公开的原辅料、产品等信息,并通过机器学习算法建立一套“深圳市工业企业原辅料—产品—排放污染物”的概化模型,极大地丰富了普查对象的基础数据,解决了普查员在普查过程中调取数据缺乏指向性的问题。

利用模型的预测功能,普查人员能够大体了解企业的原料、水气电资源消耗量、产品产量、产排污指标和产排污数量范围,做到填报过程中“眼中有数,心中有谱”,能更有针对性地填准报表并核实存疑数据,大大提高了入户效率;减少了普查数据在录入过程中出现误填误报的情况,为数据审核工作打下良好基础。

智能校验,强化查漏补缺

为确保普查对象应查尽查,在按照国家要求对第四次全国经济普查清查名录、用电数据清单、信访举报清单和“散乱污”企业排查清单等进行排查比对的基础上,深圳市普查办还联合南方科技大学,在人工智能自然语言处理技术的支持下,设计出相应的“数据清洗流程和排污企业实体一致性算法”。通过调取跨部门监管数据,计算企业名称相似度,分别提取全市工业用气量排名前3000名、用水量前10000名、环统数据、重点源监管数据的企业记录。将外部数据与普查数据进行比对,筛查出2399家需核实疑似漏查企业名单,核实补充填报了249个污染源报表。

为确保普查报表应填尽填,深圳市普查办采取分析各行业涉废水、废气、危废等报表填报率的方法,从表格填报率大于50%的行业中筛选出年产值大于300万元且未填报相应表格的企业名单,形成3731家疑似漏表企业清单。经现场核实,共补充填报652家实际漏填表格企业。

为确保核算工艺环节应算必算,深圳市普查办通过利用建立在NoSQL数据库上、融合了环保专家专业知识和机器学习自然语言处理的工艺环节审核工具,对填报数据的工艺环节实现自动化审核,反推工艺流程是否有缺漏,完成了20个主要行业的工艺流程审核,覆盖企业数量45409家,形成需核实企业名单11833家。经核实,共补齐了8000多个指标。

细化审核,纠正异常数据

第二次全国污染源普查是一项重大的国情调查,其特殊的专业性决定了工作的复杂性。为此,深圳市发挥技术优势,厘清复杂信息、指标,突破数据审核瓶颈,为普查数据的准确性夯实基础。

“数据质量是普查工作的生命线。”深圳市普查办负责人说。为进一步提升数据质量,更好满足环境管理部门后续对数据的使用需求,深圳市普查办强化数据审核,排除异常数据。

“原辅料是描述和刻画企业生产活动的必要指标,在普查数据填报过程中容易漏填、错填。” 深圳市普查办工作人员说。

为解决这一问题,深圳市普查办联合南方科技大学开发了专门针对原辅料用量、固废产生量、危废产生量等的填报指标及填报内容审核的方法。据了解,这一审核方法基于“相同行业在填报指标项和填报内容上应该具有较高的一致性”的假设,从多个维度比对“同行业、同产品、同工艺”的“三同”原则下填报企业的数量型指标的合理性,借助指标特征图谱筛选出异常值指标。通过比对异常值内容,从而查找出漏填、错填的企业名单。从20个行业中筛查得出了790条异常值信息,经核实纠正了266条数据。

同时,深圳市普查办联合南方科技大学使用人工智能比对技术,分别提取外部监管数据中全市工业用气量排名前3000名、用水量前10000名的企业记录,与普查系统中填报的用水量和用气量数据进行偏离度分析。共筛查出664条偏离度较高的记录,核实纠正203条数据。

值得一提的是,深圳市普查办大数据项目组联合市督导组开发了“深圳市审核软件”,作为对国家、广东省审核规则的补充,直接对国家软件系统导出的表格进行审核,并且规则可动态更新。

 
3上一篇  下一篇4  
  


中国环境网 http://www.cenews.com.cn
中国环境报社版权所有。未经许可,不得转载或镜像。
地址:北京市东城区广渠门内大街16号环境大厦1202、1005房间 邮编:100062
订阅电话:010-67102729 | 67102729

 

关闭