数据仓库建设中数据质量问题的研究
医学信息2006年10月第19卷第10期Medical Information.Oct.2006.Vo1.19.No.10 ・临床医学信息学・ 数据仓库建设中数据质量问题的研究 刘逸敏,王志勇,师恩洲 (第二军医大学附属东方肝胆外科医院,上海200438) 摘要:在数据仓库建设过程中,数据质量问题常常被人忽略。本文对“军卫一号”数据仓库主题所对应的相关业务表的数据 质量进行了分析,给出了引起不良数据质量的原因,并提出了解决办法。 关键词:军卫一号;数据仓库;数据质量 The Research of Data Quality in Building Data Warehouse LIU Yi—min,WANG Zhi—yong,SHI En—zhou (Eastern Hepatobiliary Hospital of SMMU,Shanghm 200438 China) Abstract:The question of Data quality in building Data warehouse(DW)is often ignored.This paper analyses the data quality of some business table in DW building,and gives some suggestion. Key Words:Data Warehouse;Data Quality 数据仓库通常是一个面向主题的、集成的、相对稳定的、 否正确体现在现实或可证实的来源;②完整性(Integrity): 反映时间变化的数据集合,它是建立决策支持系统的数据 数据之间的参照完整性是否存在或一致;③一致性(Consis. 基础 。 tency):数据是否被一致的定义或理解;④完备性(Complete. “军卫一号”医院信息系统已经应用了近十年,期间积累 ness):所有需要的数据是否都存在;⑤有效性(Validity):数 了大量有价值的历史数据,通过对数据的分析、展现、挖掘, 据是否在企业定义的可接受的范围之内;⑥时效性(Timeli. 为医院医疗质量的监控、临床路径模型的研究、客户(病人) ness):数据在需要的时间是否有效。 管理关系平台搭建提供了数据基础,因此建立数据仓库 造成数据质量问题的原因有很多,多数是由系统集成和 (Data warehouse)已经成为必然趋势。分析HIS的应用情况, 历史数据造成,如:不同时期开发的业务系统之间数据结构 可以发现HIS是在不同时期、不同背景、面对不同应用、不同 不一致;不同时期HIS业务过程的再造;遗留系统和新业务、 开发商在各种客观前提下建立的,其数据结构、存储平台、系 新管理系统数据集成不完备带来的不一致性等。其他原因 统平台均存在很大的异构性,因而按照创建数据仓库的规 还有:系统各录入模块缺少输入验证过程,不能屏蔽非法格 则,需先将对来自事务处理业务系统和外部数据源的数据进 式的数据进入系统;验证程序不能发现格式正确但内容不正 行ETL,即数据抽取(Extract)、转换(Transform)和装载 确的错误;没有对用户实施严格的修改权限管理,系统受到 (I』0ad)。但在这一转换过程中,数据仓库中数据质量问题常 不可控制的更改,而这种更改又不能及时的传播到受影响的 常被人忽略。数据仓库作为决策支持系统的基础,高质量的 系统等。 数据服务是非常必要的,否则就会出现所谓的“垃圾进,垃圾 上述原因可能是系统数据有多个交叉的访问界面,难以 出”的现象。在任何可能的情况下,提取数据之前应该清洁 统一管理数据质量问题;缺少完整性检查的条件;低效率的 数据。本文从涉及数据质量的因素人手,结合实际数据仓库 源系统设计。 实施的经验。分析了数据质量问题产生的原因,给出解决 办法。 2数据仓库主题对应相关业务表数据质量分析 附表是我院对数据仓库建设六大主题所涉及到的业务 1数据质量 表的数据质量的分析。 数据质量问题具体表现为:①正确性(Accuracy):数据是 收稿日期:2006—04—30 , 维普资讯 http://www.cqvip.com
医学信息2006年1O月第19卷第1O期Medical Information.Oct.2006.Vo1.19.No.10 3不良数据质量原因分析 杂有一定的主观因素。 3.2其它常见的影响数据质量问题的主、客观因素 之所以说医疗行业的 3.2.1数据质量问题长期以来没有得到足够的重视这是 造成医疗数据质量低下最显而易见和最重要的原因。在医 疗数据的质量监控方面,长期以来对数据从录入到存储就没 有统一的管理部门,传统的医疗数据管理模式,是由各个职 3.1 医疗数据的复杂性及特殊性 3.1.1 医疗行业的顾客是特殊群体顾客是特殊群体,是因为来医院要求获取服务的人中绝大部 分是病人。正如世界上没有两片一模一样的树叶,病人个体 问的差异、疾病的多样性、致病因素的复杂性等都决定了病 人的诊疗过程中产生的数据的多样性和复杂性。 能部门分散进行管理,报表白成体系。换句话讲,管理者长 久以来一直都没有认识到数据质量的重要性,而只是将医疗 数据当作医疗过程的附属产物看待,造成了数据混乱不准确 和缺失等问题。 3.2.2数据监管不健全,没有明确的奖惩措施数据质量 问题由于一直没能得到管理层足够的重视,致使相关的数据 3.1.2病人的心理因素复杂病人的构成无论从来源、文 化程度、经济水平上都十分复杂。因此其在治病求医过程中 的心理情况也各不相同,可能发生隐瞒、说谎等情况,致使数 据缺失或逻辑不准。比如在统计我院2002年到2005年的病 人信息时发现,病人身份证和出生地这两项的数据,不规范 填写严重,分别为68.45%和26.96%。 3.1.3 医疗数据有不可避免的主观性在对病人的诊疗过 质量控制和监管的规章制度不完善、不正规,做不到有据可 依,照章办事,使得责任不明确,滋长了工作人员录入数据过 程中的懒惰、随意等不良作风。 3.2.3缺少良好的环节监控工具和措施HIS中数据核查 程中,所下的诊断完全是凭医生的知识和经验来确定,因此 这些数据不可能像超市收银那样准确和完全符合实际,而掺 维普资讯 http://www.cqvip.com
医学信息2006年10月第19卷第10期Medical Information.Oct.2006.Vo1.19.No.10 抽 飘蠹霭蠹彳 模块本身存在缺陷,数据质量的监控停留在末端控制的层 4.3 培训人员,说明数据的价值、数据质量的重要性 数据的价值是不言自明的,数据经过加工可以产生信 息,信息为人的决策提供依据。管理决策层不能只看数据, 面,没有在数据发生的各个源环节进行控制,这样就不可避 免地会遗漏一部分潜在或不明显的脏数据,而影响最终数据 质量。 但也离不开数据,数据所含的信息是决策的重要来源之一。 只有从管理层到业务层都认识到这一点,那么身体力行,才 能将数据质量提高一个层次。 4.4培训人员,让他们掌握录入规范医疗数据的技能 认识到了医疗数据的重要性,还必须培训他们,让他们 3.2.4医疗数据缺乏统一标准,信息孤岛现象严重 目前, 我国还缺乏完善的医疗数据标准,这项课题的研究正在进行 中。当前,很多实施“军卫一号”的医院运行的系统也比较 多,存在着多个数据体系,造成数据信息孤岛现象,使得医疗 数据信息共享难以实现。虽然局部数据质量可能不低,但全 局的数据情况却是一片混乱。 3.2.5操作人员违规操作各终端站点录入人员违规操作 是数据质量差的直接影响因素。由于录入单位分散,人员素 质和水平参差不齐,操作不当造成的数据质量下降占整个数 据质量问题的绝大部分。主要原因有:①“数据歧视”。录入 人员并不知道一些医疗数据,如病人基本信息等的重要之所 在,而认为某些数据录不录,录对和录错无关紧要,产生了 “数据歧视”心理。还有就是由于纯粹的缺乏责任感而导致 的“数据歧视”;②人员培训工作不到位。许多录入人员(如 护士、医生)并不了解医疗数据的重要性和数据标准,必须经 过上岗前的录入培训才能使他们掌握录入医疗数据的基本 能力和规则。如主要诊断的选择、疾病治疗结果的判断和选 择、诊断符合情况的判定等;③医技科室常见的人工报告。通 过直接对数据库系统进行操作、统计,进而得到报告。但是 由于在不同时间、由不同人员进行,统计的条件也不尽相同, 造成针对同一个时期、相同主题的两份报告结果不相同。 3.2.6相关数据没及时录入 一些信息,如转科记录没有 及时录入,造成在查找信息时,通过时间字段关联到其他表 时,找不到相关信息。 3.2.7相关字典维护不及时,甚至没有维护现实中,医院 科室调整和人员调动等字典类基础信息没有及时,甚至没有 反映到软件系统中,导致医疗数据的质量下降。在对相关表 的统计中,发现科室信息与科室字典中不符合。 4问题的解决 4.1 从数据录入源进行数据质量的把关 数据项能够通过选择来获得的,不通过输入而获得。比 如:住院病人费用明细信息记录表中涉及的开单科室,该项 信息完全可以从科室字典中直接读取,让数据录入者进行选 择,而不是通过手工录入。那么这就是相关软件系统设计存 在的缺陷,可以通过医院自身的信息技术人员,来解决这些 数据录入口的问题。 4.2管理层对信息化应该给予支持,对信息化要有信心 信息化是时代的要求,是市场竞争的必然。只有从管理 层认识到这一点,重视这一点,并对信息化给予支持,那么信 息化可以说是成功了一半。 知道如何才是规范的医疗数据,这样才能得到我们最终需要 的规范数据。 4.5既然信息化了,就要充分利用信息化的威力 信息化是为了方便自身、方便客户、规范操作、提高自身 的竞争力。既然都信息化了,那么涉及信息化的业务流程就 必须严格的按照系统流程来操作,利用软件系统的统一口径 来录入、产生相关数据,而不应该人为的对数据进行操作、收 集、统计。 4.6及时维护用户字典 用户字典是整个应用系统共用的基础信息,字典信息的 准确性关系到整个系统的数据质量问题,所以必须及时更新 字典,使系统中的电子形式的信息和现实信息同步。 4.7设计合理的数据清洗规则 当数据进入数据仓库之前,为保持数据的完整性、同一 性,必须对数据进行清洗。而数据清洗的质量将关系到决策 信息的权威性。所以设计合理的数据清洗规则是数据仓库 建设时必须注意和重视的一个重要环节。 5小结 数据质量管理是项专业性很强的工作,HIS的数据质量 是医院的生命,随着业务竞争的加剧,数据质量管理将成为 医院不可缺少的一部分。 数据质量问题的产生一般会发生在数据从其产生者传 到使用者的过程、数据从一个系统传到另一个系统的 过程 。 通过对数据仓库建设主题所涉及到的业务表进行统计、 分析,得出“军卫一号”系统的整体数据质量还是比较完整 的,可以通过对这些异源异构的数据进行清洗、转换成集中 统一、随时可用的信息,为临床医学服务,为医院管理服务。 针对特定的应用系统,引起数据质量的原因主要有以 下:病人对个人信息的隐瞒;信息系统的一些小缺陷;用户字 典维护欠缺;业务信息未及时录入;数据录入人员对数据质 量的认识不够深刻,主动性不强;数据质量管理体系未建立。 分析这些原因,我们可以在这些关键点上加强力量,改 进数据质量。此外,我们还总结了医院数据质量的标准与原 则,数据质量的现代标准是多方面的,包括数据的客观性、存 取质量、关联性以及表达方面的能力。针对影响数据质量的 / 维普资讯 http://www.cqvip.com
医学信息2006年10月第19卷第10期Medical Information.Oct.2006.V01.19.N0.10 因素,我们可以制定相关的方案:建立数据质量管理体系,将 算机工程与应用,2003,39(13):1—4. 数据质量问题落实到具体的人,完善医院信息系统。 [2]姜炜.ETL应用浅析www.dwway.com [3]Ntstone.数据质量和数据清洗研究综述www.dwway.tom ’ 参考文献: 编辑/任鸿兰 [1]方幼林,杨冬青,唐世渭.数据仓库中数据质量控制研究[J].计 桌面计算机安全管理探讨及应用 王继伟,常辉,陈 新,曾晨曦 (解放军第174医院,福建厦门361003) 摘要:本文从当前桌面计算机管理中遇到的种种问题出发,分析了当前为解决这些问题的产品本身存在的缺陷,并阐述了本 单位桌面计算机安全管理系统的选择引进、应用及效果情况,具有相"3的普遍性,有借鉴和参考意义。- 关键词:安全管理;桌面计算机 必要的技术和管理手段,许多管理规定也难以执行。如医护 0前言 人员在计算机上安装非法软件,私自更改电脑的设置,私自 随着信息化建设的进一步发展,业务和应用完全依赖于 拨号上网,外来电脑尤其是设备厂商技术人员的笔记本电脑 计算机网络和计算机终端。但是计算机病毒、黑客木马、间 接入医院网络,设备端口不能控制等等情况时有发生。问题 谍件进入桌面计算机,在计算机上安装非法软件,私自拨号 一旦发生,一般都难以对这些电脑进行定位,对其排查往往 上网,外来电脑接入算机网络时有发生,这些行为非常容易 需要花费很多时间,既影响了正常工作,又找不到肇事者,带 导致桌面计算机和计算机网络系统的瘫痪。 来了较大的管理难度。 尤其是近几年来,网络安全威胁愈演愈烈,网络攻击工 具越来越多样,也越来越容易获得,所需要的技能越来越低, 2我院在计算机管理方面的其它需要 只需下载一个黑客程序就可以进行攻击,漏洞利用的时间越 除了安全管理方面的需要外,由于目前计算机数量多, 来越短。攻击的目的性,过去纯粹为了比技术,现在商业目 地理位置分散,给日常的维护管理带来了很大的困难,这些 的越来越明显。 困难包括: 据公安部对2005年度我国1.2万家信息网络使用单位, 2.1难以对计算机的资产、配置进行统计; 涉及政府机关、电信广电、能源交通、金融证券、教育科研、商 2.2由于补丁、漏洞、升级等问题频繁,维护工作量很大; 业和制造业等领域的全国信息网络安全状况暨计算机病毒 2.3计算机的使用人员技能不一,有些很小的问题都需要 疫情调查结果显示:感染过计算机病毒的用户数占被调查总 工程技术人员现场解决,维护效率极其低下。 数的80%,多次感染计算机病毒的比率为54.7%,中国有将 2.4无法对计算机进行批量维护,如:批量安装软件、批量 近90%的用户遭受间谍软件的袭击。 打补丁、批量设置计算机的安全配置。 另根据中国国家计算机网络应急技术处理协调中心公 布的数据:2005年6月一9月国内发现较大规模僵尸网络59 3 目前主流的桌面管理系统 个,平均每天有3万台电脑被控制。 3.1桌面管理系统的分类 目前市场上网络管理产品主要分2类: 1 我院计算机安全管理情况 3.1.1 以资产管理功能为主的桌面管理软件。传统的桌面 我院在信息化建设方面一直非常重视,目前在信息安全 管理软件主要是解决桌面计算机资产管理困难为出发点的, 方面也进行了必要的部署。如在与卫生局和社保局的网络 例如:Altifs、JP1、LANDESK等产品,目前这些产品的厂商也 连接处以部署防火墙为主,系统内则部署了网络防毒墙,业 正在逐步往产品中增加安全管理的功能; 务应用系统数据库主要部署了行为监控系统,以确保数据的 3.1.2以安全管理为主的桌面管理软件。目前新出现的市 完整与准确,而对计算机桌面本身的管理则显得比较薄弱。 场上的产品绝大多数都是以安全管理为主的,但是多数的产 现医院计算机数量多,业务应用系统也较多,由于缺乏 品市场应用情况都不十分理想。 收稿日期:2006—06—20 3.2桌面管理系统存在的主要问题
因篇幅问题不能全部显示,请点此查看更多更全内容