省级期刊电子技术论文范文
所属栏目:电子技术论文
发布时间:2014-02-10 16:08:37 更新时间:2014-02-10 16:23:36
随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;关于数据整合的重要性、数据整合的工具有很多论著[1-5]。数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。
【摘要】数据比对工作是数据整合过程的核心工作之一,决定着数据整合的成败。文章介绍了一种通过定义数据比对过程中的主数据,结合主数据流而进行数据比对的方法,并通过实际案例做了详细说明;通过分析数据不一致的原因并给出完善建议,避免错误数据的再次发生。最后文章讨论了数据质量对数据比对结果的影响以及业务流程对保障数据质量的重要性。
【关键词】数据比对,数据整合,主数据,业务流程
1.介绍
每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。
本文先定义了一种以主数据定义和分析主数据流为主线的数据比对方法。结合实际项目案例给出具体比对过程。
2.数据比对过程和方法
本文介绍的数据比对方法,以原因分析为重点,强调不匹配数据的原因分析并结合业务逻辑,对历史数据和增量数据给出整改方法。
数据比对的过程可以分为以下7个步骤分别是:数据获取、主数据定义、主数据流分析、程序比对逻辑、人工比对逻辑、原因分析、处理建议。
2.1数据获取
从两个(或多个)源系统中获得待比对的原始数据。需要注意的是每个信息系统均为运行的系统,数据会产生变化。因此应该首先统一数据获取的时间。如获取截止到2008年10月1日24:00止的数据。并对该时间点之后的增量数据做标记,以备后续的数据比对。
2.2主数据定义
按照新系统或数据比对的业务要求,定义比对的关键数据项(数据字段)。确定这些数据项的含义、来源(以哪个系统数据为准)、在各自系统中的名称、各自系统中对应的数据项(数据字段)。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和***号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。
在定义好主数据之后,需要视具体应用系统情况而定,对原始数据进行数据清洗。以便剔出非法数据,降低人工比对的工作量和提高数据比对的成功率。数据清洗工作一般由计算机程序进行。
2.3主数据流分析
根据具体的业务逻辑和业务流程,确定所有主数据在相关信息系统中的生命周期。需要明确以下内容:
(1)主数据的责任部门或责任人:是谁在何时创建、修改、交换或删除主数据;
(2)主数据的相关系统:相对于主数据生命周期的每个阶段,分别在哪个信息系统中保存,系统间接口关系。
(3)主数据流与业务流程的关系:新增流程、修改流程、删除流程对主数据的影响。
本步骤主要是关注主数据的修改记录。
2.4程序比对逻辑
数据比对的第一阶段,一般通过计算机程序处理进行。需要整理出程序比对的逻辑,尽可能分析各原始数据的业务逻辑,寻找尽可能多的数据对应关系。有些数据只能通过唯一的标识进行比对,如人口信息通过***号码进行比对或者通过联合***号码和姓名一起进行比对;有些数据可以有多种程序比对逻辑,如电路数据中第一种程序是电路编号相同,第二种程序是工程编号相同,第三种程序是电路两端地址均相同。
2.5人工比对逻辑
由于信息系统建设的时间不同、业务流程与IT系统的结合程度不同、部分业务数据不完整等情况,程序比对往往达不到100%。因此在程序比对后产生的遗留数据必须由人工来完成。
在人工比对过程中,需要整理出人工比对的方法。如人口数据比对中,不同***号码相同配偶名称和***号码,则可以认定为同一个人。
2.6原因分析
对于人工比对的数据,我们需要分析数据不匹配的原因。可能是由于无业务流程或纸制流程的问题,可能由于流程与IT系统衔接的问题,可能由于系统间数据交换导致的数据不完整的问题,可能是人工输入错误的问题等等。
在分析的过程中需要考虑哪些原因影响存量数据,只影响到历史数据并且修正后不会再次出现;哪些原因是由于业务流程导致的,在修正该业务流程之前还会再次出现。
数据不匹配的原因分析是一项具有挑战性的工作,同时也是一项有意义的工作。通过原因分析,可以对业务部门的工作进行评价考核,对业务流程进行梳理改造,对业务与IT系统结合给出完善意见。
2.7处理建议
人工比对的数据,按照不同的原因提供不同的处理意见。直接修改:对于不影响业务流程、不影响业务操作的数据,按照主数据的定义和责任直接在相关系统中修改;
业务部门尽快修正:对于一些影响正常业务操作的数据,如帐务系统中应收帐而未收帐数据、财务系统中存款或余额不一致、资源系统中应使用而未用资源等情况,由相关业务部门牵头尽快改修正。
制定细致解决方案:对于原因比较复杂的、涉及到业务流程的数据,则需要招集各相关部门研究,制定细致的解决方案。由于业务流程导致的数据不匹配,需要给出流程改进的建议。不匹配数据的修改越快越好。3.项目案例数据比对
下面以实际项目作为例,介绍数据比对的过程。
某通信运营商大客户网管系统中包含传输专业、交换专业和数据专业(IP、ATM、DDN)总计五种电路数据。需要从前端CRM中获取客户名称和电路编号(简称前端电路);从后端NetMaster资源系统中获取电路编号和电路状态等详细信息(简称后端电路)。以下数据是20家样本大客户的传输专业电路数据(简称样本数据)的比对结果。
3.1数据获取
截止时间为2013年10月30日24:00,分别获取了样本数据的前端电路总计2110条,后端电路总计2428条。前端电路根据客户名称以及客户层次关系获取,后端电路的客户名称没有层次关系因而采用客户名称的关键字模糊查询进行获取。
3.2主数据定义
如表1所示,样本数据的主数据为:客户名称、电路编号、电路A端地址、电路Z端地址。
3.3主数据流分析
该通信运营商传输业务分为本地业务和长途业务,本文只介绍本地业务流程。由于目前传输本地业务的拆机和移机流程未固化到信息系统,因此本文分析了早期的新增电路流程(如图1所示)。
(1)政企客户部负责受理大客户的传输电路业务;
(2)政企客户部通过CRM系统录入客户的名称、电路甲端地址、电路乙端地址以及其他数据并保存;
(3)由CRM系统自动产生客户编号;
(4)由CRM系统调用97系统产生电路编号,同时记录到CRM系统和97系统中;
(5)业务流程流转到NetMaster系统,由网络运行部录入A端地址、Z端地址,报完工;
(6)完工信息经97系统流转到CRM系统,完成开帐。
3.4程序比对逻辑
(1)CRM中的资产编号和NetMaster系统中的链路编号相同的,程序比对成功。
(2)CRM中的电路一端地址中记录相关长途电路编号,而且和NetMaster系统中的链路编号为长途电路编号相同的,程序比对成功。
(3)程序比对结果:
前端电路:电路总数2110条,程序比对成功总数1614条,程序比对成功76.49%。
后端电路:电路总数2428条,程序比对成功总数1838条,程序比对成功75.70%。
3.5人工比对逻辑
由于传输电路业务开展时间较长,并且信息系统建设情况比较复杂,因此出现了部分程序比对不成功的电路数据。经过各相关部门的人工比对,整理出以下人工比对逻辑:
前端电路存在,查找不到后端电路:
(1)根据前端电路编号在长途资源库中查找对应的的后端电路的链路编号(电路编号);
(2)前端电路中部分电路是郊区电路,暂时未整合在一起。
可以不计在前端电路中;后端电路存在,查找不到前端电路:
(1)根据后端电路的工程编号在CRM中查找对应的前端电路资产编号(电路编号);
(2)根据后端电路的两端地址、电路类型、客户经理保存资料等信息在CRM中查找对应的前端电路的资产编号(电路编号);
(3)后端电路中部分电路是局内中继电路,不属于大客户的保障电路。可以不计在后端电路中;
经过程序和人工比对传输电路数据比对结果总匹配率为98.33%,如下:
前端电路:电路总数2110条,程序比对1614条,人工比对445条,总成功率97.58%。
后端电路:电路总数2428条,程序比对1838条,人工比对565条,总成功率98.97%。
3.6不匹配数据原因
经过分析得知,导致数据比对不成功的原因如下:
(1)部分后端电路保存在长途资源库中,未保存在NetMaster系统中。记录数28条。
(2)前后端记录相同工程编号,而不同电路编号,记录数14条。
(3)部分前端电路保存在大客户一站式受理系统中,未保存在前端CRM系统中,记录数12条。
(4)部分后端电路属于总头客户,不保存在前端CRM中。不计在20家大客户电路中,记录数3条。
(5)CRM中电路状态不匹配(正常流程中),分别为未报完工、移机未报完工和拆机,记录数8条。
(6)其他未知原因,记录数8条。
3.7处理建议
针对数据不匹配的原因分析,我们给出的处理意见如下:
第一,对不匹配数据的处理意见。
(1)对于配置类错误数据直接修改。
这些数据包括由于客户名称不一致、电路编号不一致而导致数据比对不成功;此类数据的修改对业务运行以及各业务系统的数据完整性不产生影响。由相关部门按照主数据的定义规则直接修改。
(2)不属于大客户保障范围电路做标记。
这些数据本不应该属于大客户保障范围电路,应该在系统中对这些电路做标记。
(3)对于其他复杂原因,招集相关部门讨论解决。
第二,对业务流程的改进意见。
(1)传输专业“移机流程”和“拆机流程”的完善。
“拆机流程”未固化到系统中,“拆机流程”以“先装后拆”代替。因此会产生导致早期数据完整性错误,现已完善业务流程。
(2)长途电路的流程存在缺陷,会导致前后端电路编号不一致。需要尽快招集相关部门讨论解决方案。
4.总结
通过对样本大客户电路数据比对过程的研究,总结了程序比对和人工比对的方法,发现了业务流程上的少量问题。为下一步大批量数据比对提供参考,有效提高程序比对、人工比对、数据修正的工作效率;同时为完善IT系统、加强业务流程和IT系统之间的配合提供了参考依据。
参考文献
[1]Monge,A.E.Matchingalgorithmwithinaduplicatedetectionsystem.IEEEDataEngineeringBulletin,2000,23(4):14-20.
[2]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081.
[3]田芳,刘震.数据仓库清洗技术讨论[J].青海师范大学学报(自然科学版),2005(4):50-53.
[4]王新英,陈语林.数据抽取、转换、转载综述[J].企业技术开发,2004,23(8):3-5.
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!