核心期刊论文发表探讨安全数据字典的数据集成技术
所属栏目:电子技术论文
发布时间:2014-08-19 14:50:10 更新时间:2014-08-19 14:50:09
作为数据挖掘的重要环节,数据集成的强大功能不容忽视,其费用更是占据了整个数据挖掘系统建设成本的一半以上[1]。但目前尚未有一项针对庞大的数据量的集成技术,因此对原有数据集成技术的算法进行一定的改善就十分有必要。
摘要:目前,对于一些属性特别多的数据的集成还尚未有一套良好的实现方案,此类数据的集成具有十分复杂,且难度大的特点。该文针对这一问题,提出了基于安全数据字典的数据集成技术。该技术在实践中,解决了以往数据集成的问题,具有较大的灵活性和安全性;对数据字典进行了安全分级,介绍安全数据字典的相关内容和实现安全数据字典的方式,实现极其复杂的数据集成,增强了系统的安全性。
关键词:核心期刊论文发表,安全数据字典,复杂,数据集成,安全性
对此,有相关的研究者对不同方面的数据集成技术进行了不同的研究。有研究者研究了异构数据集成的原理及框架,该框架的服务功能和实现的技术;有研究者对电力系统数据集成中存在的语义进行详细的阐述,通过语义计算映射实例的语义功能及其他研究项目 。此类研究的共同点在于对原有数据集成技术进行了延伸和拓展,但不足的是没有考虑到属性个数庞大的数据集成的复杂性和独特性,并没有解决原有数据集成系统的程序代码量大、限制性高和不够灵活等问题。
1 安全数据字典及其实现方式
1.1 数据字典
典型的数据字典应为数据库的数据字典。数据字典系统灵活性的关键所在,对于各种应用系统也具有重要意义。数据字典具有较多的数据库内容,形式多样,如库、表、索引等属于逻辑编辑数据库定义的信息,也包含了相关的物理配置信息。数据字典具有各种各样的形式,如数据表形式、二进制文件和文本文件及其他等,但都具有同一危险性,即都有可能会被违规篡改,导致程序无法正常运行。在进行数据字典的安全级别的划分时,按照数据字典被违规篡改的难易程度对应划分。安全等级总共可划分为4 个级别[2]。
1.2 安全数据字典的实现
安数据字典中的安全数据字典包括2个安全等级,即控制级和整性约束级。可通过较多的方式来实现这2个等级,该文介绍了两种实现方案。
1.2.1 Excel表格形式的数据字典
现对完整性约束级安全数据字典的实现形式展开分析,该文以Excel表格的形式为例。具体情况见表1:
表1 基于Excel表格的数据字典
[COLUMN-NAME\&DATA-TYPE\&DATE-DEFAULT\&COMMENTS\&MAJOR- KEY\&ZHAB04A001\&VARCHAR2(20)\&(NULL)\&项目编号\&YES\&ZHAB04A002\&VARCHAR2(100)\&(NULL)\&项目名称\&NO\&ZHAB04A003\&VARCHAR2(50)\&(NULL)\&图幅名\&NO\&ZHAB04A004\&VARCHAR2(50)\&(NULL)\&图幅编号\&NO\&]
1.2.2 控制级安全数据字典的实现方式
完整性约束级安全数据字典的优点在于适应性强,可以为大多数应用接受,但仍存在加密算法出现密钥泄露或者被攻破的危险性,导致非法篡改的问题出现。使用者具有数据字典的使用权,但使用者对数据字典有版本的要求,则有可能出现数据字典的不符合的情况。这两种问题已经被控制级的安全数据字典攻破,解决了这2种安全问题。控制级安全数据字典在运行时,首先生成完整性的约束级安全数据字典,之后自行保存于Excel,后生成数据字典的硬编码程序,使用程序与生成的编码程序进行编译后就可以形成应用系统的一部分。当启动应用程序时,程序就会首先执行数据字典里的硬编码程序,还原数据字典是在内存中进行,且为动态的形式,因此与应用系统的版本具有一致性,不产生冲突。控制级安全数据字典的运行重点在于正确地将Excel表格中的数据字典转换成同样性质的程序代码。该文选择了.NetC#的方法成功地将Excel 表中的程序代码转换[3],其转换过程就大大提高了数据字典的安全性和实效性。
2 数据的集成
以上内容分析了安全数据字典以及实现方式的基础,现对安全数据字典集成技术的方案和转换流程以及算法做进一步说明。
2.1 数据出处及其实现目标
以某地区国土资源部提供该地区近年来发生的地质灾害的数据信息为案例来说明,其特点有:(1) 数据源数据具有动态性的变化;(2) 数据源字段为中文,目标数据字段为应为;(3) 数据源有各类各样的版本,按照不同版本的数据属性将其存入对应地区的中心Access数据库中,并定期将保存下来的数据上传到制定的目录的当中,自动生成数据(4) 数据属性较多,总共属性数量为250左右。
2.2 数据集成设计
集成数据的属性数据量大,且数据源和目标数据的属性名称有差异,具有一定的复杂性。该种情况下就可使用数据字典建立数据源属性和目标数据属性两者间的对应方式,有助于减少程序量的运算,提高了系统的灵活性,具有较高的各种效率。但缺点在于有一定的安全隐患。表现为如果数据字典遭到其他人员的非法篡改,就会影响数据集成的顺利性和可靠性,最终导致数据集成失败。而选择安全性和稳定性较高的控制级安全数据字典就显得十分重要。还需要针对不同的版本建立不同的安全数据字典,从而形成一致性的数据源版本和安全数据字典。
2.3 数据集成的具体流程
启动系统后,数据集成首先从代码中还原各版本的数据字典,验证数据字典是否已经完整,通过制定目录检测系统是否有新的数据源,有的话则识别版本,并将对应的数据源版本调入,导入数据。
2.4 数据导入运算
将数据源作为集成目标进行数据导入,共由6大类数据集成,且数据的属性含量十分大,都高出230,具有较大的集成难度。数据源和目标系统的属性名称不同,直接对各自属性的编程导入数据会出现大量的程序步骤,也无法实现通用性。因此,建立起数据字典的数据源与与数据目标的映射关系,可减少程序量,具有通用性。 3 实验分析
本次研究对某地区的地质灾害的相关数据进行安全数据字典的数据集成技术的开发,具有以下几个特点:
1) 数据源的版本随着软件的升级而改变;
2) 不同的集成对象的属性其数据源对象的属相和相同目标数据源的对象属性名称也不一样;不一致;对此,基于安全数据字典的数据集成技术有效解决了这一问题。数据集成的主要执行任务包括以下几点:
3) 结合数据对象用Excel定义数据字典;
4) 设计控制级安全数据数据字典的生成工具;
5) 用安全数据字典生成工具,把Excel安全数据字典转换为对应的程序代码;
6) 设计通用的数据导入系统,具有代码简单、代码量小的特点。
7) 把代码化的安全数据字典嵌入数据导入系统,生成特定的数据集成系统。
以上工作内容体现出该种数据集成方式的流程十分简单、清晰明了。经实践证明,数据集成系统可对不同版本的数据源正确辨别出来,适用性强,将符合的数据字典导入有很大的实用性,保证了系统的安全性。
4 结束语
针对原有数据集成存在的主要问题,该文提出了安全数据字典的新概念,并具体划分了数据字典的安全等级,进一步分析安全数据字典的实现步骤和算法。通过实例分析了安全数据字典在复杂数据集成方面的有效运用。基于安全数据字典的数据集成方式主要有3个部分构成:即安全数据字典生产工具、数据字典、以及数据导入部分,具有良好的优势性能,其耦合度低、单独行强,进一步降低了系统的困难程性。在相关业务中,集成的数据对象仅在数据字典里定义,与业务无关的通用模块即安全数据字典生成工具、数据导模块,因此可适应于奇特的集成系统。另一方面,由于数据字典的生成由系统启动时直接形成,避免了数据字典被篡改的机会,使基础数据更具有安全性和准确性;另一方面,该文分析的数据集成及其实现方式,具有极强的通用性,只需要工作人员在Excel表中正确地定义集成对象,就可以实现目标数据集成,降低了集成的难度。数据导入算法仅采用一个通用函数就可以实现案例中地质灾害的数据集成的导入,将庞大爱的系统的代码量减少,同时提升了系统的开发率,具有明显的优势。
参考文献:
[1] 冯勇,王明玉.基于语义的轻量级数据集成方法[J].计算机工程与设计,2012,9(1):122-123.
[2] 钟将,宋娟.基于本体的异构数据集成框架[J].计算机工程,2011,12(14):105-106.
[3] 时贵英,文必龙,王志宝.基于数据元的数据集成技术研究[J].科学技术与工程.2011,8(18):133-134.