计算机研究与发展SQL Server处理Excel大数据的方法研究
所属栏目:计算机应用论文
发布时间:2015-04-14 16:56:58 更新时间:2019-06-12 15:42:57
《计算机研究与发展》是中国科学院计算技术研究所和中国计算机学会联合主办的学术性期刊,科学出版社出版,国内外公开发行。她诞生于我国计算机事业的初创 时期(1958年),是我国第一个计算机刊物,它是随着中国计算机事业的发展而成长起来的。四十多年来,该刊始终结合我国计算机事业不同时期的重点和需 要,有计划、有组织地进行选题,刊登了大量国内最新科研成果和国家重点支持的研究项目的论文,对我国计算机科学技术的发展和高技术领域人才的培养发挥了巨 大的作用。
摘 要:杭州市拱墅区招商局要将税收绩效数据和固定资产实际数据录入杭州市招商统计系统中,在数据录入之前要先对数据进行整理、计算、统计,由于数据量大,Excel中统计方法不够强大。本文论述了从Excel文件到SQL Server的数据迁移,并利用SQL Server中强大的数据查询和分析功能,对杭州市拱墅区招商局的数据进行了统计计算,生成表格后,重新导出到Excel的过程并给出了关键代码。
关键词:计算机研究与发展投稿,Excel,SQL Server,数据统计
SQL Server数据库查询速度快,查询能力丰富,对数据集合的解决方法相当多,特别是数据多的时候,优势特明显。由于杭州市拱墅区招商局平时在Excel中有多个台帐,每个台帐上千条记录,十几个分部要汇总,而且每月都在增长,速度明显在下降。另外,Excel速度慢,且查询分组计算功能相对SQL Server来说相对薄弱。用SQL Server解决数据录入、汇总、存储和函数计算分析处理更方便。
1 项目需求分析
杭州市拱墅区招商局要将税收绩效数据和固定资产实际数据录入杭州市招商统计系统中。从图1可以看到,需要录入到系统的数据有外地投资方股权比重、税收总额和税务登记证号,其中税务登记证号表中直接就有记录,但是外地投资方股权比重和税收总额需要对多个台账进行统计计算才能得到。
图1 杭州市招商统计系统中需录入的数据
杭州市拱墅区招商局目前主要是这三张excel表格,内容见表1、表2、表3。每张表内容都有6000多条,内容较多而杂。
表1 2014年1-11月份的企业收入情况
表2 2013年12月份企业收入情况
表3 各个企业已投资额情况
2 项目实现过程
首先将表1、表2、表3导入SQL Server数据库中,作为数据库中的三张表,表名分别为表1、表2、表3。接下去就通过SQL代码来实现对外地股权占比及税收总额的计算和分析。
2.1 对表1和表2中的税收总额求和
现要对表1和表2中税号相同的企业收入(企业税收总额)求和。表1中是2014年1-11月的税收总额,表2中是2013年12月份的税收总额。先对表1和表2中的税收相加,但是难点是表1和表2中的税号和企业名称部分相同,部分不相同,且不对应。所以如果直接在Excel中很难实现。由于要保留两张表中不能相互匹配的企业,所以采用全外连接来实现。
实现代码如下:
图2
2.2 求出表3中外地股权占比
见表3,已投资额分为杭州方和外地方,现在要求出外地方与总投资额的比值。公式为:
外地股权占比=工商注册代码相同的企业的(D项+E项)/(C+D+E)*100。
但是表3中可见,每个相同工商注册代码都有三条或多条记录,所以在求出比值之前,需要先对工商注册代码进行分组,求出每个工商注册代码的杭州方及外地方的总投资额。
实现代码如下:
图3
2.3 求每个企业的税收总额和外地股权占比
求出每个企业的税收总额和外地股权占比,由于税收总额和外地股权占比在两张不同的表中,因此,通过连接查询将税收总额和外地股权占比查出来,将企业名称作为关键字进行匹配。
实现代码如下:
图4
得到了我们想要的税收总额和外地股权占比,将最后需要的表从SQL Server导出到Excel中[1],最后将Excel中的数据导入到杭州市招商统计系统中,就完成了整个数据的录入工作。
3 结束语
实现SQL Server数据库Excel数据表的数据导入导出功能。数据导入导出功能简化了数据录入的工作,降低了建立数据库的工作量,同时也很好的实现了报表输出功能。而且SQL Server中强大的查询分析数据的功能,轻松快速的实现了对于Excel中多个Sheet中的数据的统计归纳和计算。
参考文献:
[1]王晓刚,杨春金.Excel到SQL Server数据库的数据导入导出技术研究[J].计算机与数字工程.2007(03)
作者简介:胡丹桂(1980-),女,浙江永康人,教师,讲师,博士研究生,研究方向:时空统计及GIS开发。
文章TAG标签:大数据论文