审计全覆盖驱动下大数据审计平台构建研究
所属栏目:经济学论文
发布时间:2021-05-31 15:17:09 更新时间:2021-05-31 15:17:09
当前,以大数据为重点的“金审三期”工程顺利开展,审计大数据信息化的建设为实施审计全覆盖提供了重要的数据资源与处理工具。运用大数据技术推动审计技术的革新和审计管理平台的优化,是实现审计全覆盖、实现国家治理现代化与信息化的重要途径。
一、理论梳理与回顾
(一)大数据审计在我国的应用与发展新时代,大数据审计技术方法不断更新和改进,在我国的应用范围也越来越广。邱玉慧等[ 1] 利用海量微观的社会保险大数据进行审计评价,充分运用可视化技术,初步印证了海量微观的社保大数据在评价养老金调整现状、评估不同待遇调整方案方面的优势。郑志元[ 2 ] 从全量审计、持续审计、风险导向、智能审计、人本审计思维分析商业银行内部审计理念的转型。王李[ 3] 认为商业银行内部审计广泛应用大数据的前提是区分全量与抽样的差别、处理好效率与精确的关系以及注意数据挖掘对象的因果关系。郑伟等[ 4] 基于大数据环境下的数据式审计模式并从逻辑流程、网络构架和应用架构三个维度设计数据式审计模式与路径。陈伟等[ 5] 研究了基于 Benford 定律的大数据审计方法。王会金等[ 6] 指出随着大数据审计技术创新发展,数据量愈发庞大,大数据安全审计问题的解决更加依托于科学的审计技术方法,通过云提供商和云租户之间的责任划分建立政务云安全审计运行框架,可以为大数据时代政务云安全管理实践提供思路。赵圣伟等[ 7] 基于金融审计大数据的证券市场交易异常模型,创新了大数据环境下的审计数据分析和应用模式。湖北省审计学会课题组[ 8] 以湖北省医保审计实践为例,在医保审计中创新应用软硬件技术和大数据挖掘技术,为审计全覆盖提供了技术基础和思路。
(二)审计全覆盖理念对大数据审计的驱动作用审计全覆盖是新时期我国大数据审计发展的主要方向,是国家审计监督能力提高的关键依据。审计监督经历了财务审计、经济责任审计、绩效审计等阶段,大数据下审计环境的变化与国家治理共同要求审计监督更具全面性。2015 年进入包含离任审计在内的全覆盖审计阶段,审计全覆盖理念推动了大数据审计的广泛应用。首先,审计全覆盖背景下,传统审计逐步转变为利用全面样本、更加追求效率、注重相关关系的大数据审计,审计环境发生变化,政府审计模式发生转变(魏祥健,2016)。Danielle 等[ 9] 认为,大数据时代,模式识别、数据挖掘、自然语言处理等技术的应用将提高数据分析的预测能力。Michael Alles 等[ 10] 基于理论证据研究大数据技术纳入财务报表审计的优势与障碍,并确定了可能使审计师受益的大数据具体方面。陈伟等[ 11] 强调面对复杂的审计大数据,大数据分析技术正处于发展阶段,大数据环境下电子数据审计面临机遇与挑战,审计的思路与理念应紧随时代的发展持续创新。其次,审计环境变化,审计技术进步,为大数据审计带来了应用范围、框架路径、机制方法等方面的创新。戚振东和尹平[ 12] 从国家治理视角研究了国家审计全覆盖的发展创新问题,分别是以资金权力运行为主线拓展政府审计范围、以协同审计创新国家审计运行机制、以治理目标导向创新国家审计模式、以职能分工授权拓展业务流程来完善国家审计职权等方面。Earley[ 13] 和朱玲玲[ 14] 分析大数据、云技术对审计监督全覆盖的影响,指出审计计划、执行等阶段下大数据和云技术给审计监督全覆盖带来机遇和挑战。刘亚男等[ 15] 从机构设置、人员力量、审计结果、整改落实、联席会议制度执行、领导干部权责、评价指标体系等方面指出了我国高校经济责任审计普遍存在的问题,提出改进对策,以充分发挥审计的免疫系统作用,进一步促进高校强化经济责任审计。陈桂云[ 16 ] 从突破组织边界和借助资源共享两个方面对审计全覆盖的实现路径进行探索分析,为加快审计全覆盖的实现提供了有益借鉴。陈骏和时现[ 17] 提出审计全覆盖驱动下的审计技术方法创新应以目标性、系统性、组织性为核心,探索审计技术方法创新的理论框架。
二、审计全覆盖驱动下大数据审计平台构建的现实需求
(一)要求审计人员拥有大数据思维从审计意识出发,审计全覆盖要求审计人员具备大数据思维,树立全局观念,实现审计工作的上下联动。传统模式下的审计人员往往缺少大数据关键性技术与思维,大数据审计的高端知识型人才培养存在断层,短时期内难以达到理想的目标与效果,这就要求当代审计人员转变思维。首先,由抽样审计思维向具有完整性的总体审计思维转变。传统的审计模式根据局部抽样总结个体特征,推断全局规律,而大数据环境要求分析与审计对象所有的相关数据,实现总体审计。其次,由追求数据精确度向追求数据及时性和使用效率转变。大数据审计面对的海量数据大多是半结构化与非结构化数据,数据量的规模性扩大要求审计人员必须转变思维,更加注重非结构化数据的利用,学会处理海量数据,追求样本全貌,提高数据利用效率。再次,由事后审计思维向事前、事中审计思维转变。传统的事后审计逐步转变为面向全局的全过程审计,大数据审计更加重视事前审计、事中审计,同时要求审计人员更加注重对数据的实时监控,在项目进展过程中实时从业务活动中抽取和控制审计信息,及时有效地进行风险监控和防范。最后,由因果关系思维向相关关系思维转变。面对海量数据,挖掘审计证据不必过于深究其因果关系,而是对所有的相关数据进行采集、挖掘、分析和整理,找出隐含的关系,从多层次、多领域、多角度的海量数据中提炼问题,揭示共性规律,分析过去、捕获现在、预测未来,满足审计全覆盖的要求。
(二)要求审计人员拥有强大的数据处理能力从审计技术应用来讲,审计全覆盖要求运用大数据技术提升数据采集、整理和分析能力。面对全覆盖审计数据的海量化与审计对象的复杂化,加之信息化高端人才紧缺[ 25 ] ,采集提炼、存储整理、分析处理数据的审计任务异常艰巨,因而审计人员需要具备相关的大数据分析处理能力。首先,要具备从宏观角度处理海量数据的能力。在具备基础技术及知识的基础上,利用计算机软件对所有相关数据进行采集和整理,将结构化的数据进行分析,将半结构化、非结构化的跨领域、跨层次、跨行业的数据进行加工和转换,以易于理解的形式加入总体分析框架之中,对海量审计数据和资源实施整体、全面、深入地分析,避免管中窥豹、顾此失彼,为推进审计监督全覆盖提供技术方面的支持。其次,要具备数据采集和挖掘能力。大数据之所以“大”,是因为有广泛的数据。国家审计准则要求政府各个部门的每一笔收支都备案,每一笔资金去向都可供检查,然而一些人员为一己之利,将违法违纪的行为 “抹去”,进而使得数据来源受限,审计监督受到制约。因此,审计人员要注重从非结构数据中获取充分和适当的审计证据,挖掘更细微、深入的信息,由“面”到“点”,具备多维度、深层次分析数据的能力,能够发现隐藏在数据细节中更具价值的信息。最后,要具备大数据关联分析的能力。掌握基本的计算机技能与大数据分析工具原理和运行思路是推进大数据时代发展的必要条件。审计人员需要具备专业知识和技能,利用信息技术,综合比对业务数据与财务数据、单位部门之间的数据、行业数据、跨行业和跨领域数据,将最终的审计成果同被审计单位相关联,为今后的审计工作提供经验基础,从而节省人力和时间成本,有效提高审计工作的效率。
三、审计全覆盖驱动下大数据审计平台的构建理念
(一)应用开源 Hadoop 技术,提高数据处理能力传统的数据中心存储能力是有限的,且存储处理的数据大多为结构化数据,如 Oracle、MySQL 等关系型数据库所存放的数据(谢志明等,2016)。现如今,NoSQL 技术出现,将来自数字媒体、物联网、互联网等机构的多领域、多层次、多元化数据交织混杂在一起,数据类型不再是单一的结构化数据,更多的是半结构化数据和非结构化数据。传统数据中心无法存储如此庞大的数据量,存储空间不足,不能满足现代审计全覆盖下大数据分析的要求,因而传统的审计数据库和数据分析系统应有所改进,审计人员对大数据处理和分析的工作面临挑战。Hadoop 系统是基于 Java 技术的软件框架,开源的 Hadoop 数据中心能够很好地解决数据存储和处理难题,核心技术是分布式文件系统 HDFS 和分布式计算框架 MapReduce,它解决了大数据审计工作面临的两大难题:存储和分析。随着大数据应用技术的不断发展,Hadoop 系统进一步引入 HBase(Hadoop Database)。HBase 强化系统存储能力,性能更强、可靠性更高,为提高数据的存储、分析和计算能力提供了更好的技术条件。
(二)重视非结构化数据,提升数据利用价值大数据环境下大量的非结构化审计数据为处理分析工作增加了难度,研究如何对非结构化数据进行有效利用具有重要的实践意义。在 Hadoop 系统的不断完善和优化下,其具有存储和计算海量非结构化数据的能力。分布式文件系统 HDFS、分布式数据库 HBase 以及分布式计算框架 MapReduce 组成的 Hadoop 生态系统,对非结构化数据进行统一管理,有效实现了数据共享,有利于打破数据孤立的局面。大数据环境下,浏览和筛选等方法无法满足非结构化数据审计的需要,Hadoop 系统可以对一些过去无法采集到的数据进行分析,通过大数据分析系统处理之后得到可视化信息,具体如图 1 所示。大数据环境下,可利用网络检索相关数据,再接入大数据审计平台,建立分析模型。大数据审计平台为审计大数据的采集、存储、挖掘和管理提供良好的服务,为审计人员提供关联分析和深度挖掘的相关工具和应用界面,最终便于利用相应的数据挖掘算法进行预测性分析。同时,服务平台的可视化系统为提升数据利用价值提供了重要途径。对网上公开数据源采集的相关非结构化数据,在数据预处理基础上可对非结构化数据进行可视化分析,将非结构化数据中的内容和规律化为视觉符号,向审计人员展示,审计人员从中获取信息和重点,发现线索,找出审计证据。构建这种数据平台管理模式降低了审计数据管理风险,通过开展联网动态监测审计并深入挖掘,实现对非结构化数据的最大利用效率。对此,审计人员有责任和义务遵循国家法律法规,积极履行审计监督全覆盖职责,保护国家和人民财产不受侵犯。
四、审计全覆盖驱动下大数据审计平台的构建策略
大数据审计平台的建立是提高审计机关数据分析能力的基础。多数在建的大数据审计平台均属于静态批量模式,其特点是先储存后计算,对数据的准确性和全面性要求较高,以此为代表的有 Hadoop 系统,经过不断地更新和优化,其三大基础 HDFS、MapReduce 和 HBase 已经发展为由 60 多个相关组件组成的庞大生态系统,包括数据存储、执行引擎、编程和数据访问框架等。本文应用 Hadoop 系统,将大数据审计平台分为数据中心、采集、预处理、分析和可视化五个系统,以期实现审计全覆盖的总体目标,具体流程如图 4 所示。
(一)数据中心随着大数据技术的不断发展,海量数据呈现集中化的趋势。数据类型主要有结构化数据(如被审计单位的财务数据、业务数据等)、半结构化数据和非结构化数据(如经营战略、社会关系、组织结构、经验数据、管理数据、预测数据、Web 数据、日志数据,包括所有格式的办公文档、文本、图片、XML、HTML、报表、图像、音频和视频等信息、被审计单位的非货币性数据等)。其中非结构化数据占比巨大,潜藏着庞大的应用价值。这些审计数据并非散乱式获取与机械化堆砌,Hadoop 系统下可利用成熟的技术工具将其有机融合、合理存储、有效处理。
(二)数据采集系统大数据审计的基础任务是收集足够的与审计项目相关的数据信息。建立专业化的数据采集系统,有利于整体把握审计项目,有效获取数据,最终从海量数据中获取具有潜在价值的规律和事实,完成审计任务。采集系统是数据中心的重要保障,为数据预处理提供了可能。数据采集系统是指将审计机关和被审计单位的数据库通过专业化工具方法连接起来,进行数据共享。常用的审计数据采集方法主要有直接复制、通过中间文件、通过 ODBC 接口、远程联网等。Hadoop 系统下的采集框架主要有 Apache Sqoop 实现数据的自动传输 ,Apache Flume 收集可靠的日志数据,Gobblin 负责整合数据源,同时 Datax 负责异构数据的稳定性。除此之外还有大数据采集技术,例如网络爬虫等网络数据采集方法, Hadoop 系统的 Chukwa 等日志数据采集方法。数据存储是数据采集之后存放数据的系统,通过构建 Hadoop 分布式框架的 HDFS 和 HBase,可以完成即时的操作读写功能,便于审计数据的即时储存和利用。
(三)数据预处理系统大数据审计预处理系统主要起到了承上启下的作用,系统针对采集之后的海量数据进行预处理,包括对结构化数据去重复值或有误值,对半结构化和非结构化数据通过预处理系统转化为可供理解、易分类、易分析的结构化数据。目前常用的方法主要有数据类型转换、名称转换、横向纵向合并、空值处理等。大数据审计的预处理系统包括数据清洗、数据挖掘、数据转换三项流程。数据清洗,需要多重清洗方法相结合,以迎合审计大数据的多样化和多元性。通过设置规则,确保数据合法性;通过补全信息,提升数据完整性;通过去重,促进数据的唯一性。数据挖掘,主要是运用先进的软件技术,根据不同的审计目标选择不同的方法,对清理过和筛选出的数据进行分析。数据挖掘可以发现数据之间的异常关系,提取有价值的信息,提供精准的审计证据。数据转换,涵盖数据内容的截取、数据格式的转化、数据的拆分与合并,是将不同格式与语义的源数据转化为被审计用户所理解、与目标数据相一致的数据整合过程。审计人员必须明确转换任务,明晰转换类型与转换格式,进行数据拆分与合并。
五、结语
当前,大数据应用已经渗透到政治、经济、社会等各个层次和各个领域,以强大的冲击力深刻地影响和改变着人们的工作、生活和思维方式。审计全覆盖与大数据平台的建设相互作用、相辅相成,共同推动我国大数据审计的发展。在国家审计全覆盖总目标的驱动下,为顺应时代发展的潮流,应建立和优化大数据审计平台,完善数据中心、采集、预处理、分析、可视化五个系统,实现各系统相互配合、相互支持和无缝连接,同时建立国家级大数据审计平台,最大程度共享数据,实现审计全覆盖目标,有力推进国家审计的常态化、流程化与智能化。
【参考文献】
[1]邱玉慧,吕天阳,杨蕴毅.基于大数据的企业基本养老保险待遇调整绩效审计分析:以 X 省为例[J].审计研究,2014(3):106-112.
[2]郑志元.大数据下的银行审计思维[J].中国金融,2016 (14):52-53.
[3]王李. 大数据关注点在商业银行内部审计中的应用:以 M 银行为例[J].会计之友,2016(16):110-112.
《审计全覆盖驱动下大数据审计平台构建研究》来源:《会计之友》,作者:刘国城 1 马欣萌 1 徐 志 2