上海博亚体育网是一家老字号代写网站,专业提供代写硕士毕业博亚体育服务。

数据挖掘技术在税务审计中的应用之计算机研究

发布时间:2019-08-01 09:28 博亚体育编辑:vicky 价格: 所属栏目:计算机博亚体育 关键词: 计算机博亚体育税务审计数据挖掘

本文是一篇计算机博亚体育,笔者阐述税务审计的研究背景和研究意义,分析了国内外关于税务审计的研究现状以及在当前税务审计中存在的主要问题,并给出了几点改进意见。阐述了税务数据的特

本文是一篇计算机博亚体育,本文详细分析和总结各项数据挖掘技术的优缺点,并给出了每种技术的具体执行流程;对数据离群点检测算法进行了分析,对于每种检测算法阐明了其中存在的优缺点,在一定程度上为第四章节中的数据预处理模块提供了一定的理论基础。

1 绪论

1.1 研究背景及意义
2011 年 7 月,国家审计署刘家义审计长在中国审计学会第三次理事论坛上提出[1],“在国家治理中,国家审计实质上是依法用权力监督制约权力的行为,其本质是国家治理这个大系统中的一个内生的具有预防、揭示和抵御功能的免疫系统,是国家治理的重要组成部分”。
随着市场经济的高速发展和每年 GDP 的增加效率来看,在国家调控经济的大背景下,财务审计监督的社会影响力和社会价值越来越被人重视。
现今社会,信息技术尤其是人工智能技术的飞速发展,使得各行各业在其业务拓展领域中或者技术研究部门中都或多或少的引入了人工智能技术,该项技术随着现代计算机的不断更新和改进,使得几年来很多中小企业在其产品的制造中加入了一些智能元素在里面。而在我国的大型企业中,由于其特有的研发部门的存在会使得开展人工智能技术较早。然而,在我们国家的财务审计的调查中[2],存在信息化水平偏低、数据量的急剧增长、审计方法工具落后以及知识范围有限几大方面的问题,如果诉诸于计算机智能化技术解决这些问题,那么就会使得该问题变得简单。因此采用信息化手段进行审计,构建基于人工智能技术的财务审计新模型,提高审计的效率和质量已经成为当下国家开展市场经济的必然。
利用计算机技术进行相关的审计活动是指审计人员在财务审计过程中,以人工智能技术为手段所完成的一些审计过程和审计结果。而且数据分析技术作为人工智能技术的主要手段,已被各级审计机关广泛利用,并取得了很好的效果。随着审计信息化的不断发展,当前的审计数据分析发展呈现如图 1.1 所示的三个层次[4]:
第一层次:查询型分析。根据审计经验和常规方法,审计人员通过 SQL 等语言或采用开发工具定制查询软件,对数据库中的记录进行访问和查询;
第二层次:验证型分析。审计人员根据自身对财务审计过程中可能会产生的问题进行假设和预先设定,然后采用相应的数学工具构建审计推演模型,完成假设推断和论证。
第三层次:发现型分析。事先不提出假设,而是通过从大规模海量审计数据模型中得出的数据构建基于数据发掘技术的审计模型,具有预测未来审计可能的发展趋势,并为发展潜在的审计威胁奠定基础。
..................................

1.2 国内外研究现状
在当今的大数据时代下,从一群大批量无规则无组织的数据中怎样精确挖掘出商家所需要的信息是现代社会急迫发展的需要,在此情况下,数据发掘理论孕育而生[6-9]。该理论正式提出是在 1980 年在加拿大蒙特利尔举办的国际学术会议Knowledge Discovery in Databases 上所提出[10-12]。然后经过了长时间大规模的应用和集成,该技术被广泛的应用于国防工业、航空航天、智能制造、工业机器人以及相关的工业产业中,所产生的工业附加值也是逐年增长。而且,基于数据发掘理论所形成的的算法也被广大的学者所研究,其中包括有遗传算法、IBM 公司开发的 KDD 商业系统等[13-14]。相关的研究在国内外都有一些杰出的工作,比如:国内在财务审计研究中呈现出一些相关的研究者的研究成果,主要集中于采用数据挖掘技术进行审计数据的处理与内部模式的挖掘[15-16],有以下几个方面:
(1)陈丹萍等[17]研究了基于数据挖掘技术进行在线数据审计的算法,提出了把从审计局获取的海量审计数据进行审查和分析时,存在一定的可改进的空间,当完成改进之后,审计效率大幅提升,解决了在审计中长期存在的质量低下的问题,确保了审计质量。
(2)陈耿等[18]基于工程学的思想研究了怎样把审计数据导入工程解题模式中,其中把工程思维重点导入工程技术中,创造了新颖的审计模式新局面,处理和解决了当下审计中较为矛盾的一点问题。
(3)吕新民、王学荣等[19]基于数据挖掘技术在获取了大批量相关审计数据,再利用数据挖掘技术对其中存在财务问题进行了相关研究,研究表明在当前的财务审计模式中,研究人员进行研究的深度还不够,该领域中还有待于更深一步的研究和数据挖掘。(4)荆霞等《基于数据挖掘的审计数据分析》[20]文章提出了基于数据挖掘的审计数据分析流程,以及应用 DBSCAN 聚类算法查找审计证据的方法。
...............................

2 税收业务与数据挖掘

2.1 税务数据特点
税务数据往往来源于税务管理工作中产生的相关数据,这些数据有的来源于企业自身的财务处,有的来源于国家税务局,而有的则来源于地方税务局。总体来说,这些数据都是由税务机关的日常管理业务的信息数据为基础构成的,从税务审计管理业务特征对税务数据进行分析,主要包含以下几点内容:
(1)易用性
之所以进行税务数据的数据挖掘的初衷就是为了可以更高效地、更简单地使用税务数据,此时要求所构建的模型具有简单性和可操作性,所构建模型的好坏与否直接影响着数据使用的便捷性。尤其针对现阶段网上存在较多的数据源,不同用户对这些数据构建模型的易用性都有很大的要求,因此,易用性也是设计一个高效可重用模型的关键性需求。
(2)安全性
安全性主要针对用户在构建模型的过程中在模型转递以及模型复杂度方面是否做的恰到好处,因为模型较差的泛化性能或者较高的复杂度可能对模型的实际测试使用情况造成较大障碍,在一定程度上不具有安全性,也丧失了模型对于私密性的要求。不法分子甚至会利用所构建模型的漏洞或者泄露的税务数据勒索钱财,也会把某些企业的资料上传网络,这样就会对某些企业的信息的隐私造成泄露,因此安全性需求是在模型构建过程中较为重要的需求指标。
(3)可靠性
可靠性也是考查一个模型的重要指标,尤其针对用户在建立模型过程中可能会产生的软件失效的情况,然而对于软件失效的频率统计是衡量一个系统的关键因素,对于其他诸如系统失效的严重程度、易恢复性程度以及故障可预测性等方面都是较为重要的因素,但是前者是主要因素,后几者为次要因素。
.........................

2.2 税务数据源分析
2.2.1 税务数据的实时性
现如今,在很多重要单位的税务部门都会采用自己构建或者直接购买成熟的税务管理系统执行税务审计方面的工作,该系统可以实时录入税务审计的相关信息,甚至可以完成一些较为复杂的浮点运算,然而这些实时录入的税务管理信息具有密集型的特点,在很多方面都可以体现很多细节的信息,具有较高的密度性、高粒度性以及较高的实时性[25]。因此,在存储这些信息的过程中就会产生一些问题,例如到底要构建一个什么样的较为规范模型存储这些数据才可靠、简洁、安全,或者所存储的数据库应该具备怎样的数据结构和范式,这些都是值得深入思考的问题。因此,本文研究了如何通过读写数据事务来进行的数据访问以及实现数据的在线预处理等,而日程管理流程中产生的数据通常可以较好的反射出纳税企业的税务审计业务的运作情况和企业纳税的历史纪录信息。因此,全部来源于税务管理信息统计系统的纳税实时录入信息的数据是税务软件数据仓库管理的重要数据来源,然而这些未经过数据预处理流程的实时数据在进行数据挖掘时。如果直接使用,则所构建的模型的泛化性能就会较差,而且用该模型测试样本数据不会获得精确的识别结果,因此需要对原始数据进行数据清理、数据去噪声、数据处理等操作,这样才可以在一定程度上提高数据信息的质量,使其可以适应税务审计系统中数据采集模式的数据转换模式,提高数据挖掘的效率和执行效果。
2.2.2 税务数据汇总
所谓税务数据汇总是指对税务审计原始数据进行数据预处理后得出的低相关性的数据信息,其中的数据预处理工作过程包括数据优选、误删除数据的恢复、均值求解、数据求标准差、数据求平方和方差、数据压缩与变换等[26]。在实际的税务审计稽查管理工作中,税务汇总数据包括每月的税负率、存货率、税务缴纳报表、速动比率、平均资产净利率、销售成本率、企业明细报表、财务费用率、管理费用率、资产负债率、销售毛利率、存货周转率、销售费用率以及纳税情况等[27],以下阐述了部分税务汇总数据的具体含义。
............................
3 数据挖掘算法...................................... 16
3.1 决策树算法...................................... 16
3.1.1 ID3 算法.............................................16