论文关键词:商业智能 数据仓库 OLAP
论文摘要:针对目前税务管理信息系统存在的问题,引入商业智能手段,提出了商业智能架构体系,给出了一个完整的商业智能系统建设方案,建立数据仓库并优化了数据仓库的查询,利用该数据仓库对今后税收情况进行预测。实际应用结果表明,该系统不仅提高了税务部门对现有的信息数据的利用效率,还提高了税务部门决策分析的能力,能够有效地指导税收工作。
税务部门商业智能系统建设的目标就是要为其提供一个统一的分析平台建立OLAP充分利用积累的数据并对其进行深层次的挖掘,从不同的角度分析这些数据并对下阶段的税收数据作出预测.提出税收预测的解决方案以提高税收预测的速度和精度为领导决策提供依据
一、商业智能基本概念
1商业智能
商业智能(B日技术是一种能够帮助企业迅速完成信息采集、分析的先进技术也是包括数据仓库(Data Warehousing)、联机分析处理(On一line Analytical Processing,OLAP)、数据挖掘(DataMining)在内的用于统计和分析商务数据的先进的信息技术。
2.查询报告
企业在运行过程中需要将各地的数据汇总到总部进行管理以用于建立一个数据仓库这种数据仓库不但保存了历史数据阶段性数据而且还能从时间上对数据进行分析同时数据仓库还提供了装载外部数据的功能用来接受大量的外部数据查询这个查询使管理者能很快地获取相关信息进行决策。
3在线分析处理(OLAP)
在线分析处理是一种高度交互式的过程信息分析专家通过它可以即时反复进行分析迅速获取结果。在线分析处理有多维在线分析处理、关系型在线分析处理和混合在线分析处理。分析处理过程一般包括3种可供选择的方案:
(1)预先计算小结数据在使用前进行计算并存储。
(2)即时计算和存储.小结数据在查询时计算然后存储结果。因为消除了相应的运行计算,使随后的查询运行变得更快
(3)随时计算用户在需要时对小结数据进行计算。
4数据挖掘
数据挖掘的功能是从浩如烟海的数据和文档中发现以前未知的、可以理解的信息进行计算或分析。由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询。数据和文本挖掘工具必须提供很高的吞吐量.并且拥有并行处理功能支持多种采集。因此数据挖掘工具应该具有良好的扩展功能能够支持将来可能遇到的各种数据或文档和计算环境。
二、商业智能体系结构设计及系统实现
1系统功能设计
税收管理中引入商业智能手段可以解决从基础数据采集到联机分析和数据挖掘各个环节的需求问题能够满足各级领导对业务信息的查询与决策支持的需求,具体功能设计为以下七个部分:
(1)数据采集:提供了基础数据采集工具:
(2)报表查询:对经常使用的固定报表的快速查询;
(3)报表制作:制作并生成用户自定义的报表;
(4)报表分析提供切片、切块、下钻、上卷和旋转等数据分析功能即从不同维度上进行挖掘、清洗、汇总、处理等提取想要的相关数据结果形成报表以图形等展现出来。
(5)即席报表查询查询即席自由组合的报表
(6)图表分析:提供了饼图、线图、直方图等图形分析工具;
(7)与地理信息系统(GIS)的结合:利用数据库的管理、查询、统计和GIS的空间分析、数学分析模型等为各级领导提供信息查询、辅助决策的功能使信息的展现和分析更加直观。
2数据仓库结构设计
数据仓库的设计要符合税务系统的业务需求在数据仓库的设计过程中必须与税收业务人员以及管理人员密切配合摸清可利用的现有的业务数据外部数据.以及真正的决策需求。税务数据仓库应用模型如图1所示
(1)数据源。税务系统现有的业务系统数据源(包括其历史数据、业务数据和其它数据)其数据特点是分散、难以共享和再次分析利用:
(2)中心数据仓库。由数据仓库及多维数据库组成源数据经过抽取、清洗和转换之后装载到数据仓库中,数据仓库中的数据是集中的、经过了清洗和转换的便于进行分析;存储于多维数据库中的数据是经过了再次加工的为税收分析与决策模型提供了必要的分析基础
(3)应用服务层。负责连接用户对数据仓库、多维数据库的查询访问
(4)信息展示工具负责为用户展示分析后的结果。并可对展示的数据进行再次的分析利用,形成最后的分析报表和报告。
3.数据仓库设计
(1)概念模型设计。在税务信息管理系统中包括税务登记管理、征收管理、税务稽查、法规及复议等各个模块每个处理模块存储着既独立又相互联系的管理数据运用数据仓库的理论和方法对这些管理数据进行综合、提取可产生支持税务管理决策或税务信息访问的信息
(2)逻辑模型设计。①分析主题域概念模型设计确定了税务登记、申报征收、税收计会统、发票管理四个主题域,其中申报征收主题是整个业务流程的中心环节所以选定申报征收主题来实施。②粒度层次划分。对于纳税申报主题数据量巨大将从前端得来的申报数据经过转换作为基础数据,按照时间和征收机关进行综合。③确定数据分割策略。在本系统中,数据分割采用按照时间和征收机关进行。
(3)设计维表及事实表根据税务征管包含的业务范围和决策分析的需要设计征收管理的星形模式星形模式的模型如图2所示。纳税人的纳税情况作为事实表与之关联的有多个维表:纳税时间维表、纳税人维表、征收机关维表,税种维表、行业维表。
(4)物理模型设计。星形模式的建立保证了面向税务征管的数据集市所需要的数据元素。在星形模式视图的基础上可以建立物理数据库。
使用SQL Server2000的Enterpirse Manager组件首先建立关系数据库Revenue_ mart再进一步分别建立维度表和事实表。
三、税收分析的商业智能实现
1.数据预处理
建立数据仓库系统的物理数据库之后就把税务征管系统中的数据抽取(Extraction)出来进行清洗和转换(Transformation )按照面向主题的数据特征重新进行组织加载(Load)到物理数据库Revenue_ mart中。提取和加载数据仓库是一个非常复杂、非常关键的过程直接影响到数据仓库中数据的质量和数据的可用性。
(1)确定数据源。根据数据库Revenue_mart中各种维度表和事实表的数据需求通过对于税务信息管理系统的深人研究确立数据仓库的两部分数据源:存储在数据库服务器中的内部数据源和以其他形式如文本、WORD、 EXCE ACCESS等存在的外部数据源。
(2)抽取和清洗数据。确立数据仓库的数据源之后为了保证数据仓库的有效性、统一性和完整性应当建立阶段性区域对于数据源的数据进行抽取、验证、清洗之后加载到阶段性区域。
(3)转换和加载数据仓库。OLTP数据迁移到阶段性区域(中间数据库)之后需要作进一步的转换加载到数据仓库中。利用SQL Server2000的数据转换服务完成数据迁移任务。
2.创建OLAP数据库和数据块
利用SQL Server2000的OLAP Services组件建立面向征管的OLAP数据库。图3是利用SQL Server2000建立的入库税款立方体示意图图中是按行业、时间和征收机关组织起来的三维立方体再加上变量“入库税款“就组成了一个多维数组(行业、时间、征收机关、入库税款)。如果扩展一个维就得到一个四维的结构。如在“行业、时间、征收机关“三维立方体中进行切块、切片可得到不同行业、不同征收机关的入库税款。
(1)建立OLAP数据库Revenue_dsso OL AP Services组件提供了一个GUI界面的OLAP管理器,使用OLAP管理器选择OLAP服务器建立OLAP数据库Revenue_ dss在OLAP管理器的控制台树中扩展数据库Revenue- dss的Library文件夹建立数据库的数据源设置OLE DB Provider for SQL Server为数据源的数据提供者选用数据库Revenue_ mart为数据源通过测试保证数据源的正确设置。
(2)创建OLAP共享维度。为了保证面向税务征管的数据集市的可扩展性建立时间维度.征收机关维度.行业维度.纳税人维度和税种维度等共享维度。
(3)建立数据块Tax_ revenue①创建逻辑数据块Tax_revenue在OLAP管理器的控制台树中选择数据库Revenue_ dss,利用CUBE向导建立Revenue_ dss数据库的逻辑数据块。在CUBE向导中选择数据表collection_ fact作为数据块的事实表选择事实表的数值字段N ysk, Sjsk作为数据块的测度(m easures)选择时间维度Dim_ time、征收机关维度dim_ department、行业维度dim_ trade纳税人维度dim_ taxpaye「和税种维度dim_ Category等共享维度(shareddimension)作为数据块的维度而后把数据块命名为丁。x_revenueo②创建物理数据块Tax_ revenue。创建OLAP逻辑数据块Tax_ revenue之后需要对该数据块进行物理设计。利用OLAP的数据存储向导(Storage Design Wizard)可
以选择数据块的物理存储类型(MOLAP, ROLAP. HOLAP)。对于数据块Tax_ revenue选择ROLAP的存储方式在关系数据库中存储事实表和数据聚合表可以节省大量的存储空间。
选择数据块的存储方式后利用OLAP的数据存储设置数据聚合选项。数据聚合就是预先计算数据的集合值加快对于数据块查询的速度。数据聚合有三个选项第一个选项是磁盘空间可以选择数据聚合所需磁盘空间的上限。第二个选项提供用户期望实现的性能提高估测OLAP决定合适的数据聚合以保证性能的满足。第三个选项是由用户任意选择。为了保证对于数据块Tax_ revenue的查询性能选择第二个聚合选项设置数据聚合的性能指标应当达到80% 。
设置了物理数据块的存储类型和数据聚合选项后使用OLAP的数据存储向导对数据块进行处理。对数据块Tax_ revenue的处理就是从事实表。ection_ fact中检索信息根据数据聚合选项计算数据的集合值OLAP Services在关系数据库evenue一 mart中创建汇总数据表对这些数据聚合进行存储。
四、结论
通过探讨商业智能解决方案的相关技术结合当前的税收工作将先进的技术用于实际工作中为税收的信息化建设探索新思路、新方法通过建立数据仓库把税务人员从大量的数据操作中解救出来进而在此基础上进行数据分析、预测为各级税务干部和领导提供执法信息和决策依据。本文提出的解决方案具有较高的先进性和实用性为有效的指导税收工作、充分利用资源、加强和完善管理机制、发挥税收经济杠杆的调节作用具有重要的指导意义。