硕士论文网第2021-03-04期,本期硕士论文写作指导老师为大家分享一篇
工商管理文章《基于昆明市工商管理数据的数据挖掘与分析》,供大家在写论文时进行参考。
本篇论文是一篇工商管理硕士论文范文,决策树算法是数据挖掘算法中用于分类和预测的一种非常重要的算法,该算法的模型效率高、规则简单易懂且精确度较高,具有很大的运用价值LW1。但决策树算法也存在一定的问题,在应用中暴露出了不足之处。本文中针对工商管理体系的数据,提出了决策树算法的改进意见,并通过数值实验证明改进后算法的有效性。
第一章 引言
1.1研究背景
近十几年来,科学技术的发展特别是互联网的迅猛发展,使人们利用信息技术创造财富的能力大幅提升,信息化浪潮席卷全球。如今,信息产生的渠道日益增加,更新的速度也愈加频繁,大数据时代己然到来。一项来自美国的数据研究指出,最近几年产生的数据量占目前世界数据总量的90%以上,仅互联网的数据增长就达到了年均50%。数据的来源也变得丰富多彩,不仅互联网、手机、物联网、云计算可以作为数据来源,平板电脑、手表电话、各式各样的传感器等新兴的电子产品也可W作为数据的载体,并且这些数据载体本身也在不断产生着大量的数据。研究表明,2008至2010年全球的数据产出量分别是0.49ZB、0.組B、1.2ZB。数据的爆发式増长揭开了大数据时代的序章。巨大的数据量到底意味着什么呢?业内人士指出,大数据是隐形的黄金,价值非凡。大数据时代,需要用大数据思维去发掘它巨大的潜在价值。阿迪达斯的"黄金罗盘"案例,梅西百货的实时定价机制,2013年微软大数据成功预测奥斯卡21项大奖,Google利用频繁检索词汇预测冬季流感案例等,如此众多的大数据运用案例,无一不在用事实述说着大数据非凡的利用价值W。大数据不仅大幅促进了科技的迅速发展,更为我们提供了一种全新的方法去看整个世界。我们不再像过去一样按照生活的经验或直觉去做决定,而是基于对以往产生的数据进行合理的分析和挖掘[^得到一些有用的决策信息,而这些信息又会W直接或间接的方式影响我们做决定,使人们的决策更加明智而有效W。大数据时代的到来也带来了目前金融商业界的一大难题,即如何最大化发挥海量数据的隐藏价值,同时也对信息技术的发展带来一大时代性的挑战。科研人员研究中逐步发现,数据挖掘己然在这"数据泛滥,知识匿乏"的时代中展示出其出色的利用价值,极大地改变了我们的社会和经济isi。数据挖掘(Datamining,DM)研究领域涉及多口学科,融合机器学习(Machine learning)、人工智能(Artificial intelligence)、数据库(Database)技术、知识工程(Knowledgeengineering)、统计学(Statistics)、面向对象方法(Object-orientedmethod)、高性自bi十算(High-performance computing)、数据可视化(Datavisualization)及信息检索(Informationretrieval)等最新技术的研究成果,从海量含噪音的结构化或非结构化的原始数据中挖掘未知的、具有潜在利用价值的知识。挖掘出的知识除了在常见的数据维护和查询优化方面具有良好的应用,在信息管理和决策支持方面也有不俗的表现。信息技术近年来的巨大变革,使得人们搜集数据的能力也大幅提升,各行业都会涉及数据的使用和存储,数据库的使用成为必然。我国各地的工商行政管理局作为政府机构,使用数据库系统提高正常的办公效率当然必不可少。那么对工商管理数据进行挖掘分析,到底能够为我们带来什么样的效益?王商管理部口掌管着市场主体的所有信息,而海量的此类信息是国家判断宏观经济走势的基础。市场主体的发展是经济发展中极为重要的一部分,市场主体的变化会直接影响国民经济的运行状态,同时也能反映国民经济发展的特征,所全面掌控和有效利用市场主体信息,对于研巧宏观经济至关重要。
1.2本文所要解决的问题
工商管理部门在适应信息化办公和管理的过程中,建立了自己的监管系统,系统的应用使工商管理部口的监管能力得到一定的提高,同时也积累了大量的数据资源。但是,这种工商监管系统在信息共享和开放式管理等方面的功能还比较疲软,其数据库中存在大量的兀余数据和噪音,本身的日常维护更新也很繁杂。况且这种监管系统原本的开发目标就只是事务处理,缺乏分析和辅助决策能力,要想在这种情况下对积累下来的数据进行深层次的挖掘和分析,对管理层提供有效的决策支持非常困难。虽然当前己经有研充者开发出了一些具有一定数据挖掘能力的应用平台,但是还并不完善,不能够针对具体的数据系统进行有针对性的深层次挖掘和分析。本文在查阅大量相关文献资料的基础上,综合总结数据挖掘理论知识,根据算法恃点对C4.5决策树算法进行适当的改进,对昆明市工商行政管理局提供的数据库中的数据资料进行挖掘分析,得到一些实用的可供决策用的信息。第一章为引言,主要介绍本文的研究背景,论题的研究现状及本文的主要研究工作;第二章介绍数据挖掘的相关理论知识,涵盖基本概念、一般挖掘流程、常见的挖掘方法、数据仓库W及在工商管理系统的应用前景等等,为本文的系统设计奠定理论基础;第H章介绍挖掘系统的体系结构,包括体系结构的设计、挖掘需求字典的描述和挖掘模型的匹配方法,并且详细介绍数据预处理技术;第四章是数据挖掘系统建模tiil及对算法的详细研究和实现,详细研究数据分类算法,给出改进C45算法的Java实现,并对比算法改进前后的挖掘效果;第五章是昆明市工商管理数据挖掘系统的具体实现效果,给出系统的数据库的连接方式,各个模块的主要功能与图形化界面,最后给出部分应用实例,对挖掘成果进行细致分析;第六章是总结与展望,总结论文的研究成果,合理分析可行的改进意见,并展望未来的研究工作。
第二章 数据挖掘技术简介
2.1数据挖掘概述
数据库中的知识发现(Knowledge discovery in databases,KDD)是一个从数据库中提取潜在有用的、有效的、新颖的和最终可理解的模式的复杂过程。数据挖掘是KDD最为重要的构成,如今的研究人员通常对数据挖掘与KDD不作具体的区分【I9]。在数据挖掘中:(1)数据是一组事实的组合,它可W来自不同的数据源,可W是规则数据,也可以是非规则数据;(2)模式是关于数据子集的某种语言描述的表达式或某种可应用的模型,又称为知识;(3)分别采用可信度评价模式的有效性、创新度评价模式的新颖性、可用度评价模式的可用性、简单度评价模式的可理解性心。数据挖掘产生的知识或者模式类别比较多,但总结起来可以归为5大类:(1)能够反映同类事物共同性质的广义知识;(2)反映事物之间相互依赖性的关联知识;(3)反映不同事物差异性的分类知识;(4)能够预测未来趋势的预测性知识;(5)反映偏离常规现象的偏差性知识。主要包括以下内容;1.研究问题域:定义问题域其实就是明确挖掘需求,有目标才有方向,所以送是进行挖掘操作最重要的第一步。2.选择目标数据集:选择挖掘目标,根据需求从数据源选取部分数据。3.数据预处理:有目的性地处理目标数据集,使其变成可W直接进行挖掘的高质量数据。4.数据挖掘:这一阶段简单来说就是按照挖掘需求,进斤实际操作产生的模式。涉及到一个比较现实的问题就是算法的匹配,这个问题通常考虑两点:其一就是数据特点,其二就是运行系统的需求。5.模式解释与评价:这是在将最后的结果提交给用户之前所需要做的工作,需要将之前挖掘阶段所形成的大量模式进行筛选,剔除掉一些无用的或用户不感兴趣的模式,如果在这些模式中没有发现用户可用的模式,则需要返回最初的问题域描述阶段,重新进行挖掘操作。6.知识:使用上述步骤得到的最后的模式,即把有用的知识应用到实际问题中,指导人的行为。
2.2数据合库技术
数据仓库的定义在20世纪80年代中期首次出现于号称"数据仓库之父"所著的《建立数据仓库》—书中,其定义如下;"数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策过程。"送一定义也是目前研究者们所公认的定义,它指出了数据仓库的4个最重要的特征。数据仓库是一种不依赖于数据库系统而存在的且又与之密切相关的应用系统,它集ETL、多维联机分析(OLAP)、数据存储和客户端为一体。ETL包括数据抽取(Data extract)、数据转换(Data transform)、数据清洗(Data cleaning)和数据装载(Data loading)。数据抽取是根据挖掘需求描述从数据源中抽取出挖掘所必须的那一部分并存入数据仓库中。数据转换就是将大量连续的数值按照比例缩放使之落入特定的标记区间,这种操作可大量减少挖掘时的数据处理量,提高挖掘效率。数据清洗则是将抽取的数据中包含着空缺值、错误值等不正常数值的噪音数据加以修正。数据装载就是将之前进行抽取、转换和清洗过的数据存入数据仓库。业务数据和元数据是数据仓库中存放的主要内容。其中,元数据是描述数据的数据,它分为两种类型,一种是描述数据仓库的管理元数据,另一种是协助用户查询信息和理解结果的用户元数据。这些数据W不同的形式存储在关系型数据库(RDBMS)和多维数据库中脚。数据集市是从企业或更专业的数据仓库中提取出的具有特殊目的的数据的仓库,或者说它是存放着为特定群体的特殊需求而单独抽取的数据的仓库。它的存在意义是提高数据使用的灵活性,并且也在一定程度上降低了数据的处理量。
第三章 工商管理数据挖掘系统的体系结构与数据预处理
3.1工商管理数据挖掘系统的体系结构
3.2工商管理数据挖掘的需求描述
3.3挖掘算法的选择
3.4数据的准备与选取
第四章 王商管理数据挖掘算法的设计与改进
4.1算法的设计与改进
4.2算法的实现与对比
第五章 工商管理数据挖掘系统的实现与应用
5.1工商管理数据库的连接
5.2挖掘系统的运行流程
5.3工商管理数据挖掘系统的架构
5.4工商管理数据挖掘系统的实现
5.5挖掘系统在市场主体发展趋势上的应用实例
第六章 总结与展望
随着经济户口数字化的实现,当前的数据库业务系统在深层次的统计分析上体现出一些不足之处,获取有用的决策信息变得非常困难,采用新兴技术开发新的数据分析系统己显得迫在眉睫。数据挖掘作为数据分析领域的新鲜血液,逐渐湿示出其优越的实用性,目前己经应用到诸多行业,展示了其广泛的应用范围和巨大的潜在经济价值。国内在数据挖掘的应用技术和理念上,虽然与国外先进技术相比相差甚远,但已经取得了巨大的进步。国内对工商大数据采用数据挖偏的研充虽然还处于起步阶段,但相信将来一定会越来越完善和深入,这也是未来工商管理体系数据分析发展的方向。本文的工作主要包括以下几个方面:(1)对数据挖掘的基本概念与方法进行了简单介绍,仔细描述了数据挖掘的挖掘流程,对比了数据挖掘与OLAP这两种分析技术的性质特点,总结了数据仓库的技术基础,并且分析了在工商管理数据中应用数据挖掘技术的前景。(2)针对昆明市工商管理数据的特点,采用决策树算法,对C4.5算法进行了适当的改进,应用该优化算法得出了一些有价值的结论,可以为决策者提供有效的决策支持,为系统的后续完善和改进工作提供了良好的参考基础。(3)在昆明市工商管理体系的数据库中提取了部分企业的数据,为使挖掘工作能够有效地进行,对数据进行了抽取、清洗和转换,提高了挖掘效率。采用Java语言及三大相关的开源框架技术,搭建了一个可供使用的工商管理数据挖掘系统,初步展示了挖掘结果,并获得了一些在市场主体发展趋势上的应用实例。通过对本文的研究和具体实践,使本人对数据挖掘有了更进一步的理解,并且掌握了如何利用Java相关开源技术搭建系统平台,熟悉了SQL Server数据库。由于开发水平和时间的限制,本文的研究成果具有一定的局限性,很多地方还需要进一步加W补充、修改和完善。主要包括以下几个方面:(1)本文获取的源数据是昆明市工商行政管理局2014年3月W前的SQLServer2000中的数据,由于数据源比较有限,因此挖掘结果对决策的支持也具有局限性。为了使系统对不同数据库都能兼容,在系统搭建过程中编写了JDBC,便于以后进一步拓展应用。今后可能会涉及对多级工商管理部口的数据进行综合挖掘利用,极有可能会遇到不同的数据库版本,会面临更庞大的数据量,相应地也会获得更加具有现实使用价值的知识信息。(2)本文搭建的工商管理数据挖掘系统的算法库中,具有针对性的算法目前还比较少。由于时间仓促和开发水平的限制,尚无法实现更多有针对性的挖掘算法,并且由于只是普通的原型系统的实现研究,还缺乏针对挖掘算法的更细致的研究和使用。(3)对挖掘结果进行可视化是一项非常繁杂而困难的工作,本文中也只是对决策树算法的挖掘结果的可视化进行了尝试,缺乏对其他挖掘模型算法的可视化展示,在这一点上还需要加W补充和完善。(4)本文中所搭建的系统平台还没有完全做到对非专业人员的普适性,数据的预处理等操作还是需要有一定专业基础的人员来进行。如要使系统能够适应非专业人员使用,尚需付出更多的努力来改进完善。对当前的工商管理业务系统中的数据进行挖掘分析,并且引入开源技术搭建挖掘平台,是一种较新颖的数据挖掘应用。虽然当前的研究和探索具有相当大的局限性,但这并不妨碍数据挖掘在工商管理数据上进行合理有效的应用这一趋势,相信各种数据挖掘平台在未来必定会如操作系统一样有更广泛的应用。
以上论文内容是由
硕士论文网为您提供的关于《基于昆明市工商管理数据的数据挖掘与分析》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网工商管理栏目。