期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

数据挖掘总结模板(10篇)

时间:2022-02-07 02:08:09

数据挖掘总结

数据挖掘总结例1

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)20-4798-02

Data Mining Technique in the Application of Financial Information Systems

ZHANG Bang-wen

(Sichuan Information and Technology College, Guangyuan 628017, China)

Abstract: As information technology application in financial management, data mining technology on the financial data processing and analysis of information systems is essential to understand the meaning of data mining, roles, tasks, objects, methods, combined with the characteristics of financial data, data mining applications research to improve the financial management unit.

Key words: data mining; financial information system; data analysis

随着计算机的普及与应用,给生活、工作带来极大方便,利用计算机采集与分析财务数据成了一个单位重要的工作。现在财务系统中产生了大量的、复杂的数据,隐含具有重要意义的数据资源,需要利用数据挖掘技术发现有用的知识来指导单位的财务管理,为单位重大决策与管理提供重要参考资料。

1 数据挖掘(Data Mining)技术的含义及作用

数据挖掘(DM),又称数据库中的知识发现(KDD),是从数据中发现知识的过程。数据挖掘集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术于一体的交叉学科,它是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中析取、分析信息和知识的过程。通过数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策。实际就是对数据的深度分析。

其目的是发现人们不易觉察的、隐含的模式,从而提高单位决策能力,在过去的经验、数据基础上预测未来趋势发展等。

2 财务信息系统数据挖掘的任务、对象与方法

2.1 任务

财务管理系统存放了单位基础财务数据资料与累计各期发生资料,根据数据的特征与财务管理工作的要求,可以将数据挖掘分为:分类或预测数据分析、数据聚类分析、关联规则分析、序列模式发现、异常和趋势发现等。

2.2 对象

财务系统中数据主要以数据库存放,采取的是关系数据库管理模式,因此主要挖掘对象是关系数据库、时态数据库、文本数据源等。

2.3 方法

根据财务系统数据资料的特点,以及数据的特征及相互的关系可采取的数据挖掘方法有:

1)统计分析方法。是一种最常见的空间数据分析,借助成熟的统计方法对数据进行回归、时间序列等分析。可以实施会计年度各项数据的累计计算,并分析财务报表数据资料。

2)关联分析。是从给定的多项数据中,提取出多个变量,分析之间的规律性与关系。例如,对销售、生产等业务数据的关联分析,可以得到产品的市场需求与产品的利润值进行关联分析,便于调节产品的生产与销售。

3)分类与聚类分析。是将财务系统中关系密切的数据提前与事后分类,从各组数据分析数据的关联度、特征等,探索同性结果与异性结果。例如,企业可以根据客户、供应商、部门等数据进行分组分析,得到企业所需求的往来核算数据与部门信息。

4)差错检测分析。设置自动校验数据异常、错误、不匹配等,分析差错数据产生的原因。可对某个往来核算单位出现大量应收数据进行分析,挖掘根本原因,规避风险。

总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,采取多种挖掘方法和工具进行分析,获取有意义的信息,归纳出有用的数据信息,作为决策者进行决策的依据。

3 财务信息系统的数据挖掘应用

根据数据挖掘的原理、对象和任务,结合财务数据的特征表现,可将数据挖掘分为:数据采集与处理、数据挖掘、数据结果、分析决策等环节,在实施过程挖掘分析、处理数据中,可以结合数据挖掘方法进行多次的过程循环,达到数据分析的预期结果。

3.1 基础数据挖掘应用

一个单位经营状况的数据主要通过财务数据反映与分析,通过对财务的基础数据挖掘分析,可以掌握企业的业务内容、开办的资金情况、基本规模,从而为企业发展做好基础数据处理与分析,为后续发展和财务状况管理提供有力的支撑。企业的基本信息、核算项目、结算方式、币别、计量单位、凭证字、会计科目等都存储在基础数据库中,这些数据中有关联与序时关系,可以分析企业主要开展的货币业务是什么、往来核算单位等,得到会计科目设置与其他项目的关系,确保基础数据的处理正确有效。比如应付账款科目设置往来核算单位,设置关联项目为往来单位(供应商、客户);银行存款设置外币核算,必须设置关联币别选择等;这些关联设置可以有效实施单位业务分类汇总处理。

3.2 初始数据挖掘应用

初始数据是财务系统启用前必须设置、处理的数据,是对一个单位前期财务数据的汇总处理,主要有应收应付、固定资产、科目、出纳等初始数据,为财务系统的正常使用提供必须的保障。利用关联与统计分析,从客户与供应商往来中关联到最紧密合作单位,对应收应付数据实现统计汇总,得到企业资金的流转性、风险性、信誉度,设置临界点控制风险。利用统计与分类分析,建立数据挖掘模型,实现固定资产分类统计总值,按照设置的折旧方式进行费用分摊,实现成本费用的控制与核算。采取分类、关联、统计分析,可对科目数据编制关联算式进行试算平衡分析、计算流动资产比例、资产负债率,分析单位经营的财务潜力。

3.3 账务处理数据挖掘应用

账务处理是财务信息系统最重要的数据,也是财务管理中最重要的事务处理工作,是对一个单位开展经济业务的真实记录与反映,必须加强数据处理与分析,实现合理存放,确保企业财务管理正常实施。通过序时挖掘,可以得到每天的经济业务量。通过统计汇总分析,可以实现总分类账与明细账的核对,结算损益、期末调汇的核算。通过差错检测和关联挖掘分析,对不能过账、转账的进行分析,查找出原因,便于数据的纠错;也可对不能结账的数据,实现关联分析,回溯分析账务处理的正确与否。

对于凭证的科目、金额、结算方式、往来单位等的填写必须使用设置序时关联,在基础数据中无相关项目不得随意、甚至不许编制凭证。比如科目表中没有科目就不能填制,必须在科目表中设置后才可以使用,没有相应的基础数据是不能实现凭证处理;设置有往来核算的科目必须自动实现客户、供应商选择、填制业务单号;银行存款必须设置结算方式。

对于自动转账业务,必须明确能实现自动转账的经济业务,只有在期末才能对当期的费用结转、汇总、分摊,实现关联、统计挖掘分析,确保成本核算。如果发生自动转账不成功,不能生成凭证,必须能实施差错检测分析,产生错误提示信息,定位查询相关业务、科目数据资料。

3.4 期末数据挖掘应用

财务期末数据是对当期经济业务发生的汇总,包括本期借方发生额、贷方发生额、期末余额,是对一个单位一定时期经营状况的反映,有必要对各项业务数据进行挖掘分析,对管理决策、防范风险、成本控制起着重要参考依据。期末数据主要是对总账、明细账、会计科目余额表等进行汇总,汇总数据后能实现的是总账与明细分类账、现金、银行存款等对帐、试算平衡,分析单位的资金流向、运转效率、经营状况等,需要利用统计分析、关联、分类等数据挖掘分析,进行数据处理与分析。

1)查看应收、应付、预收、预付账款余额,利用明细数据查询和分往来单位汇总分析,从某往来单位中的应收应付账款数据中可以采取曲线汇图,分析该单位的信誉度、企业规模实力,从而确定今后时期重要的往来单位,实施政策调整与协议合作修改,争取自己的风险降低,效益提高。

2)查看成本、费用等会计科目期末发生额数据,实现产品成本核算,通过各期末数据,实现挖掘分析,便于成本、费用控制。对生产成本、产成品、库存材料(商品)、销售费用、管理费用、财务费用等会计科目实施当期发生额汇总,确定各自的组成部分,进行分析。比如对生产成本分类查看各项数据,对比分析人工费、材料费、制造费等,确定各自比例,可以确定企业应该加强某项费用的控制与管理,结合产品类别实现分产品对比分析,利用数据关联关系,采取核定计算公式,编制数据百分比统计表,生成圆饼图;对销售、管理费用可以采取分项汇总数据,便于对销售、管理环节加以控制与监督,降低费用,控制成品,提高效益。

3)查询现金、银行存款余额,可以分析单位的货币资金使用与流向。需要根据对比各期期末数据,采用序时、统计分析,列出对照表,分析单位的业务集中时期、大额资金走向问题,绘制趋势图,便于调整管理与控制货币资金使用;结合凭证数据,实施关联分析,分析货币资金合理的周转率,提高经济效益。

4)查看余额调节表,利用数据挖掘分析,对不平衡者必须明确原因,提示可能的关联会计科目。

3.5 工资管理数据挖掘应用

工资是一个单位重要的会计核算业务,也是成本控制的重要依据。工资数据涉及类别、部门、银行、员工、项目、个人所得税等数据,可以采取关联、分类、统计等数据挖掘完成工资数据处理与储存。对工资数据的设置必须严格按照类别、部门、银行、员工、项目等序列实施,对工资计算、个人所得税设置公式进行统计计算,同时要工资表进行分部门汇总,实施结转。在汇总数据中可以挖掘企业各类职工的收入情况,确定人工成本,实施关联分析营业利润,便于调整、分配合理的工资,最大限度的激发职工兴趣,提高利润。

3.6 其他业务数据挖掘应用

各单位开展的业务不一致,可以根据需求选择使用,利用各业务管理提供的数据实施专项管理,挖掘数据之间的关系,得到决策数据依据。比如采购管理,从往来核算单位数据中分析信誉度好、质量好的合作单位,控制好物资采购,避免物资短缺和浪费,需要找到产品生产领用物资数据,分析得出合理的采购量。

4 数据挖掘分析中的有关注意事项

1)财务信息系统的基础数据、初始化数据必须认真仔细,必须确定各数据之间内在的关联关系,实施前后约束控制、临界点控制。

2)凭证数据是财务信息系统最重要的数据,仅依靠凭证汇总、总账、科目余额表数据是不能有效实施数据查询与分析。可以导出数据,利用数据统计汇总,设置公式、图表计算、对比,进行挖掘分析。

3)各具体业务管理模块数据,必须确定彼此的关联、序列关系,采取从数据中分析各自控制的重点数据,防止数据错误丢失与分析失误。

4)实施财务信息系统数据挖掘分析,必须熟悉财务处理业务流程和财务管理相关常识,否则无法有效实施。

5 结束语

总之,现行财务信息系统存储了大量日常业务处理数据,仅依靠现存的管理系统不能很好的实现财务数据分析与处理,必须借助数据挖掘技术,从各类数据中利用各种挖掘方法,得到对单位决策管理有价值的数据。

参考文献:

数据挖掘总结例2

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)24-0013-02

随着信息技术的迅猛发展,人类社会大步迈入了网络时代,网络数据挖掘已成为数据挖掘中的一个重要研究课题。网络数据挖掘注重事物之间的属性及联系,通过无数个体数据的分析和特殊算法的使用,实现模型的可视化和连接趋势。运用网络数据挖掘可以很好地解决复杂的自然属性组成的问题。

1 数据挖掘技术

1.1概念

数据挖掘就是借助程序管理对海量数据进行分析归纳汇总。其挖掘程序依次为应用界面层、应用服务层和数据库层。三层结构紧密联系,互相配合完成数据挖掘任务。用户要进行数据挖掘,需要应用界面层的请求响应,请求信息反映到应用服务层后,得到允许才可以进入数据库访问,提取相关数据并进行分析。数据挖掘可以有效地对数据进行整理与分析,使之规范化与合理化,方便汇总与管理,提高了相关数据的安全性与有序性,提高了管理效率与管理水平。

1.2传统数据挖掘

1.3网络数据挖掘

网络数据挖掘是个新生事物,笼统地讲析太过抽象,所以我们就以社交网站为例来探析下网络数据挖掘。微博诞生也不过数年光景,就以之为例。微博是大家熟知的社交网站,通过社交网站的数据挖掘的管理流程,就可窥一斑而见全豹,对整个网络数据挖掘的方法与技术就都可以融会贯通了。我们可以举个例子,譬如应用面向对象的系统分析方法与设计等等。

2 网络数据挖掘方法

2.1构建数据仓库数据挖掘体系

网络技术的快速发展,对网络数据进行海选分析及综合提供了便利。以社交网站为例,如果要进行相关信息的数据挖掘,实现高质量与高效率,就要通过对海量数据的处理与整合,使用数据仓库技术及数据挖掘技术是个不错的选择。为最大限度节约时间及减少运行成本,构建数据仓库数据挖掘体系是至关重要的。一般体系结构如下图所示(图2)。构建了数据仓库体系,可以高效对数据进行管理与汇总,对相关数据进行关联分析,最后得出自己需要的信息。

2.2 网络数据挖掘分析

2.2.1 图像内容的信息挖掘

网络用户很多喜欢上传分享一些照片、视频等图像内容,对这类信息如何进行挖掘呢?人们一般运用积分图加速Harr特征来进行信息提取。

Harr特征一般分为边缘特征、斜线特征、中心特征和对角线特征四个类别。将这些特征融合在一起就可以形成新的特征模板。新的特征模板内都有白色与黑色区域,其特征值为白色像素减去黑色像素的差。

3 小结

网络数据挖掘是个技术性很强的全新课题,需要在实际电脑操作中进行不断学习与实践。本文只是简单介绍了一些常用的方法与技术,由于篇幅有限,对具体操作也只是做了简单介绍,希望能为广大朋友牵线搭桥,抛砖引玉,为今后在实际运用中做个指导。

参考文献:

[1] 林秀琴.一种改进的Snort系统模型[J].电脑知识与技术,2011(13).

数据挖掘总结例3

二、使用Weka进行关联挖掘

Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。

(一)数据预处理

数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。

(二)数据载入

点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。

(三)关联挖掘与结果分析

WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。

三、挖掘结果与应用

以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。

1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是部级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有部级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。

数据挖掘总结例4

数据挖掘技术不断发展在很大程度上解决了数据库技术等一些零碎技术中存在的不足,人们可以更加便捷的聊到数据中所包含的信息,更容易获得具有价值的信息,整体来说,数据挖掘技术能够将一些看似分散的数据进行提炼,最终得到一条条具有价值的信息。关于对数据挖掘技术的探讨分析,在国内外都有所涉及,研究它的具体应用更是在很大程度上体现了它的价值所在,随着数据挖掘技术的不断发展、更新、进步、成熟,势必会使得企业管理者得到更多商务智能。

1、 数据挖掘系统设计技术

1.1 数据挖掘

数据挖掘顾名思义就是在大量、无序、模糊并且随机、有噪声的数据中进行数据的挖掘和提炼,进而选取出人们感兴趣的但是隐含在其中、事先未知并且属于潜在有用的信息和知识。一般说来,通过数据挖掘技术所得出的信息和知识都有着雷同的表现形式,即规则、规律、模式以及概念等。数据挖掘是数据挖掘系统中最为主要的一种技术,它几乎可以称为整个系统的核心体系。通常传统的查询以及报表处理都不会将事件和数据做出较为深入的研究,事件数据发生的原因和过程并不能具体入微的表现出来,仅仅表现出了事件的结果。然而,数据挖掘技术就将这一内容表现了出来,并且十分具体细致,深入的了解到了事件的发生原因,同时还带有一定程度的置信度来预测未来,对于决策行为来说,起到了一定的支持作用。

1.2 数据库

数据挖掘系统中关于数据库的逻辑结构与设计也是相当重要的,将数据库的概念结构进行设计之后,就可以将数据库概念的结构再进行转化,最终成为数据挖掘中数据库系统所支持的一种实际的数据模型,通俗来讲也就是数据库的逻辑结构。鉴于数据库对于数据挖掘系统来说是最为基础的有力数据来源,因此,在数据挖掘系统设计以及应用的探讨分析中,研究数据库技术的价值和意义也同样极为重大。

1.3 数据挖掘的过程

数据挖掘系统进行数据挖掘工作时,通常必须要按照一定的流程和步骤来进行,整体来说都是大同小异的,必须具备的操作过程同时包括着数据准备、执行数据挖掘算法以及表达结果等几个阶段,如果更为具体细致的进行划分的话,可以分为这样的几个过程:理解并且定义需要解决的问题-进行必要的数据搜集和抽取-进行数据净化-进行数据引擎-进行算法引擎-应用并且运行数据的挖掘算法-对运行结果进行评估判断-对数据以及问题做出最后的精化-最后使用挖掘结果。在整个数据挖掘的过程中,上述的九个步骤要不断反复的进行,数次之后,才能得到最终的结果。理解并且定义需要解决的问题是我们解决任何问题都要经过的步骤,数据挖掘同一般意义的分析还略有不同,它要求必须深刻的透彻的很好地理解问题,即便如此,最终还是有可能得到行不通的结果;之后搜集和抽取数据时,因为所针对的搜集以及抽取输的对象不同,因此需要根据实际情况做出具体的判断,并且同时会应用到多种抽取方法,譬如随机抽样、机械抽样等;净化和理解数据则要求花费精力和时间分析处理已经搜集到的数据库;数据引擎以及算法引擎顾名思义,需要科学的进行选取;之后进行数据挖掘算法,这一过程可以恰当的采取一些数学算法作为辅助;再对结果进行评估、重新精化,反复多次整个数据的挖掘过程,目的就是使得数据挖掘技术将其所挖掘的算法能够得到不断地求精以及深化,最终就可以对挖掘到的数据进行使用了。

1.4 数据挖掘系统总体设计与规划

数据挖掘系统将石化企业、网络所获得测试数据以及大型超市的数据作为基础,结合数据挖掘技术以及企业的ERP系统,对整个企业的工作进行智能的决策以及协同管理。企业的数据挖掘系统在系统开发的环境中,将大量的数据来源作为预处理的数据,无疑这些数据的来源是石化企业运行之后所产生的有用数据、网络之中作为测试之用的可靠数据以及大型超市之中后台的数据库之中产生的有价值的信息数据。这些预处理的数据是数据挖掘系统中最为重要的基础来源,经由PC机将这些已经明确了的数据库表结构设计出数据挖掘系统。从深层次来说,这一数据挖掘系统应用到主流的JAVA开发工具-eclipse,再通过结合JAVA开发语言以及已经实现了的数据挖掘算法进行开发最后形成,总之,这一结合体使得数据挖掘系统的移植功能得到了大幅的提高,并且同时极好的应用到了JAVA的跨平台性,将此系统移植到其他不同的操作平台上因此就成为轻而易举的操作。

2、 数据挖掘技术的相关应用

关于数据挖掘系统设计的应用,其总体的功能结构设计包含着销售模块、产品模块以及客户模块。单说产品模块,就包含着产品预测和产品预警等,其中所包含的数据更是数量庞大,类似年份、产品名或者销量、利润,或者是上月、本月销量、成本、库存等一系列数据,其中所包含的信息量极其庞杂,因此,应用到数据挖掘技术对于管理阶层来说,就起到了很大的智能管理作用。除上述之外,产品的销售模块、客户的购买周期或者其他产品的生产周期等多种多样的数据都成为数据库的一大组成部分。

数据挖掘系统的数据挖掘技术结合科学的应用到产品的销售、客户以及产品这三个模块之中,其中各部分的实现过程都十分充分的应用到了数据挖掘的算法,针对企业ERP的数据挖掘的相关实现方法,对于产品的销售、客户以及产品的数据挖掘来说都起到了相当重要的作用,十分科学有力的将其概念模型、逻辑模型以及物理模型的设计工作都很好地进行了表现。总而言之,在企业之中,其中的实际情况以及相关的测试数据进行有力的结合,实际的企业之中应用到这一系统,以期获得较好的测试结果,整体来说,数据挖掘技术在企业之中发挥了相当有力的作用。

3、 结语

总之,探讨分析数据挖掘系统设计技术以及相关应用会为企业管理者带来更多的商务智能,其中的很多过程都很直接地表现出了数据挖掘的技术。当然,各行各业数据量随着社会的发展进步也在不断的增加,从其中更为及时便捷准确的获取到有价值的信息,就必须加大对于数据挖掘系统的分析力度,对其中的数据挖掘技术以及数据库技术不断地进步、发展、更新,力求能够在最短的时间内解决掉当前数据挖掘技术中所存在问题,争取能够更好地使用数据挖掘技术,在各行各业的应用中广泛的展开,总之最终目的就是使得数据挖掘系统设计与其应用能够造福于各行各业,提供出最大限度的智能便利。

参考文献:

数据挖掘总结例5

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

数据挖掘总结例6

中图分类号:TP317 文献标识码:A 文章编号:1009-3044(2014)01-0004-04

随着计算机技术的发展和数据库技术的广泛应用,人们积累的数据越来越多,大量数据背后隐藏着许多有价值的信息。挖掘大量数据背后有价值的信息,促成了数据库中知识发现(Knowledge Discovery in Databases,KDD)的产生。数据挖掘(Data Mining)是知识发现(KDD)最核心的部分[1]。数据挖掘在经历了十几年的快速发展后,已经逐渐成为一门独立的应用学科。

Excel作为Microsoft Office的组件,日常工作中经常使用。它以其直观的界面、出色的计算功能和图表工具,再加上Microsoft成功的市场营销,使Excel成为最流行的个人计算机电子制表和数据处理软件。Excel 2010数据挖掘工具是一个功能强大的工具。它提供一个快速直观的界面,可用于创建、测试和管理数据挖掘结构和模型,同时不会降低 SQL Server Analysis Services 中的数据挖掘所提供的强大的自定义功能。[2] Excel 2010数据挖掘工具提供的一些向导和工具,可轻松地从数据中提取有意义的信息。它们可以找出隐藏在复杂数据中的模式和趋势,并通过图表和交互式查看器等方式使这些模式可视化,然后生成可用于演示和业务分析的丰富多彩的汇总信息。它可以对存储在 Microsoft Office Excel 表中的数据进行相关性分析和预测,也可以创建和修改存储在 Analysis Services 实例中的数据挖掘模型,还可以在 Microsoft Office Visio 中以图形方式显示结果。Excel 2010数据挖掘工具除了提供数据建模算法外,还提供一个集测试、预测和绘图于一体的桌面数据挖掘解决方案。因此,Excel 2010数据挖掘工具的有效利用将大幅提高数据挖掘的效率。Excel2010成为最简单实用的数据挖掘软件,使数据挖掘分析方法得到推广和应用。

1 数据挖掘介绍

数据挖掘(Data Mining)是从大量数据中挖掘有趣模式和知识的过程。[3]旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的而又潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中知识发现(Knowledge Discovery in Database,KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。

数据挖掘系统的典型结构,如图1所示。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。数据挖掘系统经由以下步骤的迭代序列组成:1)数据清理,消除噪声和删除不一致的数据。2)数据集成,多种数据源可以组合在一起。3)数据选择,从数据库中提取与分析任务相关的数据。4)数据变换,通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。5)数据挖掘,基本步骤,使用智能方法提取数据模式。6)模式评估,根据某种兴趣度度量,识别代表知识的真正有趣的模式。7)知识表示,使用可视化和知识表示技术,向用户提供数据挖掘的知识。

步骤1—4是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。

2 Excel2010数据挖掘工具介绍

在Excel2010中使用数据挖掘工具之前,需要在适当的操作系统环境下安装好数据挖掘外接程序,并且要有Microsoft SQL Server Analysis Services (SSAS) 的支持。该文使用的操作系统环境是Windows7,Excel版本是2010,数据库版本是Microsoft SQL Server 2012,使用Microsoft SQL Server 2012 Office 2010 数据挖掘外接程序。Microsoft SQL Server 2012 Office 2010 数据挖掘外接程序利用了 Analysis Services 数据挖掘引擎的强大功能。也就是说,可以在熟悉的 Office 环境中使用 Microsoft SQL Server 2012 Analysis Services实例,运行算法,快速处理和执行复杂的分析。Microsoft SQL Server 2012 Office 2010 数据挖掘外接程序有助于揭示数据中隐藏的模式和关系,然后利用它们提高分析质量。

Excel2010采用外接程序的形式来实现数据挖掘功能。Microsoft SQL Server 2012 Office 2010数据挖掘外接程序主要包括三个模块:一是Excel表分析工具,通过简单的鼠标操作,即可检测和分析数据中值的关键影响因素,突出显示与其余数据不符的值;二是Excel 数据挖掘客户端,使用电子表格数据,或使用可通过 Analysis Services 数据库访问的外部数据,在 Excel 内经历完整的数据挖掘模型开发生命周期。三是Visio 数据挖掘模板,以可以加注的 Visio 绘图形式呈现和共享挖掘模型,以提供更好的数据挖掘结果展示。Excel2010数据挖掘外接程序结合了SSAS(SQL Server 2012 Analysis Services)的强大功能,使用起来更加方便。

安装完成Microsoft SQL Server 2012 Office 2010 数据挖掘外接程序后的Excel2010界面如图2所示。在Excel2010的菜单中出现“数据挖掘”选项,选择“数据挖掘”选项后即可看到数据挖掘工具区。

图2 Excel2010数据挖掘工具

3 Excel2010数据挖掘工具的功能

Excel2010数据挖掘工具可以创建、测试和管理数据挖掘结构和模型。主要包括以下部分:

1) 数据准备:浏览、清除、重新标记数据以及为数据分区,查看和清除数据,以便为数据挖掘任务做好准备。浏览数据,查看单个列中数据的分布情况和数据类型。清除数据,通过标识、修改或取消不完整的值来删除离群值。重新标记数据,更改表达值或对值进行分组的方式,以使分析更简单。示例数据,帮助创建新的数据集或定型以及测试数据集。可以使用随机抽样获取一部分代表数据,或调整数据的平衡性以增加特定值的比例。

2) 数据建模:分析数据,分类数据、预测趋势、标识关联或查找分类。用于从数据中派生模式,根据属性对数据行分组或者研究关联。 此工具功能区中的向导基于 Analysis Services的数据挖掘算法。分类,用于生成一个分类模型,它根据模型中其他列的值来预测某一列的值。估计,用于生成一个估计模型,它提取数据模式并使用这些模式来预测连续的数字、日期或时间值。聚类分析,用于生成一个聚类分析模型,它检测具有类似特征的行组。关联,用于生成一个关联模型,它检测同时在多个事务中出现的项之间的关联性:例如,用于购物篮分析。预测,用于生成一个预测模型,它检测一个单元序列中的模式,然后预测其他值。

高级可用于创建挖掘结构,生成支持多面分析的数据结构,并创建自定义数据挖掘模型。在交互式 UI 中创建自定义数据挖掘查询。根据存储在 Excel 中的数据,使用 SQL Server Analysis Services 中的任意数据挖掘算法来生成新的数据挖掘模型。 通过该向导可以使用查询编辑器来自定义参数并生成数据挖掘扩展插件 (DMX) 语句。高级还可以向结构中添加模型,通过创建新的相关模型来修改现有数据结构。 通过这些新模型,可以使用不同的数据挖掘技术来分析相同的数据。

3) 准确性和验证:测试和评估模型,创建用于分析数据挖掘解决方案准确性的图表,以图形方式显示结果,同时显示常规统计度量值。准确性图表,通过生成提升图或散点图来评估数据挖掘模型的性能。分类矩阵,通过创建基于模型的精确预测和不精确预测的汇总图表,评估分类模型的性能。利润图,通过将预测的准确性与基于预测所采取行动的成本和效益进行绘图,以了解数据挖掘模型的影响。交叉验证,用于创建报表,汇总模型在数据集的多个子集间的准确性,以此确定模型的稳定程度。

4) 模型用法:显示模型,使用自定义查看器浏览结果。 使用内置文档向导跟踪和管理分析过程。 浏览模型,用于在包含多个图形和工具的"浏览"窗口中查看现有数据挖掘模型。可以浏览、筛选和自定义数据挖掘结果。文档模型,用于创建提供有关数据挖掘模型详细信息的报表,以便您更好地理解和跟踪模型中的更改。查询,用于针对现有数据挖掘模型创建预测查询。还可以使用"数据挖掘高级查询编辑器"能够以交互方式生成复杂的 DMX 语句。

5) 管理:查看并管理 SQL Server Analysis Services 实例中存储的现有数据挖掘解决方案。管理模型,处理当前连接上的现有挖掘模型和结构。

6) 连接:用于管理与 Analysis Services 实例之间连接的向导。为了使用数据挖掘工具和算法,必须定义与 Analysis Services 实例的连接。使用"跟踪"向导可以监视通过连接发送的所有活动。所有活动作为 DMX 语句存储,这样便于排除数据挖掘会话中的故障,也便于保存信息以备日后使用。连接,用于创建和修改与 Analysis Services 的连接。跟踪,提供对 Excel 客户端和 SQL Server 服务器之间交互的不间断监视。

4 Excel2010数据挖掘工具的应用

统计信息是统计研究的产物,而统计研究的关键问题就是统计分组和频数统计。该文以公共自行车在城市交通网络中的应用为例,在Excel2010中采用数据挖掘方法分析处理数据,分别统计在公共自行车服务系统中,自行车租赁各站点中每天的借车频次和还车频次。在公共自行车管理中心数据库中使用单日数据,对借出车站号进行分类,使用Excel2010数据挖掘模块中的分类, Microsoft Decision Trees算法创建并定型模型以便为数据分类。得到单日公共自行车租赁各站点的借车频次,如图3所示。同法得到单日公共自行车租赁各站点的还车频次。

数据挖掘总结例7

[中图分类号]P209[文献标志码]A[文章编号]2096-0603(2017)29-0033-01

Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。

所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先未知,但是对用户来说是很有用的。

一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。

一、Web数据挖掘技术概述

Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的未知的有潜在应用价值的模式的提取[1]。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。

(一)基于Web内容的挖掘

基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,WWW信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘[2]。

(二)基于Web结构的挖掘

基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。

(三)基于Web使用的挖掘

基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。

二、Web数据挖掘在Web信息检索中的应用

(一)对Web信息源进行挖掘,形成信息源知识库

对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。

对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。

(二)对Web结构进行挖掘,形成权威网页

搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。

(三)对用户的访问模式进行分析,为用户提供更加人性化的服务

用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。

总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。

参考文献: 

数据挖掘总结例8

在社会的发展之下,网络已经成为人们生活与生产中必不可少的工具,但是网络中充斥的大量繁杂信息也在一定程度上影响着人们的信息获取速度,网络信息检索在检准率与检全率方面依然难以满足人们的需求,而将网络数据挖掘技术应用在其中即可很好的解决这一问题。

1 数据挖掘技术简介

数据挖掘技术就是从大量模糊、随机、不完全、有噪声信息中提出有用信息的一个过程,与数据挖掘技术相关的技术还有数据分析技术、数据融合技术、知识发现技术等等,在技术水平的发展下,统计学方法、决策树、关联分析等一些新型数据挖掘技术也相继出现。与数据挖掘不同,信息检索实质上是一种信息发现任务,也是知识发展过程中的重要环节,信息检索能够帮助人们了解各项静态信息,但是难以分析到数据间的关系及其未来发展趋势。而应用数据挖掘技术则可以有效提升系统检索能力,预测出未来的走势,因此,将数据挖掘技术应用在搜索引擎中也是大势所趋。

2 搜索引擎与网络数据挖掘

网络数据挖掘是一种将数据挖掘技术与网络融合的一种新模式,网络数据挖掘也能够称之为Web挖掘,网络数据的页面复杂、数据内容繁杂,文章也具有不规则性,将数据挖掘技术应用在数据挖掘中可以有效的解决上述问题,根据处理对象,网络数据挖掘任务有三种类型,即网络内容挖掘、网络使用挖掘与网络结构挖掘。

2.1 网络内容的挖掘

网络内容挖掘就是从网络数据、网络内容与网络文档中挖掘信息,很多网络信息是能够在网络中过去的,但是依然有很大一部分数据难以采用该种方法获取,如使用PHP、JSP与ASP的动态网页,拒绝访问的网站,商业数据库中的数据。这些内容都能够使用网络内容挖掘法来获取,这可以使用两个方法:网络页面内容挖掘法与搜索结果再挖掘法。

2.2 网络结构挖掘法

网络结构挖掘法强调挖掘网页中的链接结构,并从中推导相关的知识,这种挖掘法与引文分析有着密切的关系,网络中的链接信息能够为数据挖掘提供全面的支持,为了获取到理想的效果,可以来分析网页链接与链接数量,并建立起链接结构模式。其常用的算法有Propriteary算法、Google算法、HITS算法与PageRank算法四种。

2.3 网络使用挖掘法

网络使用挖掘法就是通过日志发现来访问页面的一种模式,与网络内容挖掘模式和网络结构挖掘模式不同,网络使用挖掘法的挖掘对象非是网络与用户交互中的二手数据,这些数据大多来自Cookies或者Web服务器中的信息、系统交互信息与访问记录。

3 数据挖掘技术在网络信息检索中的应用作用

目前,人们已经进入了一个信息爆炸时代,虽然众多搜索引擎网络可以满足人们对于信息检索的基本需求,但是还是有很多地方不到位,目前,网络挖掘技术已经开始在网络领域中得到了应用,也取得了一定的成效。实践显示,将数据挖掘技术应用在网络信息检索中能够取得如下的效用:

3.1 提升标引准确性

标引能够准确选择出文献的检索标示,网络信息范围广、复杂性高、数量多,使用人工标引很难取得理想的检索效果,因此,必须要使用自动标引。将网络数据挖掘技术应用在其中能够深刻的揭示出相关信息的联系,帮助用户在文档中进行标注,提升信息摄取的准确性。而以此为基础来应用加权算法则能够得出具体的信息关联,对于提升检索效果有着十分积极的效用。

3.2 可以对检索结果进行分类

在网络世界中,各个网站之间的转载情况严重,用户在使用搜索引擎时必然会检索出大量的重复信息,这不仅会降低检索效率,也会浪费资源。将数据挖掘技术应用在检索工作中就能够挖掘出网页中的语义内容,有效提升检索效率。此外,数据挖掘技术也可以有效提升检索质量,该种方法是建立在层次法与划分法基础上,如果检索文档相似性大,即可进行聚类处理,将处理后的信息用层次化方式提供给用户,用户可以根据自己的需要自行选择,这就有效减少了浏览数量。

3.3 能够提升自动摘要质量

自动摘要即利用网络来分析文章结构、主题语句的方式,自动摘要可以有效帮助用户来加工与整合信息,与自动摘要相比,人工编制摘要会浪费大量的时间,将网络数据挖掘技术应用在搜索引擎中能够提升自动摘要的质量,该种技术是通过文档内容来总结文本信息,能够将Web中的重要内容总结起来,并提取出摘要。这对于优化网络信息资源的处理质量有着十分积极的意义。

4 结语

总而言之,将数据网络挖掘技术应用在搜索引擎中已经成为了一个大势所趋,采用该种技术可以有效提升标引、自动分类、自动摘要以及自动聚类的准确性,可以根据用户的具体需求来建立模型,从而为用户提供出更加针对性的信息支持。其中,最为常用的技术就是自由分类法,自由分类法能够将难以用传统方式细化的信息归入熟悉类目中,并在排序检索与信息组织上很好的弥补与了传统搜索方法的缺陷,但是,该种方法也存在一些局限性,多应用在小范围网络中,相信在不久的将来,网络数据挖掘技术定可以在搜索引擎中得到更加广泛的使用。

参考文献:

数据挖掘总结例9

计算机审计技术,是指通过计算机完成一系列审计工作的计算,从大体上讲,主要包括数据转换和验证。计算机审计的目的分析数据和整理数据,最终获得审计证据。审计的最重要步骤是数据分析,这个过程直接影响审计结构。

在计算机审计中,数据的分析方式是审计工作中最重要的步骤,审计人员应掌握数据的分析思路,并将自身的审计能力和水平发挥出来。从审计事业的角度来讲,能够给审计思路进行正确和深入的总结是体现计算机审计整体发展水平的重要内容。审计人员应从设定计算和限定条件的过程中,创新审计思路,由此判断审计单位经济活动的真实性和合法性,然后做出合理的判断。

二、基于数据挖掘的审计模式

随着计算机审计理论的不断发展和实践的不断完善,很多计算机审计模式被合理的融入到审计工作中,由于实际工作的需要和相关技术的发展,数据挖掘技术被尝试性地引入了审计过程当中。审计人员通过数据挖掘给审计工作的创新带来了新的突破,现将数据挖掘计算的计算机审计模式归纳如下,如图1所示。图1:数据挖掘计算的计算机审计模式数据挖掘技术能提供高效的方法,让审计人员在面对大量而复杂的审计数据时,拥有宽广的思路。数据挖掘技术在审计项目中主要有两大作用:一是在海量的数据中寻找有用的知识作为审计线索;二是直接找到孤立点。

计算机审计模式因为数据挖掘技术的应用而有所完善,并解决了很多计算机审计模式中的缺点。我国正处于“问题导向型”政府审计的环境中,计算机审计的目的是发现一些异常数据明确被审计单位的业务活动是否具有合法性和合规性。数据挖掘技术在计算机审计中,是为了找出一组异常和孤立的数据,由此获取知识丰富现有的审计知识,并完善业务逻辑等方面。

(一)查询式

在计算机审计模式中,最常被使用的是查询式。这种方法主要是审计人员将采集到的被审计单位的数据,在整理后存入审计人员的数据库,然后编写成SQL语句,进行灵活的查询,由此更加有效的利用数据挖掘技术进行查找和分析,并对记录进行累计、基数,综合计算其最大值和最小值,连接不同的表格,运用函数编写公式,从而生成疑点再进行核实。

这种审计模式的核心技术是掌握SQL语句,该方法的主要对象是关系数据库的二维表。该方法对审计人员的SQL语句的掌握能力要求较高,如何审计情况比较复杂,那么SQL语句也会变得复杂,步骤也较多。这种方法的图形数据很少,结果无法直观的体现出来。例如在以此农村信用社贷款的审计过程中,审计人员在将数据导入整理后,想在贷款数据表输入对应的查找条件,并对应写出转换后的SQL语句。

(二)验证式

这种审计模式需要审计人员先提出自己的假设,然后采用一定技术和方法进行验证和否定这个假设。这种假设到验证的分析方法在日常生活中很常见,在审计工作中,应充分分析这种审计模式的关键,并提出相关合理的假设,假设的提出与审计人员的职业判断有一定关系。例如在某大型酒厂销售的真实性审计中,酒厂标准的酒包装是每盒1瓶,每箱6瓶盒,每件6盒,所以可以得出1件=1箱=6瓶=6盒。由此审计人员能够得到假设,在酒厂进行销售期间,酒产品的数量和消耗的包装物数据应该有一定比例关系,然后在通过这一假设,验证酒厂销售收入情况是否真实。如果审计数据过于复杂,就无法简单的假设,那么可以使用多维分析技术进行准确的分析。

所以,审计人员运用数据挖掘分析和计算审计数据,并找出数据的规律和特点,然后通过相关方法,将这些数据整理成图形或报表展示出来,根据这些内容总结审计经验,建立审计经验库,或是得出新的审计经验,并对这种经验的合理性和准确性进行判断。审计人员应根据审计经验进行适当的更正,并之前不够准确的审计经验,重新挖掘和分析,进行总结归纳,由此可以得出,数据挖掘技术的工作可能是一个不断重复的过程,并且是对目前计算机审计的一种补充。

数据挖掘总结例10

前言

最近几年,信息技术的不断发展,使得目前三季度产生的数据量是以前几百年的总和,且处于持续增长的状态。尽管激增的数据量扩展了人们的信息范围,然而无形中也提高了企业或个人从大量数据中挖掘出有价值信息的困难程度。针对该问题,基于云计算的大量数据挖掘技术实现了资源配置和利用的优化,具有虚拟性、实用性等特征,符合数据挖掘快速、准确的要求。由此可见,将云计算技术应用于数据挖掘是目前提高数据利用效率的有效方式。基于此,本文提出的以云计算为基础的海量数据挖掘模型,旨在提供给各企业快速有效的数据挖掘服务,从而减少生产成本和提升生产效率。

1云计算技术

1.1基本概念

至今为止,关于云计算的定义尚未有统一标准,维基百科上关于云计算的介绍如下:云计算是通过网络提供给用户相关服务的新计算模式,主要提供可动态变化的虚拟资源,无需用户掌握基本支持设施的应用和管理。也就是说,云计算是一种新商机,借助价格低、可连接的计算机联网进行任务处理,为各系统提供数据存储、运算或其他功能。就技术面而言,云计算技术起步较早,是虚拟技术的拓展、分布计算技术的发展,是资源统一管理和智能控制的重要表现。和传统计算机技术相比,云计算技术推动了观念创新和方法改进。就商业角度而言,云计算技术的应用目标是提供服务,用户产生需求时会主动购买和应用,适应企业发展和系统升级。通常来讲,云计算技术发展衍生出三种商业契机,包括服务即平台、服务即架构和服务即软件三种。图1所示是云计算商业模式逻辑图。

1.2基于云计算技术的并行运算模型

为了实现对海量数据的并行处理,谷歌公司开发出Ma-pReduce,是一个分布并行运算架构或模型。某个MapReduce可分解成多个Reduce和Map任务,其会将海量数据分解成多个单独运算的Map任务,同时配发到对应计算机进行运算处理,生成一定格式的中间数据,最后由相关Reduce任务对其进行合并反馈运算结果。谷歌公司关于云计算技术的研发比较成功,其五大主要技术有分布式文件系统、大容量分布式数据库、分布式锁机制、集群管理和MapReduce。基于上述主要技术,云计算方能提供大量数据挖掘服务和运算系统。总而言之,云计算平台会将大量数据分解成统一规格的数据模块,并分布存储在云端服务器中,之后通过MapReduce并行运算模型进行数据处理,其是谷歌公司在网络搜索引擎方面的重大突破。尽管通过MapReduce并行运算模型可进行海量数据处理,然而其要求数据结构相同、运算过程简单。关于数据挖掘这类密集型的数据处理技术,可能涉及迭代、近似求解等复杂算法,运算过程比较困难。在这种情况下,以云计算技术为基础的大量数据挖掘受到IT行业的重视,是社会热点问题之一。

2基于云计算技术的海量数据挖掘

2.1数据挖掘

所谓的数据挖掘,是发现数据库中有价值信息的过程,即从大量数据中挖掘出有价值或有意义的信息。就企业角度而言,数据挖掘的目的是从大量数据中发现有利于企业经营管理的信息,而且数据量越大,信息准确性越高。一般而言,海量数据挖掘对网络环境和应用条件要求较高,而云计算技术的应用有效提高了数据挖掘效率。基于云计算的资源管理系统可存储大量数据,并结合数据挖掘要求来合理配发网络资源,提高数据挖掘算法的延伸性,且具有一定的容错性,提高了数据挖掘的可靠性和安全性。

2.2云计算技术在数据挖掘中的应用优势

(1)基于云计算技术的数据挖掘可进行分布式并行处理,提高了数据挖掘的实时性和有效性。并且适合各种规模的企业,降低了中小企业数据应用成本,减少大型企对特殊数据应用软件和设备的依赖性;(2)以云计算技术为基础的海量数据挖掘更便捷、更快速,用户层被隐藏起来了,不需要用户进行数据分类、数据分配和任务控制等操作;(3)云计算实现了数据挖掘的并行处理,可提升传统设备的海量数据处理能力,增加了多个控制节点,具有一定的容错性;(4)以云计算为基础的数据挖掘实现了数据应用技术的共享,满足了不同类型用户的数据挖掘需要。

2.3基于云计算技术的海量数据挖掘模型

云计算技术在海量数据挖掘中的应用体现在云计算提供了并行处理能力和大容量存储能力,有效解决了当前海量数据挖掘的难点。图2所示是关于基于云计算技术的海量数据挖掘模型的结构图。据图,以云计算技术为基础的海量数据挖掘模型包括云服务层、数据运算层和用户层三层。云服务层是最基层,负责存储海量数据和提供分布并行数据处理功能。云计算环境除了要保证数据的实用性之外,还要确保数据的安全可靠性。关于数据的存储,云计算采取分布存储形式,提供了数据副本冗余存储功能,确保在数据遗失等情况下用户的正常运转。当前,比较普遍的云计算数据存储技术有开源的HDFS和非开源的GFS两种。除此之外,云计算数据挖掘实现了数据的并行处理,可在多用户发出指令的情况下,及时回复并提供数据挖掘服务。图2基于云计算技术的海量数据挖掘模型的架构图第二层是数据挖掘运算层,主要负责数据的预处理和挖掘算法的并行处理。数据预处理是对大量无规则的数据进行预先整理,基于云计算的MapReduce并行运算模型只适合同一结构的数据挖掘,常见的数据预处理方法有数据转化、数据分类、数据抽调、数据约束等。对数据进行预处理是提升数据挖掘质量的重要保障,使海量数据挖掘更实时、更快速。用户层是最顶层,直接面向用户,主要负责接收用户请求,同时将数据传递到下一层,并且将数据挖掘的运算结果反馈给用户。除此之外,用户还可通过可视化界面来监督和控制任务进度,并实时查看任务执行结果。基于云计算技术的数据挖掘的流程是:用户在输入模块中发出数据挖掘指令,并传递给系统服务器,服务器自动根据用户的挖掘指令在数据库中调出数据,同时在算法库中调出最优的挖掘算法,对数据进行预处理之后,传递到MapReduce运算模块进行深入数据挖掘,最后将挖掘结果反馈到可视化界面,以便用户查看和了解。

2.4云计算技术应用于数据挖掘的缺陷和应对措施

云计算技术尚处于发展阶段,势必会存在诸多问题或缺陷,以云计算为基础的数据挖掘也存在如下问题:(1)用户需求问题。以云计算技术为基础的数据挖掘势必会成为一种新服务形式,用户需求也会更多样化、个性化;(2)数据容量问题。就数据容量而言,未来可能要处理TB甚至PB容量以上的数据,同时还包括噪音数据、动态数据和高维数据等,某种程度增加了数据挖掘的难度;(3)算法选择问题。数据挖掘效果受算法是否最优和是否并行化等影响显著,算法设计、参数设置等都对数据挖掘结果有直接作用;(4)不确定性问题。数据挖掘过程中不确定因素较多,比如任务需求描述不准确、数据采集和预处理不确定、算法选择不确定等。针对上述问题,可从以下几点入手加强云计算技术在海量数据挖掘中的应用:(1)基本设施的构建。要结合用户具体的个性化要求,同时考虑各行各业的特点,建立合适的云计算数据挖掘系统;(2)虚拟技术为云计算在数据挖掘中的应用提供了重要保障,未来要加强虚拟技术的研发,并推动其成果的最大限度应用,可有效控制网络资源的配发和控制;(3)关于各种云计算产品的研发,要充分结合社会具体需要,引导大众积极参与,从而提高数据挖掘的多样化和个性化;(4)就可信度而言,设计和应用的算法要具备一定的通用性,满足后续调查和检验的要求;(5)关于数据安全性方面,不可用传统加密方式来保证数据安全,而要结合用户的具体需要,在客户端通过合适的加密方式来保证数据安全性。