数据仓库中的信息存储,是根据对数据的不同深度处理来分成不同层次的。其结构一般划分为以下几个方面。
①历史性详细数据层。它存储历史数据,供分析、建模、预测之用。
②当前详细数据层。存储最新详细数据,是进一步分析数据的基础。
③不同程序的归纳总结信息层。可包含多个层次,根据所需分类和归纳的不同深度而定,如按周、月、年统计的数据。
④专业分析信息层。进一步专业分析的结果,如统计分析、运筹分析、时间序列分析及表面数据的内在规律分析等。
⑤结构信息。数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。
5)数据仓库工具的组成
一个典型的数据仓库产品应包括以下几个部分:数据集市、关系数据库、数据源、数据准备区、各种服务工具等。
(1)数据集市
数据集市是数据仓库的子集,是按照主体从数据仓库中划分的数据集合。它可以理解为是一个小型的部门或者工作组级别的数据仓库。
(2)关系数据库
关系数据库是数据仓库非常重要的组成部分,数据仓库要想发挥真正的威力,必须由关系数据库为其提供强大的基础引擎。
(3)数据源
使用数据仓库的根本目的是向企业决策制定者提供各种决策信息,因此数据仓库必须将企业内部或外部的各种信息集中起来,合并为一致的数据集。数据仓库必须把来自不同数据源的数据收集并整理好,以准确地反映企业的业务运作情况和历史状态。虽然这些数据源的数据不能直接用于决策支持,但也必须将其捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础。
(4)数据准备区
数据准备区又称数据中间存储区,它是一个关系数据库,数据仓库从其他数据源所抽取的数据首先保存在这个关系数据库中,在此将数据转换为数据仓库所要求的统一格式,检查数据的一致性与引用完整性,并准备载入数据仓库中。
(5)
数据仓库需要相关工具来分析和评估数据仓库中浩瀚的数据,如联机分析处理(OLAP)、数据挖掘工具、预定义报表等。此外,还要预留支持用户开发自定义工具的应用程序接口。
2.数据挖掘
1)数据挖掘的概念
数据挖掘(DataMining),又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单来说,数据挖掘就是从大量数据中提取或“挖掘”知识。典型的数据挖掘系统结构如图414所示。
图414典型数据挖掘系统结构
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(InformationRetrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也用来增强信息检索系统的能力。
2)数据仓库与数据挖掘的关系
数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展。数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的关系可以概括为以下几点。
①数据仓库为数据挖掘提供了更好的、更广泛的数据源。数据仓库中集成和存储着来自异质的信息源,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这就可以进行数据长期趋势的分析,为决策者的长期决策行为提供。
②数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展平台不仅仅是为了数据挖掘开辟了新的空间,更对数据挖掘提出了更高的要求。数据仓库的体系机构努力保证查询和分析的实时性。
③数据仓库为更好地使用数据挖掘工具提供了方便。数据仓库的建立,充分考虑到数据挖掘的要求。用户可以通过数据仓库服务器得到所需要的数据,形成开采中间数据库,利用数据挖掘方法进行开采并获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据。数据仓库中的数据已经被充分地收起来,进行了整理、合并,并且有些还进行了初步的分析处理,使数据挖掘的注意力能够更集中于核心处理阶段。
④数据挖掘为数据仓库提供了更好的决策支持。基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和知识发现,这些正是数据仓库所不能提供的。
⑤数据挖掘对数据仓库的数据组织提出了更高的要求。数据仓库作为数据挖掘的对象,能为数据挖掘提供更多、更好的数据,其数据的设计、组织都要考虑到数据挖掘的一些要求。
⑥数据挖掘还为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。
总之,数据仓库在纵向和横向都为数据挖掘提供了更为广泛的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘与数据仓库技术要充分发挥潜力,就必须结合起来。
3)数据仓库与数据挖掘的区别
数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含了大量的历史数据、当前的详细的数据及综合数据,能为不同用户的不同决策需要提供所需的数据和信息。
4)数据挖掘方法与算法
数据挖掘有两种类型:一种是自下而上的方法,称之为有监督的数据挖掘方法;另一种是从下往上的方法,这种方法让数据自己解释自己,在数据中寻找模式,然后把产生的结果留给使用者去判断,找出哪些模式是重要并有用的。目前常见的主要有以下几种。
①特征概括(DataCharacterization)。特征概括是目标类数据的一般特征或特性的汇总,如饼图、条图、曲线、多维数据立方体等形式,还能实现数据的区分。
②分类预测(Classfication&Prediction)。分类与预测的区别在于,分类是对离散值变量的估计,而预测是对连续变量的估计。
③聚类分析(Clustering)。聚类和分类建立分类模型,主要有监督学习(分类)和非监督学习(聚类)之分。
④规则提取。关联知识(Association)决定哪些事件将一起发生。
⑤异常检测。描述一些数据与数据的常规行为不一致,揭示其偏离常规的异常现象。
这些数据往往是一些极端数据,有时也称孤立点。
BP、、、、
模糊聚类、支持向量机、粗糙集、孤立点分析、Bayes网络等。要实现不同的数据挖掘功能,需要采用相应的合适算法。一般来说,要解决某个特定问题,可能有若干种算法,如图415所示的预测分类,就有BP神经网络、决策树、支持向量机3种算法。
图415数据挖掘功能与其实现的算法
5)数据挖掘的主要应用方向
(1)财务分析的数据挖掘
大多数银行保险和金融机构都提供多种银行服务,如核算、存储、商业和个体客户服务、信贷、贷款等,可获得的财务数据往往完整性好,可行度高,质量也好,方便进行系统化的数据分析和数据挖掘,以提高公司的竞争力。
(2)电信行业的数据挖掘
像AT&T这样的公司已经宣布数据挖掘的应用,改进了他们的销售活动,而Lightbridge公司使用数据挖掘技术来解决电信业的欺诈行为,数据挖掘技术正在电信行业获得越来越深入、越来越广泛的应用。
(3)零售业的数据挖掘
微利时代的到来,使得零售商们比其他行业更早进入数据仓库阶段。由于零售业收集大量的销售数据、顾客购物记录、货物运送、消费模式等,尤其是由于Web与电子商务的风行,收集的数据量迅速增长,因此零售业成为数据挖掘的主要运用领域。
(4)生物医药学研究中的数据挖掘
以电子格式存储的病人记录及医学信息系统的发展产生大量的在线利用临床数据。用数据挖掘方法从这些数据抽取的规律性的、趋势和令人惊奇的事件,对辅助临床医生作出准确判断非常重要。
(5)证券行业中的数据挖掘
证券市场存在巨大的风险。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法,:,
庞大、复杂的研究课题,这就给了数据挖掘技术的运用提供了广阔的空间。
(6)冶金行业中的数据挖掘
采用数据挖掘技术,通过对冶金相关生产过程的历史数据、实时数据及正常工况数据的预处理与数据挖掘建模,开发具有指定功能的计算机用户界面软件,实现在线或离线的数据分析处理平台,以解决设备的负荷能力评价和操作参数优化问题,同时为工艺人员掌握过程的控制机理并进一步提高生产管理水平提供一个良好的工作平台。
(7)电子商务中的数据挖掘
电子商务网站每天都会产生大量的数据,运用数据挖掘技术可以从这些数据中发现对市场分析及预测非常有益的信息。
数据挖掘是信息技术和数据处理的必然潮流,是商务智能的核心和灵魂。可以说,只要有大量的复杂数据产生和分析需求,就有数据挖掘的用武之地。数据挖掘技术和相关的系统软件将会得到越来越广泛的应用。
习题
一、名词解释
1.数据库2.记录3.DBMS4.DBS5.概念模式6.数据模型7.概念模型
8.键或码9.数据操作10.1NF11.2NF12.3NF13.关系14.关系模式15.数据仓库16.数据挖掘
二、简答题
1.数据库系统组织数据的特点是什么?
2.数据库系统与文件系统的区别是什么?
3.数据管理经历了哪几个阶段?各个阶段的特点是什么?
4.数据模型的三要素是什么?
5.数据库管理系统的主要功能是什么?
6.信息模型的要素有哪些?
7.试述概念模式在数据库中的重要地位。
8.举出实例,要求实体型之间具有一对一、一对多和多对多的联系。
9.实体之间的联系方式有几种?不同的联系方式在转换为关系模型时的处理方式有什么不同?
10.什么是ER图?构成ER图的基本要素是什么?如何将ER模型转换为关系模型?
11.某工厂生产多种产品,每种产品又要使用多种零件,一种零件可能装在多种产品上。每种零件由一种材料制造,每种材料可用于不同零件的制作。有关产品、零件、材料的数据字段如下。
:(GNO),(GNA),(GUP)
零件:零件号(PNO),零件名(PNA),单重(UW),单价(UP)材料:材料号(MNO),材料名(MNA),计量单位(CU),单价(MUP)以各产品需要各种零件数为GQTY,各零件需要的材料数为PQTY。
(1)请画出产品、零件、材料的ER图。
(2)请将该ER图转换为关系数据模型。
12.教学管理涉及的实体有
教员:职工号、姓名、年龄、职称
学生:学号、姓名、年龄、性别
课程:课程号、课程名、学时数
这些实体间的联系如下:一个教员只讲授一门课程,一门课程可由多个教员讲授;一个学生学习多门课程,每门课程有多个学生学习。请画出教员、学生、课程的ER图,并构造其关系数据模型。
三、单选题
1.DBMS对数据库的保护主要通过4个方面实现,因而在DBMS中应该包括以下4个子系统:数据库的并发控制、数据库的恢复、数据完整性控制和()。
A.数据的检索B.数据的更新
C.数据安全性控制D.数据的存储
2.在数据库系统的三级模式结构中,外模式通常还称为()。
A.用户模式B.内模式C.物理模式D.概念模式
3.实体型与实体型间的联系方式有()种。
A.1B.2C.3D.4
4.若联系为m∶n,则关系的码为所连接的()。
A.n端和m端的码的组合B.n端的码
C.m端的码D.都不是
5.数据仓库有4个重要的特点:面向主题、相对稳定的、反映历史变化和()。
A.分散的B.合并的C.集中的D.集成的