计算机与人类相比的最大优势就是能够迅速准确地处理大量数据。因此,自从计算机发明以来,数据处理就是它的基本功能和关键技术。数据处理的中心问题是数据管理,数据管理是指对数据的分类、组织、编码、存储、检索和维护。而数据库技术正是数据处理技术发展到比较成熟后的产物。电子商务以电子计算机及其网络技术取代传统方式来进行生产经营活动,离不开数据库技术的支持。
1.数据库技术的主要内容
电子商务是指利用电子网络进行的商务活动,这里的电子网络主要是指Internet和基于Internet技术的Intranet(企业内部网)及Extranet(企业外部网)。其进行的商务活动不仅包含电子数据交换所涉及的电子交易,还包括电子邮件交流、网上站点宣传和利用Ineternet技术改造的其他传统应用。但电子商务应用的前提是企业管理信息系统的广泛应用。数据库技术是企业管理信息系统的核心技术之一,所以,想深入地理解电子商务就应该先了解数据库的一些基本理论。
(1)数据模型
数据模型是数据库系统中用于提供信息表示和操作手段的形式构架。数据模型通常由三部分组成:
①数据结构:包括数据对象及其相互联系。
②数据操作:主要是对数据的检索和更新。
③数据的约束条件:完整性规则的集合。完整性规则是指在给定的数据模型中数据及其联系所具有的制约和依存规则。在数据库系统中,主要的数据模型有:层次模型(hierarchical model)、网状模型(network model)和关系模型(relational model)。其中,应用最广泛的当属关系模型。
关系模型在三种模型中是最重要的。虽然它的数据关系是几种模型中最简单的,但其定义却比较复杂。可以把关系模型理解为一张二维表,表格中的每一行代表一个实体,称为纪录;每一列代表实体的一个属性,称为数据项。纪录的集合称为关系。关系具有如下性质:
数据项不可再分(即不可表中套表);
关系中的列是同性质的,称为属性。属性之间不能重名;
关系中不能出现相同的纪录,纪录的顺序无所谓;
每个关系都有一个主键,它能唯一地标识关系中的一个纪录;
关系中列的顺序不重要。
关系数据库是以关系模型为基础的数据库,它利用关系来描述现实世界。关系模型由三部分组成:数据结构、关系操作集合、关系的完整性。
数据结构:在关系模型中,无论是实体还是实体之间的联系均由单一的结构类型即关系来表示。
关系操作:关系代数(或等价的关系演算)中并、交、差、选择、投影、连接等。关系模型给出了关系操作的能力和特点,但不对DBMS的语言给出具体的语法要求,关系语言的特点是高度的非过程化。其操作方式的特点是集合操作,即操作的对象和结果是集合,称为一次一集合的方式,而不是一次一纪录的方式。
关系完整性:实体完整性、参照完整性和用户自己定义的完整性。实体完整性是保证数据库中纪录的唯一性,即每个纪录的主键不能为空值也不能与其他纪录的主键相同。参照完整性是保证表与表之间语意上的完整性,即当一个表引用在另一个表中定义的实体时,要保证这个实体的有效性。这两种完整性是关系模型必须满足的约束条件,应该由关系系统自动支持。而用户自定义完整性反映了用户的要求,是用户自行定义的。
在三种数据模型中,由于关系模型概念简单、清晰,用户易懂易用,有严格的数学基础及在此基础上发展的关系数据理论,简化了程序员的工作和数据库开发建立的工作,因而关系模型在诞生以后发展迅速,很快就成为深受用户欢迎的数据模型。目前市面上比较流行的数据库系统,如Oracle,Sybase,SQL Server,Foxpro等均为关系型数据库。
(2)数据库系统的建设
数据库系统是企业整个管理信息系统的核心和基础,它的任务就是把系统中大量的数据按一定的模型组织起来,以便及时、准确地提供给用户。一个管理信息系统的各部分是否能紧密地结合在一起以及如何结合,关键在数据库。因此只有对数据库进行合理的逻辑设计和有效的物理设计才能开发出完善而高效的管理信息系统。数据库系统是整个管理信息系统建设中重要的组成部分。
建设数据库系统一般要分为两步:设计和建立高效的数据库及设计和建立数据库管理系统(DBMS)。
不同的数据库产品有各自的特色,如Oracle大而全,而Sybase则比较灵活高效。所以,在选择数据库产品时,一定要以用户需求为依据,这样才能真正发挥各个数据库产品的优势,提高企业管理的效率,给企业带来效益。
数据库管理系统开发工具的选择也很重要。当前比较流行的数据库产品一般都提供自己的数据库管理系统开发工具。当然他们一般也同样提供接口供其他开发工具访问其数据库。一般来说,如果选择与数据库配套的开发工具,系统实现相对容易,执行效率也比较高、安全性好。但使用一些专业编程软件进行开发也有优点,如开发灵活、功能强大、人机界面友好等。所以,在选择开发工具时,也应该针对用户需求慎重地作出决定。
2.数据仓库,联机分析处理与数据挖掘
广义概念上的数据仓库是一种帮助企业作决策的体系化解决方案,它包括了三个方面的内容:
数据仓库技术(data warehouse,DW);
联机分析处理技术(on-line analytical processing,OLAP);
数据挖掘技术(data mining,DM);
早期的决策支持系统不是很成功。到了20世纪90年代以后,计算机技术,尤其是网络和数据库技术的发展渐渐满足了决策支持系统所需要的条件。另一方面,激烈的市场竞争使高层决策人员对决策支持系统的需求更为迫切。这两方面的共同作用,促成了以数据仓库技术为核心、以联机分析处理技术和数据挖掘工具为手段建设决策支持系统的可行方案。
数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织,联机分析处理侧重于数据的分析,数据挖掘则致力于知识的自动发现。因此。这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。我们都知道,没有数据仓库也同样可以进行数据挖掘,但有了数据仓库却可以使数据挖掘更有效率。这样就形成了一种决策支持系统的构架,即DW OLAP DM。
数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策,那么它们之间是否有差别呢?答案是肯定的。从某种意义上来说,联机分析处理还是一种传统的决策支持方法。即,在某个假设的前提下通过数据查询和分析来验证或否定这个假设,所以联机分析处理是一种验证型的分析。一般来说验证型的分析有如下局限性:
①常常需要以假设为基础。用户的假设能力有限,往往只能局限于对几种变量进行假设。
②联机分析处理需要对用户的需求有全面而深入的了解,然而实际上有些时候用户的需求并不是确定的。
③抽取信息的质量依赖于用户对结果的解释,容易导致错误。
可以看出,联机分析处理是由用户驱动的,很大程度上受到用户水平的限制。与联机分析处理不同,数据挖掘是数据驱动的,是一种真正的知识发现方法。使用数据挖掘工具,用户不必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策。这显然利于发现未知的事实。从数据分析深度的角度来看,联机分析处理位于较浅的层次,而数据挖掘则处于较深的层次。所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。
近几年,越来越多的联机分析处理产品融入了数据挖掘的方法,所以联机分析处理与数据挖掘间的界限正在逐渐模糊。
据国外报导,虽然数据挖掘的产品目前尚不成熟,但其市场份额却在不断增加,越来越多的企业开始利用它对公司的数据进行分析,并认为:“如果不抢在竞争对手之前使用数据挖掘技术,等待你的将是失败!”由此可以预见,数据挖掘技术还是相当有发展前途的。
在传统的决策支持系统中,数据库、模型库和知识库往往被独立设计;因而缺乏内在的统一性。而以数据库为中心,事务处理和数据挖掘为手段的新方案则解决了这个问题。
第一,数据仓库解决了数据不统一的问题。数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。
第二,联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离。
第三,数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动作出预测。数据挖掘反过来又可以为联机分析处理提供分析的模式。
正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使它们从不同的角度为决策支持服务。
3.数据库技术对电子商务的支持
数据库技术对电子商务的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。
总的来说,数据库技术对于电子商务的支持可以概括为以下几部分:
(1)数据的收集、存储和组织
这是传统数据库系统的主要功能。对于参与电子商务的企业而言,数据的来源不仅仅是企业内部管理信息系统,还包括大量的外部数据。数据是企业重要资源,是决策的依据,是进行各类生产经营活动的基础及结果。
(2)决策支持
这就要用到前面所提到的数据仓库解决方案。当然,企业也可以采取其他方式,但数据库中存储的数据依然是决策的依据。决策是关系到企业未来成败的关键。对于参与电子商务的企业而言,由于他们的信息更灵通、过程更规范,这就为决策支持打下了良好的基础。
(3)对EDI的支持
EDI是电子商务重要的组成部分,要想成功地实现EDI,企业的基础设施建设是关键,而数据库系统的建设是其中重要的一环。如果有良好的数据库系统的支持,就可以实现应用到应用的EDI过程。这一过程是,企业内部的管理信息系统依据业务情况自动产生EDI单证,并传输给贸易伙伴;而对方传来的EDI单证也可以由系统自动解释,并存入相应的数据库,整个过程无需人工干预。
在这一过程中,可以设立一个EDI数据库专门用于有关EDI数据的处理。这样的管理方式简单明了,但如果数据库之间的沟通不顺畅,就可能产生数据不一致的现象。