信息供应链与物流供应链脱节并不是技术上的问题而是由于缺乏一种解决方案。
针对如何将大量的数据业务用于预测、决策中的问题,数据仓库技术提供了一种很好的解决方案,即建立数据仓库供应链。供应链数据仓库能解决传统信息处理系统难以解决的许多问题。
1.实现真正的信息共享
在当前的物流供应链中,不论是物流企业还是电子商务公司,它们在不同程度上不愿或难以与另一方分享自己的信息。由于缺乏准确的信息,同时又要应付快速变化的市场,物流供应链网络中必须保持大量的存货,从而无法将库存量减至最少。这就难以改变目前物流成本居高不下的现状。即使供应链成员之间进行数据交换,也会面临很多问题,如数据库和操作平台不同,数据结构不一致,相同的数据名表示的含义不同等问题。
这将导致信息交换不完整,极易产生蜘蛛网现象。因而,大多数成员在进行数据交换时,往往还采用报表形式手工完成,没有实现真正意义上的电子数据交换模式。
供应链数据仓库将物流企业和电子商务公司建立在共同的数据基础之上,通过数据过滤和数据集成技术,依据确定的业务准则,有效地解决供应链成员之间多数据源和数据的不一致性问题。建立数据仓库有利于多方沟通、协调与合作,达到跨行业的信息共享。
2.有效的预测分析
供应链成员在进行供需预测分析时,市场信息(如价格、收入、消费水平、顾客偏好等)要在供应链之间多层传递。为方便说明问题,这里仅考虑信息从客户到供应商的单向传递。在供应链中,信息向上游企业传递时会发生曲解、放大和延迟,那么只有离顾客最近的供应链成员才拥有比较完整的市场或原始的数据,能最好地理解市场真实需求,而其他供应链成员可能只得到最近的一个下游成员的预测数据,如制造商可能仅得到了分销商的预测数据,而得不到完整的市场或原始的数据,即使得到,成本也会较高。这样就难以充分利用数据,供需波动会逐层加大。可以进行一下简单的运算,假设信息由顾客向上一级供应链成员传递时,信息延迟为3天,准确率为90%;则信息到达供应商时,信息延迟12天,准确率下降到66%。这种现象的发生不是技术上的问题,而是管理问题,例如人为因素就可造成信息延迟。
建立供应链数据仓库可有效地避免这种情况。供应链数据仓库将数据建立在同一个平台上,并借助于数据挖掘技术建立适合各个成员的数据立方体或数据集市。供应链数据仓库处理数据是高效的,当数据仓库接受到最新市场或原始数据后,立刻结合已经集成的、汇总的历史数据,并采用多种预测方法(如线性回归、趋势线法、时间序列等)进行预测分析;然后数据仓库将所有市场数据、零售商预测数据和分销商的历史数据项结合,进行分销商的供需预测分析;依此类推。可见,即使在对远离顾客的供应商进行预测分析时,市场或原始数据也是完整的,而且,这种处理方式几乎是并发的,也就是说,供应商几乎和零售商同时获得预测信息。这样预测的准确率和效率会大大提高。
3.建立基于全局的辅助决策系统
供应链数据仓库通过对大量的供应链历史数据进行随机查询,辅助供应链成员决策者做出决策。在数据仓库的基础上,进一步开发供应链决策支持系统的成本是很低的。
基于数据仓库技术的决策支持系统能全局地辅助多种经济或管理决策,决策范围很广。
这里仅举一个关于供应链物流配送方案选择决策的例子,利用数据仓库能提出更优的配送路线。通常配送区域是由配送半径刻画的,即每个配送中心负责它自己的配送区域,这有一定的盲目性。若数据仓库技术能成功应用于物流供应链中的配送环节,则配送决策是以配送业务为核心的。即基于数据仓库技术的决策支持系统能通过集成所有配送中心数据(地点、货种、可支配的配送力量、配送时段等)、客户数据(配送时间、地点、订货记录、满意度等)、商品数据、地理位置信息、交通路况信息等,将某时段整笔配送业务划分成一个个小的业务单元,每个业务单元由一个速递员负责。以配送业务为核心的配送决策是面向全局的,它的优点是更合理地配置人力资源,更灵活地均衡各地库存,更有效地利用流动资金,更有利于员工的绩效考评等。
7.3数据挖掘
7.3.1数据挖掘的概念
数据挖掘(Data Mining)是随着人工智能和数据仓库技术发展起来的一门新兴技术,可以从不同角度定义数据挖掘。
1.技术上的定义
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
何为知识?从广义上理解,数据、信息也是知识的表现形式。但是人们常把概念、规则、模式、规律和约束等看作知识;把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识、支持决策。在这种需求牵引下,不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。
最好能用自然语言表达所发现的结果。
2.商业上的定义
数据挖掘是一种新的商业信息处理技术,其主要是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究;另外,由于当时计算能力的限制,使复杂的数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而创造利润。但所有企业面临的一个共同问题是,企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中进行深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以定义为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
3.数据挖掘的结构及特点
典型的数据挖掘系统具有以下主要成分:
(1)数据库、数据仓库、万维网或其他信息库
这是一个或一组数据库、数据仓库、电子数据表或其他类型的信息库。可以对这些数据进行数据清理、集成和选择。
(2)数据库或数据仓库服务器
根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。
(3)知识库
这是领域知识,用于指导搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户信念知识也可以包含在内,可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识还包括附加的兴趣度约束或阈值以及元数据(例如,描述来自多个异构数据源的数据)。
(4)数据挖掘引擎
这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。
(5)模式评估模块
通常,该模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤已发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深入地将模式评估兴趣度推进到挖掘过程之中,以便将搜索限制在有趣的模式上。
(6)用户界面
该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说明数据挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模块进行可视化操作。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,且数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。“先前未知”是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
从数据仓库观点来看,数据挖掘可以看作联机分析处理(OLAP)的高级阶段。然而,通过结合更高级的数据分析技术,数据挖掘会比数据仓库系统狭窄的汇总型分析处理走得更远。
7.3.2数据挖掘在供应链管理中的应用
供应链是一种网链关系,而数据挖掘主要应用于供应链中的核心企业及其上、下游的相关企业。
1.核心企业
供应链中的核心企业,可以是生产企业,也可以是商业企业。然而无论是何种企业,物料、产品、信息必然贯穿于始终。在经营管理中,核心企业包含了采购、生产计划、订单加工、库存管理、运输、仓储和客户服务等多方面内容。随着全球化市场竞争日趋激烈,核心企业需要的是应用现代信息技术来达到自身与合作伙伴的利益最大化。数据挖掘技术中的关联规则发现、分类发现和聚类技术在核心企业管理中的应用非常重要。
(1)关联规则发现
关联规则是这样一种规则:在购买面包和黄油的顾客中,有90%的人同时也买了牛奶。关联规则问题的研究目的是要在交易数据库中发现各项目之间的关系。供应链中的核心企业在经营中可获得大量的数据。利用关联规则发现技术对这些历史事务数据进行分析,就可对顾客的购买行为的预测提供极有价值的信息。作为核心企业,运用数据挖掘的技术方法,不仅将企业内部的采购、销售、库存联系起来,同时也包含与供应商、客户关系的处理,从事务数据中发现关联规则,对于改进企业经营的决策非常重要。
(2)分类发现
分类在数据挖掘中是一项应用极其广泛的重要的任务。分类的目的是学会一个分类函数或分类模型(也常称作分类器,该模型能把数据中的数据项映射到给定类别中的某一个)。分类模型的典型构造方法有决策树法、贝叶斯法、神经网络方法、近邻学习或基于事例的学习等方法。不同的分类模型有不同的特点,有三种评价尺度:预测准确度、计算复杂度、模型描述的简洁度。分类的效果一般与应用背景及数据的特点有关。
供应链中的核心企业,必然包含有销售目标定位、客户分类、信用分析、保险风险判定、供应商选择等内容,这样才能完成核心企业的有效管理。数据挖掘分类技术的应用可以很好地解决上面问题,从而建立供应链成员之间的联系。
(3)聚类
聚类是把一组个体按照相似性归纳成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
在实现其他挖掘任务之前,应用聚类方法可使挖掘精度与效率大大提高。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。核心企业的内部数据包含了多方面的内容,在运作中必然会涉及供应与需求、原材料及备品备件的采购,制造与装配、物件的存放及库存查询、订单的录入与管理、渠道分销及最终交付使用等,为此需要采用合适的聚类分析技术,建立有效的数据集。
总之,作为供应链中的核心企业,为了在激烈的竞争中立于不败之地,必然需要有效的管理策略,把客户的需求放在第一位,建立供应链的拉式系统,利用数据挖掘中的技术方法对经营中的采购、生产、库存等情况进行分析预测,以达到供应链各节点间的有效连接。