本章将论述有关医学数据、信息和医学信息管理的基础知识。读完这章后,你应该知道下面这些问题的答案:
信息是什么?信息的特征有哪些?数据和信息的关系是什么?
医学信息的定义是什么?医学信息的特征有哪些?什么是医学信息的知识谱?医学信息所涵盖的范围?
为什么要进行医学信息管理?医学信息管理的内容和功能是什么?
什么是医学数据挖掘?为什么要进行医学数据挖掘?医学数据挖掘的常用技术有哪些?
2.1数据、信息及信息管理概述
信息是普遍存在于人类社会的现象。信息无时不有,无处不在。现代社会,信息已成为人所共知的流行词,人们每时每刻都在信息的海洋里学习、工作和生活。人们常说21世纪是信息时代。人类正以前所未有的规模大量地产生信息,广泛使用信息,从而极大地推动了科学技术和生产实践乃至普通百姓日常生活的变革和进步。
但是,什么是信息?在古代,人们认为信息就是消息。只是到了近现代,人们才开始把信息作为科学研究的对象,试图描述信息的概念和定义。例如,通信专家香农在定量测定通信系统中的信息时,把信息界定为“用来消除随机不确定性的东西”。
现代控制论创始人维纳认为,“信息就是信息,不是物质,也不是能量。”他同时指出,“信息就是我们在适应外部世界,并且使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。”信息是人与外部世界的中介。没有信息,没有这种中介,人将同外部世界隔绝,就无法认识世界,更谈不上去改造世界。
计算机和通信技术出现后,信息被看作“数据”,并在计算机和通信科学的许多基础理论中得到广泛应用;第二次世界大战后,随着科技信息服务业的兴起,又出现了信息是“决策所需要的知识”的说法;在互联网飞速发展的今天,人们又将信息看成“网络上传输的一切数据、符号、信号、资料”等。
有人曾统计过,迄今有关信息的概念定义不下百种。这与不同的社会发展时期,不同的约束条件有关。如果不考虑各种约束条件,多数人会同意信息是“一种事物存在的方式和运动状态的表现形式”。这是最普遍、最广义的信息概念,有人将其称之为本体论层次的信息的概念。在这个意义上,信息可与物质和能量并驾齐驱。当然,信息的产生、获取、利用等都离不开人这个主体,于是就产生了认识论层次上的信息的概念:主体所感知或认识的事物存在的一种方式和运动状态。
一切事物都在运动和变化着。信息不仅存在于自然界,存在于人类社会,也存在于思维领域。它并非指事物本身,而是用来表现事物特征的一种普遍形式。我国着名的信息学家钟义信教授给信息下的定义是:信息是事物存在方式或运动状态,以及这种方式或状态直接或间接的表述。这个定义具有最大的普遍性,不仅能涵盖所有其他的信息定义,而且通过引入约束条件还能转换为所有其他的信息定义。
根据近年来人们对于信息的研究成果,科学的信息的概念可以概括为:信息是客观世界中各种事物的运动和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动和变化的实质内容。
因此,信息的存在,并不依赖于人类的认识。几乎所有的生物,包括植物和动物,它们的生命也都仰仗着信息的存在。“春江水暖鸭先知”,这里,水的回暖是报道春天到来的信息,鸭子是得到这个信息的主体。当然,鸭子不会说话,不会来研究信息。因此,尽管信息在人类出现以前就客观存在,但在认识论层次上,没有主体就不能认识信息。事实上,人只有感知了事物的存在方式和它的运动状态,理解了其含义,明确了其效用后,才真正掌握了该事物的信息,因而才能做出正确的决策。
2.1.1数据与信息
研究“信息”时,离不开“数据”和“知识”这两个概念。数据是散在的,无关的,或按一定规律排列组合的事实、数字或符号。数据是潜在的信息。而知识是与用户的能力和经验相结合并用于解决问题或产生新知识的信息。所以,数据是信息的原料,而信息是知识的原料。
国际标准化组织(International Organization for Standardization,ISO)对“信息”的定义为“信息是对人有用的数据,这些数据将可能影响到人们的行为与决策”。ISO 对“数据”的定义为“数据是对事实、概念或指令的一种特殊的表达形式,这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译转换或者进行加工处理”。根据这一定义,通常意义下的数字、文字、图画、声音、动画、影像等都是数据,因为它们都能负载信息——“有用的数据”,它们均可以通过人工的方式(例如计算机)进行处理。
实际上,ISO 对信息所下的定义已覆盖了香农的内容,因为从“数据”到信息的过程,也就是通过数据处理消除了部分不确定性转化为有用信息的过程。这也覆盖了维纳的内容,即这些可能影响到人们的行为与决策的数据,也是人们适应外部世界,并且同外部世界进行相互交换的内容。事实上ISO 对数据的定义也阐明了信息的本质。按照ISO 对信息的定义,信息的基础是数据,数据是对事实、概念或指令的一种特殊的表达形式,这里事实就是指客观的事物,因此这种表达形式从本质上来看,它体现了客观事物的内在属性以及客观事物与客观事物之间的内在联系。
按照ISO 的定义,“数据”就是客观存在的事实、概念或者指令的一种可供加工处理的特殊的表达形式,即数据是信息的素材,对于计算机信息处理来讲,通常意义下的数字、文字、符号、图画、声音、动画、影像等都是数据,因为它们均可以运用计算机进行处理。“信息”是人们通过对数据进行加工处理后所获得的对人有用的数据。所以,数据既不是物质,也不是能量,而是“信息”的载体。例如,对于临床医生来说,他需要获得有关病人的疾病诊断信息。为了达到这一目的,他可以选用现有的各种载体,以便获取尽可能多的与诊断疾病相关的数据。他可以采用中医的望、闻、问、切的传统方法,也可以通过测量体温、血压、血常规化验、肝功能化验、CT、核磁共振、B 超、心电图、脑电图等多种手段来获取与患者病症相关的数据。一般情况下,临床医生不会漫无边际地收集数据,而是通过他的经验和知识,进行有目的、选择性地收集他所需要的数据,然后对这些数据进行加工处理,最后获得与病人诊断结果相关的有用数据——“信息”。这里,体温、血压、化验数据、图像以及中医的四诊数据等均是患者当时体征的反映,它们既不是物质,也不是能量,而是医生明确诊断信息所必需的数据。
综上所述,数据是从客观世界中收集的原始素材,它可以是数字、文字、图画、声音、动画、影像等任意一种可供加工处理的表达形式。信息是根据人们的目的按一定要求进行加工处理所获得的有用的数据。
2.1.2信息的特征
信息是事物的状态、特征及其变化的客观反映。由于事物及其状态、特征和变化是不以人的意志为转移的客观存在,所以反映这种客观存在的信息,同样带有客观性。信息所反映的内容是客观的,而且一旦形成,其本身也具有客观实在性。
物质是信息的源泉,信息是物质的普遍属性而不是事物本身,它所表现的主要是物质的运动状态和方式。任何物质的运动过程同时也是信息的运动过程,而任何信息的运动过程离不开物质的运动过程。
信息的意义在于传递。没有不经过传递而存在的信息,也不存在没有任何信息的传递。信息在传递过程中发挥它的价值作用。正是由于信息的传递,才成就了充满生机和千变万化的世界。“万类霜天竞自由”,正是我们所处的这个世界的生动写照。人类为了自身的生存和发展,一直在探索和改进信息传递的方式。
值得注意的是,客观事物的实质内容必须通过一定的载体传递,才能成为信息。从某种意义上说,没有信息载体,也就没有信息本身。信息是内容,载体是形式。信息的内容不因载体的形式不同而改变。这里,载体就是指承载信息的媒体,例如空气、声音、符号、文字、图像、电磁波、甲骨、竹片、丝绸、纸、磁带、磁盘、光盘等。“香”味的信息是通过空气传递的;“暴雨”的信息是通过气象预报节目的声音和语言传递的;国内外的新闻大事可以通过报刊杂志或电磁波作为载体进行传递。因此,信息的传递需要载体,没有载体的信息是不存在的。
信息的客观性和可传递性决定了信息的可存储性。信息可以用载体存储起来,累积下去,可以不受时间和空间的限制,通过传递载体来传播。信息的存储和积累,使人们能够对信息进行系统的、全面的研究和分析。信息可以通过不同的载体进行传输或存储。
例如,在打电话时,需要将发话人的声音信息转换成电信号,通过电话线路将电信号传送到收话人处,然后再把电信号转换成声音信息;在发送电子邮件时,需要运用计算机的输入装置将数据输入计算机,然后通过网络将数据传送到对方的电子邮箱里。整个传输过程中,传输的载体可以不断改变。在计算机中,所有的文字、符号、图像、动画、影像等信息,都必须将它们转换为二进制代码后才能进行保存,这些信息可以存储到不同的存储介质中,例如软盘、硬盘、光盘或磁带等。有了信息的可存储性,我们才能在今天还能读到李时珍的“本草纲目”,可以欣赏梅兰芳的舞姿和唱段。
信息是可以加工和处理的,对原始信息加工和处理后会得到新的信息。信息的加工,是指人们运用大脑和有关工具对其进行处理的过程。信息的可加工性表现出人们对信息的可认知性。有些信息经过人们的分析、综合和提炼等加工后,可以增加它的价值。例如:中医运用望、闻、问、切获取病人的临床信息,通过对这些信息的综合、加工、分析、处理以明确疾病的表里、寒热、虚实等整体状态,最后使用中药进行调控,使人体恢复正常的活动状态;商场可以运用数据挖掘技术处理它的商品流通信息,通过分析顾客购物的各种倾向,按照顾客的购物倾向重新组合商品的货架,以提高销售量。信息只有通过发布、交流、使用才能体现它真正的价值。
信息可以从一种形态转换为另一种形态,而不改变其内容。由于信息可以在不同的载体间转换(即可以被加工处理)和传播,并且在转换和传播的过程中不会失去和消失,所以谁拥有了某信息的载体谁就拥有了该信息。这一点既和物质不同,也和能量不同。任何具体的物质,当它被从一处移动到另一处后,原来的地方就不再存在这一物体了。任BB何能量,当从一个载体转移到另一个载体的时候,原载体的能量要么减少了,要么就完全失去了,这是能量守恒定律所决定的。而信息则不同,当某人将知识化的信息传递给他人后,他本人并没有丢失自己的知识,相反地,由于在传递过程中反复使用,知识反而更加巩固和充实。共享性是信息与物质和能量的最大区别。
信息必须服务于使用者的目的。由于社会分工不同,人们所从事的工作目的不同,各个层次的管理人员对信息的需求也不同,这就要求提供信息服务时必须与使用者的目的联系起来,才能发挥信息的价值和效用。
同一信息发出后,对于不同的接受者来说,在不同的地方、不同的时间和不同的条件下,信息的价值和效用是有差异的。信息的价值与效益体现在它对用户的作用之中。信息的价值是以信息对人的有用程度来区分其大小的。如果有用程度高,则信息价值大;有用程度低,则信息价值小,两者成正比。按信息的使用情况,使用价值又分为实际使用价值和潜在使用价值。实际使用价值是指目前条件下信息对于用户的使用价值;潜在使用价值是指用户目前不能利用而在将来可能利用的信息所具有的价值。
信息是有寿命的,和世界上任何事物一样,它有一个生命周期。信息是事物运动和变化的反映,当事物运动和变化的一个特定周期结束后,新的活动周期又开始了。这个新的活动周期,往往不是重复原来的过程,而是在原来基础上向前发展,表现出许多新的特征。
信息的更替性是指信息存在老化、过时的问题,需要经常不断地收集和补充新的信息,进行信息更新,才能使信息如实反映事物的运动和变化。
时效性是信息的一个重要特征。信息的时效性是指信息的功能、作用和效益都是随着时间的改变而改变的。信息的使用价值与其所提供的时间密切相关。时间的延误,会使信息的使用价值衰减甚至最后完全消失。灾难性地震预报的延误将给人民生命和财产带来难以估计的损失。
与信息的时效性相连的是信息的贬值与“污染”。信息的滞后性,信息的失效就意味着信息的贬值。虚假的信息也是对真实信息的污染。狼来了的故事告诉我们虚假的信息是多么的有害。错误的地震预报也会造成不必要的社会恐慌。所以,用户在信息急剧增加的情况下,一方面很难找到正确的信息,另一方面又被质量差、已贬值或虚假、错误的信息所包围,这就是信息的“污染”。