一、计算机信息检索原理
人类的信息检索需求千差万别,获取信息的方法也各种各样,但信息检索的基本原理却是相同的。其本质的部分就是对信息集合和需求集合的匹配和选择。
匹配和选择是一种机制,它负责把需求集合与信息集合进行比较,寻找两者之间的相同或相似之处,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,首先必须对大量的信息进行收集和加工处理,使之从无序到有序,并通过某种方法对这些信息的各类特征进行描述,让原来隐含的、不易识别的特征显性化,成为能被一般人所认识并理解的信息;另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取出主题概念和其他属性,并利用与信息集合相同的标识系统来表示需求中包含的概念和属性。
信息检索过程中要储存大量的数据,要对这些数据进行各种组合,有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。计算机信息检索的本质与手工检索的本质没有区别,但信息的表示方式、存储结构和匹配方法变化了,即要用计算机可以识别的代码来表示信息,又要用便于计算机快速存取的方式存储信息。信息的匹配方法也由人工匹配变为机器匹配,匹配方式由隐式变为显式。在这种机器匹配过程中,原先在人工匹配中用于表达概念的语词符号变为没有内涵的字符串。因此计算机检索原理就是表示用户需求的字符串与计算机内存储的大量字符串(信息资料的集合)的比较和逻辑运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。
从上图可以看出,计算机一方面接受文献记录(即表示文献特征的各种款目及其标识),另一方面接受信息提问(即用户检索提问表达式),然后进行两者之间的匹配,以找出符合检索要求的文献。在计算机检索中,文献记录是以机读代码的形式存储在磁带上或存放在计算机磁盘上的,这样,计算机才能“阅读”和“理解”。磁带上或磁盘上机读记录的集合,叫做文档,或称为“数据库”。一条文献记录相当于手工检索工具的一条文献款目,即一张卡片目录。但是一条记录除了文献款目的内容外,还加上—些供计算机处理所必需的符号,如指示符、分隔符、字段或记录结束符等。记录中的数据单元又称为字段,相当于目录、文摘、题录中的基本著录项目,如书名、著者等项目。书目数据库是计算机检索的情报资源,除书目数据库外,还有事实型或数值型数据库、目录数据库、全文数据库等。
综上所述,计算机信息检索的原理可归纳为:将检索提问标识与系统中的存储文献的特征标识进行比较,进行字符串匹配和逻辑运算,并输出命中文献的过程。
二、计算机信息检索系统构成
(一)计算机信息检索系统的物理构成
1.硬件部分
它是系统采用的各种硬设备的总称,主要包括具有一定性能的主机、外围设备(包括外部存储器、输入输出设备等)以及与数据处理或数据传递有关的其他设备。主机要适应信息检索的需要,必须具有高速处理和超量存贮功能和分时多任务处理的功能。外围设备包括外部存储器、输入输出设备等。外部存储器应具有较大的存储容量。大型检索系统的外存容量一般都在数千兆字节以上。而且,还应具有多级存储系统,即调整缓冲存储器、主存储器、虚拟存储器、外部存储器,以便与中央处理机的速度相匹配,建立相对平衡的存储系统。输入输出设备包括各种必要的数据录入装置和输出装置,如键盘、光笔、鼠标器、光学字符识别装置、语音或图像输入装置、显示终端、打印机、绘图机、COM输出设备等。
2.软件部分
它是计算机检索系统中有关程序和各种文件资料的总称,包括系统软件和应用软件。系统软件一般包括操作系统、编译程序与汇编程序等。应用软件是根据具体工作需要而设计的数据库管理系统、词表管理程序、检索处理程序等。计算机软件是计算机检索系统所必需的技术。
3.数据库
要建立计算机检索系统,必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。数据库的本质是提供可以共享的有一定组织方式的相关数据。数据库是系统的核心组成部分,也是检索操作的直接使用对象。提供检索用的数据库存储在磁盘里。这些数据库一般是由数据库生产者提供、系统自建或与他人合建。一个计算机信息检索系统一般可提供数十到数百个数据库。在计算机信息检索系统中,多数数据库为关系型数据库。
按国际上通用的基本分类方法即根据数据库所含信息内容,数据库可以划分为参考数据库和源数据库。
(1)参考数据库(REFERENCEDATABASE)
参考数据库主要存储一系列描述性信息内容,指引用户到另一信息源以获得原文或其他细节的一类数据库。参考数据库主要包括书目数据库和指南数据库两种。
———书目数据库(BIBLIOGRAPHICDATABASE)是指存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献数据库。
———指南数据库(DIRECTORYDATABASE)又称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述的一类数据库。通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。
(2)源数据库(SOURCEDATABASE)
源数据库主要存储全文、数值、结构式等信息,是能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。它的特点在于它本身含有一次情报,即用户作为检索目的而要求获取的数值、事实或文本。因此,源数据库可以包含数值数据库、文本-数值数据库、全文数据库、术语数据库和图像数据库等多类型数据库。
———数值数据库(NUMERICDATABASE)是一种专门提供以数值方式表示数据的源数据库。该类数据库提供了科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据,也涉及社会科学中经济统计与预测、金融、商业及人口等方面的内容。与其他数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。
———文本-数值数据库(TEXTUAL-NUMERICDATABASE)是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品市场报告数据库、毒物数据库和物性数据库等。
———全文数据库(FULL-TEXTDATABASE)是一种存储原始信息全文或其中主要部分的源数据库,简称全文库。如法律法规全文数据库、期刊全文数据库、专利全文数据库、新闻消息全文库等。从信息源类型来看,它又属于文献数据库的范畴。目前全文数据库逐渐增加,如人民日报全文数据库和中国期刊全文数据库等。全文数据库虽然要占用很大的存储空间,但因它能使用户获得最终的一次文献,因此具有很大的发展前景。
———术语数据库(TERMINOLOGICALDATABASE)是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,俗称电子辞典。
———图像数据库(GRAPHICSDATABASE)是一种用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。
另外,按其载体形式还可分为磁媒体数据库、光盘数据库、多媒体数据库等。
(二)计算机信息检索系统的逻辑构成
一个完整的信息检索系统通常必备以下六个功能模块:文献与数据选择与采集子系统、词表子系统、标引子系统、建库子系统、系统-用户接口子系统、提问处理子系统。
1.文献与数据选择与采集子系统
本功能模块的任务是根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种数据,为系统提供充足而适用的数据源。
信息检索系统中的信息主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文,二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典、辑录、指南、手册等。而这些情报源又可以以不同形式出现,如印刷型、机读磁带或软盘、光盘、缩微品或音像资料。在早些时候这项任务主要由系统工作人员承担,计算机只起辅助作用。采集的手段有订购、交换或利用行政手段搜集下属机构的数据,或利用已有的传统数据,如文摘索引、目录、手册、指南等。
随着通信技术与网络的发展,信息采集的内容与方法在很大程度上发生了很大的变化。从内容上看,采集的对象在原有的基础上有了扩展,增加了网络信息这一庞大的信息资源。从方法上看,检索系统也不再全部由工作人员完成,而是更多地借助计算机,通过编制一种机器人程序,自动地在各网页间搜集信息,以满足网络环境下信息采集的要求。
2.词表子系统
主题词表是控制标引用词和检索用词并使二者尽量取得一致的有效工具。词表子系统的主要功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。在信息检索系统中,此子系统既可独立存在,亦可以和建库子系统中的词典文档合并在一起。
3.标引子系统
标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予文献一定数量的内容标识(分类号、主题词、关键词等),作为存储与检索的依据。这是分析揭示文献主题特征,并使之显性化的过程,再录入计算机中。标引分为手工标引和自动标引。目前主题标引和分类仍靠手工完成,抽词标引可由计算机自动完成。通过标引,能将分散的资料彼此联系起来。标引子系统的功能决定数据库的标引深度和检索点,标引的一致性和实际的查全潜力,标引的贴切性和实际的查准潜力。
4.建库子系统
建库子系统的实质是将采集子系统所采集的无序信息进行有序化组织的过程。它的任务是对所采集的信息进行组织,建立并维护可直接用于计算机检索的数据库。主要功能包括数据评价与转换、数据录入、数据库的维护与更新。
数据评价与转换都是对信息进行规范化的过程。数据评价的目的是在数量庞大、种类繁杂的各种信息中,确保数据来源的可靠性、准确性和实用性。对于直接获得的数字信息还需要对其格式进行检测与统一标准化转换。
数据录入有手工录入与自动录入两种方式。手工录入在录入过程中应注意保持原始数据的完整性和准确性。自动录入主要用于对光盘数据库、磁带数据库等数字信息的套录或转录,以及通过扫描仪与OCR(光学字符识别)技术结合完成文献的数字化。
数据库的维护与更新是系统能够持久稳定运行的保证。维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改、扩充。更新主要指对数据库的内容进行添加或重新组织。
5.系统-用户接口子系统
系统-用户接口简称用户接口,是面向系统用户的一种“人—机”接口。它承担用户与系统之间的通信功能,是两者之间实现通信不可缺少的连接系统。系统-用户接口子系统通常由用户模型、信息显示、命令语言和反馈机制等部分构成。用户模型即是系统建立的用户认识模型;信息显示是指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等;命令语言是指系统提供给用户的检索命令集,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录等);反馈机制,即系统对用户反馈的信息所作出的反应或操作。
此外,直接供用户输入信息的设备,如键盘、鼠标、触摸式显示屏和输出设备,也是用户接口的组成部分。依照这个子系统。检索系统可分为脱机检索系统和联机检索系统,指令驱动检索系统和菜单选择检索系统等。
6.提问处理子系统
该子系统负责处理用户输入的检索式或提问式,并将它们与数据库中存储的数据进行比较运算,也就是系统对检索式同文献记录进行比较而决定其取舍,然后把运算结果输出给用户的过程。该模块主要由检索程序构成,即根据用户的提问,从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。信息检索系统中,计算机实际上是个高速的匹配器。这种匹配方式是对文档有顺序扫描和随机存取的方式。提问处理子系统实际上包括数据库在机器内文档的结构、信息检索软件。执行检索程序过程包括:接收提问—分析需求—提问校验—语法用词检查—提问加工—解释转换—提问检索—匹配选择—结果输出。