图书情报有关本科论文范文 跟国内图书情报领域信息检索相关性相关论文范本

本文关于图书情报论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

国内图书情报领域信息检索相关性

刘贺孙瑞英

(黑龙江大学信息管理学院,黑龙江哈尔滨150080)

[摘 要]以CNKI收录的“信息检索相关性”为主题的图书情报领域的研究论文作为基础数据源,运用文献计量学和可视化软件,分别从载文量、作者机构、期刊来源、关键词词频进行梳理和分析.基于文献计量结果,从面向系统、面向用户两大视角对国内信息检索相关性的研究进展进行系统化的分析,以期为信息检索相关性的深入研究提供参考.

[关键词]信息检索 相关性 图书馆学 情报学

[分类号]G252.7

信息检索相关性研究起源于20世纪30年代,相关性是信息检索和图书情报领域的核心内容.国内外对相关性研究已经取得了一定的研究成果,从目前的研究内容上看,主要集中于对面向系统的相关性研究、面向用户的相关性研究两个派别[1].基于信息检索相关性研究的重要性,也考虑到国内图书情报领域信息检索相关性研究较少,为了明确指出国内相关研究的进展情况,笔者对现有研究论文进行文献计量学分析,包括载文量、作者机构、期刊来源、关键词词频4个方面;此外从面向系统、面向用户两个角度对相关性研究进行归纳总结,以期对图书情报领域相关性研究提供一定的借鉴和参考.

1 研究设计

1.1 数据来源

检索CNKI学术期刊网络出版总库,匹配精确检索,学科限定为“图书情报”,检索策略为主题等于(检索and相关性)or(信息检索and相关性),时间截止到2016年12月31日,初步检索289篇文献,经过筛选、去重保留283篇.

1.2 研究方法

利用Excel表格工具对检索到的文献结果进行分类汇总,将数据转化为易处理的规范化格式.运用文献计量学方法研究文献的外部特征,揭示文献的变化规律.同时利用可视化软件绘制知识图谱,以便直观体现学科的发展动态、研究前沿和热点.

2 结果分析

2.1 载文量分析

从学术角度上看,载文量在一定程度上能够反映出某一领域的研究水平,统计“信息检索相关性”论文数量并绘制文献的年度增长曲线,预测其发展态势起着重要的作用[2].图1直观展示了主题文献的年度分布情况,根据文献载文量和已有综述研究,可以将信息检索相关性研究大致划分为以下4个阶段:

(1)1982-1999年,萌芽阶段.国内信息检索相关性的文献研究起步较晚,文献产出量较少,没有形成研究规模.王知津[3]明确指出相关性的定义,认为情报检索系统评价中的相关性与情报的相关性是趋于一致的.李国秋[4]提出相关性研究需要解决的7个问题.这些成果为后期的研究提供了一定的参考.

(2)2000-2007年,波动探索阶段.文献量表现出明显的波动,2000-2003年总体上呈递增趋势,并在2003形成一个小高峰;2004-2006年基本持平;2007年又形成一个小高峰后随之下降,该阶段的理论基础比较薄弱.王知津、周瑛、成颖、陆小辉、孙建军等学者的探索研究为学科发展奠定了理论基础.

(3)2008-2011年,稳定增长阶段.相对波动探索阶段,文献量明显持续增加,并在2011年达到峰值.杨秀丹[5]从认知观的角度研究了信息检索理论,提出了基于用户认知的信息检索系统.成颖[6]利用关联理论解释了信息检索相关性判断的可行性.刘斌[7]为了能够真实地反映检索结果的相关性,借助个性化信息库和主题词表,设计了新型的信息检索系统.李进华[8]将统计语言引入信息检索系统,研究了生成相关性模型.这些研究主要是对信息检索相关性基础理论和信息检索技术的研究.

(4)2012-2016年,理性回归阶段.文献量明显进入高产出阶段,趋于理性增长.文献量有所回落,一方面信息量不断膨胀无法准确满足用户的检索要求;另一方面搜索引擎技术并未取得突破性进展,这些瓶颈因素阻碍了现阶段的信息检索相关性研究.

2.2 作者机构分布

发文量是代表作者及其所在机构学术科研能力的重要衡量指标,核心作者及机构则是某一学科领域的重要力量,所以对核心作者及机构的研究具有重要价值[9].由普赖斯定律可知,高产作者的计算公式是:N等于0.749 η max ,ηmax代表最高产作者所发的论文数量.统计发现,成颖为最高产作者(9篇),所以η max 等于3,N≈2.25,即认定发表论文在3篇以上的作者为高产作者(见表1).

由表1可知,高产作者包括南京大学信息管理系成颖(9篇)、孙建军(6篇),南开大学信息管理系王知津(6篇)、武汉大学信息资源研究中心陆伟(4篇)等.由此可见,国内图书情报领域信息检索相关性研究的核心力量主要集中在高校,他们拥有较强的专业知识基础和科研能力.

利用可视化软件Citespace,时间选择为1982-2016年,将机构作为网络节点,利用最小生成树算法绘制发文机构知识图谱(见图2).在图谱中有44个节点,198条连线,网络密度是0.0023,可见各机构间合作交流强度不高,跨机构、跨地域的科研合作几乎很少,研究力量相对薄弱有待进一步加强.图谱显示,图书情报信息检索相关性研究的主要机构是高校信息管理院系、高校图书馆、信息研究所,这与这些机构浓厚的学术氛围有关.信息检索与计算机技术密切相关,图书情报学者应该加强与计算机技术人员的跨领域合作,壮大科研力量,解决技术难题,以便深入探讨信息检索相关性理论和实证研究.

2.3 期刊来源分布

论文的期刊来源在一定程度上能够体现出某一研究领域的空间分布特征,一般说来,文献分布有其固有的规律,有价值、有影响力的论文大多数都集中在核心期刊上,只有充分地了解和把握核心期刊群,才能更好地掌握该领域的研究层次和水平[10].根据CNKI检索出283篇文献,其中有136篇发表在核心期刊上(见表2).

表2列举出载文量在4篇及以上的期刊,载文量较高的9种期刊刊登的信息检索相关性研究论文100篇,占全部文献的35.32%,可以说这9种期刊是所有期刊中探讨国内信息检索相关性研究的主要阵地.其中《图书情报工作》《情报杂志》《情报理论与实践》《情报科学》《现代情报技术》收录文献相对较多,这5种图书情报领域的核心期刊更能够体现出信息检索相关性的前沿热点.

2.4 关键词词频分布

关键词包含主题词和自由词,是用来表达全文主题内容的术语或单词,能够体现研究内容的重心.根据齐普夫定律可知,分析某一学科领域的关键词词频以及相互关系,能够准确地反映出某一学科领域的研究态势和前沿热点[11].经统计,获得原始关键词(不含重复词汇)635个,为了更好地表现出研究热点的情况,将与主题相关性较低的关键词剔除,笔者利用Excel软件对文本中的关键词进行处理,将关键词按照频次降序排列,将频次的阈值设定为5(见表3).

利用Citespace软件进行可视化分析绘制关键词共现网络图谱(见图3).图3中每个节点都代表一个关键词,节点越大,说明该关键词在网络中越处于中心地位;节点之间的连线表示不同关键词之间的两两共现次数,两两之间的连线越多,说明关键词之间的关系愈加密切.

国外关于信息检索相关性研究早于国内,其研究成果和研究体系比较完整.在国外计算机科学和图书情报学的跨领域研究,使得信息检索相关性研究主要形成两大派别,即以计算机科学为主导的系统中心派,以图书情报学为主导的用户中心派.国内学者对信息检索相关性研究基本继承了国外研究的两大派别,对相关性研究的可认知、可测度、动态、多维的观点已经达成共识.

3 基于文献计量结果的信息检索相关性研究综述

基于国内外学者对信息检索相关性研究的两大派别,并结合图3对283篇文献进行整理,可以从面向系统和面向用户两大视角,梳理国内图书情报工作者对信息检索相关性的研究概况.

3.1 基础理论研究

3.1.1 相关性概念研究

目前,国内外学者对“相关性”概念的定义并没有统一的说法.国内学者对信息检索相关性概念的理解表现为明显的阶段性和时间性.基于传统信息检索的相关性概念研究,王知津[3]认为情报的相关性是传递知识与结果之间关系的测度,这种测度是衡量用户情报需求满意度、情报检索系统性能的指标.陆晓辉[12]认为信息检索的相关性是指信息检索系统与用户查询相匹配的过程.基于语义网的信息检索的相关性研究,秦久英[13]认为相关性的概念应包含关系、直觉、动态、多维4个本质特征.郝斌[14]将本体引入相关性的概念中,参照米扎罗四维(信息源、信息需求、组件、时间)概念模型对相关性问题进行定性描述.

3.1.2 相关性类型及其关系研究

相关性类型的划分方法有很多种,划分标准并不统一.对相关性类型的研究取得很大进展,张新民[15]等学者划分了主题相关、情景相关、算法相关、社会认知相关、需求相关这5种类型的相关性,认为除算法相关以外,其余4种类型都是高阶相关性,因为它们都具备主观性.赖茂生[16]等学者指出相关性类型多样,表现形式不一.相关性类型具有层次性,分为内容相关、情境相关、系统相关、认知相关、情感相关.

3.1.3 相关性影响因素研究

查全率、查准率是信息检索系统的重要评价指标,二者是以相关性为基础.相关性是搜索引擎的重要定律之一.所以对相关性的深入研究有重要的指导意义,骆绍烨[17]认为影响相关性因素主要来源于4个方面,即环境、时间、用户、信息源、检索系统,其中人为因素是不可避免的关键影响要素.马芳[18]认为检索和存储是互逆的过程,通过对检索过程的研究,可以找出影响检索相关性的主要原因,即时间与环境、用户特性、需求表达、信息源.

3.2 相关性模型研究

模型的构建是信息检索系统功能实现的重要步骤,也是信息检索相关性的关键环节.常见的信息检索模型包括布尔检索模型、逻辑模型、概率模型、向量空间模型等,对检索模型的不断改进,可以有效提高信息检索系统的相关性[19].国内学者对信息检索模型的研究如下.

3.2.1 模型理论研究

赖茂生、屈鹏指出所有的相关性模型中,都未提及过“术语相关”或“词相关”的概念,认为标引词的权重、词语、符号就是相关性的载体,对于系统相关性而言,给标引词赋于权重就是将标引词引入相关性的过程,对于用户相关性而言,符号和词汇就是认知、理解的过程[16].在此基础上并分别指出了在布尔逻辑模型、空间向量模型、概率模型、模糊集合模型中影响信息检索相关性的主要因素.孙建军、成颖[20]以信息检索交互模型为基础,研究了面向系统的相关性模型和面向用户的相关性模型(见表4、5).系统相关性模型的优点在于它是对实际系统的应用和评估,明确了信息检索、信息检索系统的发展目标.系统观的相关性侧重强调检索系统的内部机制研究,忽视了用户的作用.用户相关性模型研究主要以用户,以及用户与检索系统为对象,更多研究用户的主观性特征.

3.2.2 模型实证研究

成颖[21]基于信息系统成功模型、TEDS模型构建了面向相关性判断的学术信息检索系统成功模型,对学术信息检索系统的影响要素以及使用行为进行有针对性的探索.朱涵[22]采用相关性概率估计和检索决策函数,分析了二元独立检索模型(BIR)原理,探讨信息检索用户相关性应用.

3.3 相关性算法和聚类研究

为了研究共现词对检索排序相关性的影响,陈翀[23]等学者提出了共现词汇算法(FDC),该算法考量了词汇在文档中的相对距离、共现频度等.王春芹[24]提出了以MPR为扩展的链接网页算法,该算法考虑了网页内容的相关度,可以改善搜索引擎的主题相关性.李枫林和张景[25]从标签相关性、网页相关性以及标签和网页间相关性的关联程度,研究了用户标注行为,并在此基础上改进了SPR算法.喻新波[26]认为反馈文档中存在大量的噪音,导致查询偏移,通过文档聚类可以过滤到不相关的文档,使得检索结果相关性得到明显改善.孙红红[27]探讨了模糊集理论在检索结果中的应用,利用模糊等价关系和最大树法对检索结果进行聚类分析.王晓春[28]研究了检索结果与用户历史的相关性,引入增量层次聚类算法建立用户长期兴趣模型.

3.4 用户相关性评价研究

李亚琴和孙建军[29]等学者从相关性反馈、动态相关性、相关线索3个方面深入分析了检索用户相关行为,指出在以后的研究中应多关注用户的社会认知转变、加强对用户自身素质的培养.苏君华[30]指出系统的选择、用户的认知能力、评价结果的表达是影响用户相关性的重要因素.于春和彭爱东[31]等学者采用加权评分法对影响用户相关性判断的五大因素(信息用户、查询请求及其表征、文献及其表征、判断状况及环境、相关性表达方式)进行排序.

4 总结

通过以近年来图书情报领域信息检索相关性研究论文为样本,从文献计量学的角度,采用知识图谱直观地体现了国内信息检索相关性研究现状,重点分析了载文量、作者机构、期刊分布、关键词词频,并从相关性基础理论研究、相关性模型及算法研究、相关性聚类及评价研究等视角,对国内图情领域信息检索相关性研究文献进行梳理.研究结论如下:

(1)从载文量上看,信息检索相关性研究跨越了起步阶段,进入了快速发展阶段.文献量总体呈现逐年上升趋势,期间虽有回落,但并不代表研究热度下降,可能是由于技术方面的原因或者理论深度的加强使得相关性研究遇到困难.

(2)从作者机构上看,高校信息管理院系、高校图书馆、信息研究所是相关性研究的主要阵地,但是从整体上看科研基础薄弱,核心的研究团体较少,学者间的交流合作有待加强.

(3)从期刊分布上看,信息检索相关性研究论文水平需要进一步提升,不断增加图书情报领域核心期刊的载文量.

(4)从关键词词频上看,信息检索相关性的高频词主要分为两大范畴,即系统观的相关性研究和用户观的相关性研究.目前来说这两大研究都取得了显著的成果,通过对现有文献的综述,发现大多数学者都集中于信息检索相关性理论的研究,算法的改进、模型应用等实证研究方面还存在不足.

因此,随着相关性研究的逐步深入,理论与实际应用的有机结合,系统派和中心派的互相交融,可以预见未来图情领域信息检索相关性研究体系会越来越完善.

图书情报论文范文结:

适合图书情报论文写作的大学硕士及相关本科毕业论文,相关图书情报开题报告范文和学术职称论文参考文献下载。

1、旅游情报杂志

2、国家科技图书文献中心

3、图书管理系统论文

4、图书管理系统毕业论文

5、图书参考文献格式

6、图书情报杂志