被引频次方面有关学士学位论文范文 和基于回归树的我国SSCI文献被引频次的特征分析类论文范文资料

本文关于被引频次论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

基于回归树的我国SSCI文献被引频次的特征分析

摘 要:本研究采用数据挖掘的回归树模型,对我国SSCI文献的相关数据进行分析,建立我国SSCI文献被引频次的回归树模型,分析我国SSCI文献被引频次的分布的典型特征,挖掘我国SSCI文献被引频次的变化规律和趋势,从而为提升我国社会科学研究在国际上的影响力提供信息支持和解决途径.

关键词:回归数;数据挖掘;SSCI;被引频次;特征分析

中图分类号:C93;F713文献识别码:A文章编号:1001-828X(2017)021-0-04

长期以来,无论是社会科学还是自然科学领域,都认为论文的被引频次可以作为论文影响力和论文质量的评价依据[1][2].同时有学者通过实证指出,不同索引数据库的被引频次对论文影响力或质量评价具有一致性的结论[3].论文被引频次已经被广泛的应用于评价一个国家、机构、甚至个人的科研成果影响力状况和质量水平.因此,对SSCI收录我国社会科学文献的被引频次的分布特征进行分析,发掘我国SSCI文献被引频次的影响因素,解释我国SSCI文献影响力发展的规律和趋势.这有利于从被引频次角度系统,整体评价我国SSCI文献的质量和国际影响力,优化我国社会科学研究资源的配置,提升我国社会科学研究的国际地位和影响力.

我国SSCI文献的相关数据包括作者单位、作者地区、学科、发表时间、文献流向、基金、文献类型等属性,这些属性能够影响论文质量和论文影响力,进而影响论文的被引频次.回归数作为一种非参数的数据挖掘方法,可以同时处理连续变量和分类变量,对分类变量没有概率分布上的要求[4].可以用回归树挖掘被引频次在这些相关文献属性上的分布特征.

一、我国SSCI文献被引频次的回归树模型

1.回归树模型的基本原理和算法

分类和回归树(CART Classification and Regression trees)技术是一种用于数据集分类决策树技术,也可称为二元回归分解技术[5].

回归树模型采用的是离差平方和最大缩减算法[6].对于数据的任何一次分割,设N代表树的某个节点,定义节点内的离差平方和为:

2.我国SSCI文献被引频次回归树模型的建立过程

本研究主要从文献的产出、流向、合作、基金等角度,探讨与论文被引频次的关联度,以及论文被引频次的分布特征.在本研究中,根据式(1)、式(2), 根节点16656条数据的被引频次的离差平方和为2999473.90,属性X7(作者人数)第一次分割的所有分枝组合的离差平方和缩减结果如表2所示,根据式(3),可知组合3是属性X7第一次分割的最佳分枝.

同理,可计算表2中其它属性的第一次数据分割的最佳分枝.各属性第一次数据分割的最优结果如表3所示.表中属性X8(通信作者国家或地区分类)的最佳分枝在所有属性的最佳分枝中是最优的,离差平方和降幅最大,因此被引频次回归树模型第一层的左分枝为属性X8的取值4、5、6、7的组合,右分枝为属性X8的取值1、2、3、8的组合.

重复以上过程,依次计算每次分割的最优分枝组合,则可以得到被引频次回归树模型.在本研究中,通过SAS9.1.3的EM软件实现以上回归树模型的建立,得到回归树模型结果如图1所示.其中N为样本数、A为平均值、S为标准差.树的剪枝采用后剪枝方法,以离差平方和下降幅度逐渐趋缓,作为剪枝的标准[15].

从图1,我国SSCI文献被引频次的回归树模型可以清晰看到整个模型的大致结构.该模型共有节点37个,其中叶子节点19个,从根节点向下一共有6层,即此树模型的深度为6.

二、基于我国SSCI文献被引频次的回归树模型的特征结果分析

从图1可以得出,我国SSCI文献被引频次的主要影响因素依次是:X8(通信作者国家或地区)、X2(第一作者国家或地区)、X13(发文时间)、X11(基金个数)、X5(合作国家或地区)、X7(作者人数)、X4(合作方式)和X12(文献流向).这些影响因素共同作用于我国SSCI文献被引频次,构成了我国SSCI文献被引频次的分布规则和特征.

1.主导地区对我国SSCI文献被引频次分布的影响特征

论文的主导地区由属性X8(通信作者国家或地区)和属性X2(第一作者国家或地区)予以体现.从回归树模型中可以得到,X8(通信作者国家或地区)位于第一级节点处,是对目标变量影响最大的因素.回归树通过属性X8和属性X2,最终形成了主导地区对我国SSCI文献被引频次分布的4个影响特征,如表4所示.

通过表4可以得到主导地区对我国SSCI文献被引频次分布的影响特征结论:主导地区是影响我国SSCI文献被引频次分布的第一重要因素;在该类因素的影响下,通信作者地区或国家为港澳台以及国外的我国SSCI文献的远高于通信作者地区为我国大陆SSCI文献的.

2.发文时间对我国SSCI文献被引频次分布的影响特征

从回归树模型中可以得到,属性X13(发文时间)位于回归树左分枝的第二级节点,是对部分目标变量的二级影响因素.回归树通过属性X13形成了发文时间对我国SSCI文献被引频次分布的2个影响特征,如表5所示.

从发文时间对我国SSCI文献被引频次分布的影响特征可知,发文时间是我国SSCI文献被引频次的二级影响因素,会对通信作者为港澳台和国外的我国SSCI文献的被引频次产生显著影响,2004年是我国SSCI文献被引频次发生巨大变化的分水岭,在2004年以前的文献平均被引频次远高于2004年以后的文献平均被引频次.

3.基金支持对我国SSCI文献被引频次分布的影响特征

从回归树模型中可以得到,属性X11(基金个数)分别位于回归树左右分枝的第3级节点,是对部分目标变量的影响因素.回归树通过属性X11形成了基金支持对我国SSCI文献被引频次分布的4个影响特征,如表6-10所示.

从基金个数对我国SSCI文献被引频次分布的影响特征可知,基金个数是我国SSCI文献被引频次的影响因素,在该因素的影响下,没有基金支持的我国SSCI文献平均被引频次大于有基金支持文献的平均被引频次.

4.合作模式对我国SSCI文献被引频次分布的影响特征

论文的合作模式包括属性X5(合作国家或地区)、属性X7(合作人数)和属性X4(合作方式).从回归树模型可以得到,属性X5、X7和X4分别依次位于回归树模型左右分枝的第四、五、六级节点处,是对目标变量的4-6级影响因素.回归树通过属性X5、X7和X4,最终形成了合作模式对我国SSCI文献被引频次分布的影响特征,分别如表6,表7和表8所示.

综合表6,表7和表8的合作模式对我国SSCI文献被引频次分布的影响特征分析可知,合作国家或地区、合作人数和合作方式分别是我国SSCI文献被引频次的四、五、六级影响因素,其影响结论分别是:

(1)在合作国家和地区方面,多国合作的我国SSCI文献平均被引频次高于其他的形式.导致这一影响结果存在两方面原因:首先,多个国家和地区的跨国合作,能够提供较好的科研平台,从而为提升论文质量提供基础保证;其次由于参与科学研究的地区国家的多样性和广泛性,能够让多个国家和地区予以足够的重视,进而提升论文的关注度.

(2)在合作人数方面,多人合作的文献平均被引频次高于两人或1人合作的文献.

(3)在合作方式方面,跨国多人合作文献平均被引频次高于非跨国多人合作文献,跨国两人合作文献平均被引频次低于跨地区两人合作文献.

5.文献流向对我国SSCI文献被引频次分布的影响特征

从回归树模型中可以得到,属性X12(文献流向)位于回归树右侧分枝的部分叶子节点,是对部分目标变量影响的底层因素.回归树通过属性X12形成了文献流向对我国SSCI文献被引频次分布的10个影响特征,如表6-14所示.

通过表6-14的文献流向对我国SSCI文献被引频次分布的影响特征分析可知,文献流向是我国SSCI文献被引频次分布的底层影响因素,且流向美国、英国和荷兰的文献被引频次高于流向中国以及其他国家的文献.

三、结论

本研究采用数据挖掘的回归树模型,对我国SSCI文献的相关数据进行分析,建立我国SSCI文献被引频次的回归树模型,分析我国SSCI文献被引频次的分布的典型特征,我国SSCI文献背阴频次分布的因素依次是:主导地区、发文时间、基金个数、合作国家或地区、合作人数和合作方式、文献流向.

参考文献:

[1]Brown, L.D. and Gardner, J.C. (1985), “Using citation analysis to access the impact of journals and articles on contemporary accounting research (CAR)”, Journal of Accounting Research, Vol. 23 No. 1, pp. 84-108.

[2]Brown, L.D. and Gardner, J.C. (1985), “Using citation analysis to access the impact of journals and articles on contemporary accounting research (CAR)”, Journal of Accounting Research, Vol. 23 No. 1, pp. 84-108.

[3]Daniela Rosenstreich、Ben Wooliscroft. Assessing international journal impact: the case of marketing. European Business Review Vol. 24 No. 1, 2012:58-87

[4]邱长波,余莉.基于数据挖掘的中国科技论文在线首发论文下载次数典型特征研究.图书情报工作,2011(10):83-87.

[5]Jiawei Han. Michelinc Kamber. 数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008.

[6]赵一鸣.对“回归树的建模与应用”一文的几点补充[J].中华预防医学杂志,2003(2):141-142

[7]莫春梅,倪宗瓒,高凤琼.回归树的建模与应用[J].中华预防医学杂志,2002(5):346-347.

[8]张文彤,赵耐青.回归树应用于病案首页资料分析时的适用条件及替代算法初探[J].中国卫生统计,2003(6):338-340.

作者简介:余 莉(1985-),女,汉族,贵州仁怀人,吉林大学博士,主要从事数据挖掘、文献计量、管理信息系统研究.

被引频次论文范文结:

适合被引频次论文写作的大学硕士及相关本科毕业论文,相关被引频次开题报告范文和学术职称论文参考文献下载。

1、高被引论文