知网论文文献查重检测系统

多语种 图文 指定高校抄袭检测系统

知网查重和万方检测数据库收录学位论文全文数量的对比分析

2020-09-08 阅读(206)

关键词:知网查重 万方 学位论文 全文数量   

知网查重和万方检测数据库收录学位论文全文数量的对比分析

中国知网( CNKI,以下简称知网) 、北京万方数据股份有限公司( 以下简称万方) 是国内最有影响力的中文学位论文提供商,其中知网出版有“中国优秀硕士学位论文全文数据库”和“中国博士学位论文全文数据库”,万方出版有“中国学位论文全文数据库”。随着国内作者对作品版权保护意识的提高,同时双方也为了占领更多的市场份额,两大数据库商在数据来源、版权保护、产品宣传等方面的竞争也日趋激烈。但万方在学位论文数据库中包含大量不提供全文的论文题录信息,与提供全文的论文同时呈现且未明确区分其数量,另外,两家数据库商的学位论文数量均在百万篇以上,不太可能通过手动检索进行统计,即图书馆在订购时很难根据销售人员的介绍获得全面、真实、详细的全文收录数据。因此笔者认为有必要对收录的学位授予单位数量、重复量等指标及其随年度变化的情况做详细统计,以及对收录的学位授予单位的收录稳定性进行分析,为学术机构采购学位论文数据库提供参考数据。   

       1.1 数据获取时间2011 年1 月17 日-2011 年1月19 日。因此,文中涉及到的与学位论文数量有关的数字均截止到2011 年1 月19 日。   

       1.2 数据获取方式在授权使用范围内登录万方服务站点平台http://www.chachongla.com,选择“学位论文”子库。检索得到记录1 052 977 条,其中博士后论文3 178 条,博士论文106 530 条,硕士论文943 269条   登录知网服务平台http://www.chachongla.comki.net,分别进入“中国优秀硕士学位论文全文数据库新版”和“中国博士学位论文全文数据库新版”,可以不输入检索词默认检索所有记录,得到博士论文145153 条、硕士论文1 119 592 条。使用正则表达式提取其中的中文题名、作者姓名、学位授予单位、学位授予年度等4 个字段信息。   

       1.3 检索结果的整理利用桌面数据库软件Access 对得到的数据进行整理,按年度、学位授予单位分组合并后,手动去除因著录不规范或必要字段缺失、学位授予单位为非大陆单位等因素所导致的无法使用的记录。如作者姓名为周金应的中国地质大学( 北京) 硕士论文《长庆西峰油田合小区复合储层建模研究》,万方数据库中的“学位年度”著录值为“1”; 论文《基于概念相似度计算的本体映射算法的研究》,作者陈尧,在知网中学位授予单位著录为“<源映射实体名称> | <目标映射实体名称>”等。共去除万方博士后论文1 条、博士论文18 条、硕士论文33 条,最终得到博士后论文3 177 条、博士论文106 512 条、硕士论文943 236 条; 共去除知网博士论文11 条、硕士论文13 条,最终得到博士论文145142 条、硕士论文1 119 579条。   对著录不规范的名称进行了统一,如机械科学研究院、机械科学研究总院,统一为机械科学研究总院;对拥有多个名称的单位修改为一个名称,如军医进修学院、解放军总医院,统称为中国人民解放军总医院;对部分附属单位、二级学院按照上级单位对待,如中国科学院的多个研究所,统一认定为中国科学院; 两地办学、两地授予学位的学校也统一认定为同一学校,如中国石油大学; 对著录有多个单位的,按照第一个单位计数。在对比“985 工程”[1]、“211 工程”[2]高校数据以及涉及到高校合并、改名等外在政策条件改变的,因其对两家数据库的影响方向一致,增量相同,因此文中在数据整理、比较时未加干预。   

       2.1 数据库收录“211 工程”院校情况因1997 年被批准的“211 工程”院校最多,总数达到94 所,所以在统计两家学位论文库收录“211 工程”院校的数量、论文数量时,选择从1998 年开始。   2.1.1 收录“211 工程”院校数量。对该类型院校的年度收录数量变化情况如图1 ~ 2 所示。   根据对收录的“211 工程”院校排序比较后发现,知网和万方中均存在始终未收录到全文的高校。其中知网收录的博士论文单位中缺少宁夏大学、青海大学、西藏大学等西部“211 工程”院校,硕士论文单位中没有中国药科大学; 万方收录的博士论文单位中缺少的较多,包括北京科技大学、北京理工大学、北京林业大学、北京外国语大学、福州大学、哈尔滨工业大学、海南大学、华东理工大学、暨南大学、南京农业大学、青海大学、清华大学、上海财经大学、上海外国语大学、西安交通大学、西北农林科技大学、西藏大学、云南大学、中国传媒大学、中国药科大学、中央民族大学、中央音乐学院等22 所高校,始终未收录到硕士论文全文的单位有福州大学、哈尔滨工业大学、华东理工大学、南京大学、南京农业大学、上海财经大学、上海外国语大学、西安交通大学、西北农林科技大学、云南大学、中国药科大学、中央音乐学院等12 所院校。   2.1.2 收录“211 工程”院校论文数量。依表1所示,“211 工程”院校的学位论文全文的实际篇数也与收录的院校数量变化趋势基本一致。但在2004—2006 年,万方与知网收录的博、硕士论文数量基本持平,甚至超过了知网的数量,但从图1 ~ 2 中可以看到,同期万方收录的院校数量却远不及知网。通过详细比较笔者发现,一个原因是数据库商对某单位论文收录不全,如在2005 年的学位年度中,知网收录大连理工大学的博士论文为103 篇,而万方则收录有271 篇; 另一个原因是对同一篇论文“学位授予年度”字段的著录内容不同。仍以大连理工大学论文《基于企业价值的财务战略管理研究》为例,其在知网中的学位授予年度为2005 年,在知网中的全文的封面显示“论文完成时间”为“2004 年12月”; 在万方中学位年度著录为2004年,全文的封面有一行内容为“20041201”; 在大连理工大学图书馆“本校研究生学位论文”数据库中的答辩日期为“2005. 04. 19”。   这种著录不一致的情况普遍存在。以博士论文为例,知网收录“211工程”院校、学位授予年度为2005 年的11 230 篇博士论文中,与万方博士论文重复的有7 238 条,而在这些重复的论文中,万方数据库中著录为2002 年的有3 条,著录为2003 年的有17 条,著录为2004 年的有459 条,另有5 条著录为2006 年或2007年。严格限定知网和万方中的“学位年度”均为2005年,得到的重复论文仅为6 754 篇。因此,为了减少这种错误带来的影响,表1 中统计重复数量时,除限定论文题名相同、作者姓名相同作为判断是否重复的必要条件外,只参照了知网中著录的年份进行宽松比较,也因而出现了如表1 中2000 年万方收录硕士论文全文只有12 篇,但与知网重复收录数量达20 篇的现象。另外因著录方式不同,重复的数字会比实际重复数量稍小,如对水的化学式“H2 O”的著录,知网中著录为“H_2O”,万方中著录为“H<,2 >O”,这种情况在Access中用SQL 语句做限定比较时系统会认为是不同的字符串,因而就判定为不是重复论文。   因39 所“985 工程”院校均包括在“211 工程”院校中,因此数据库的学位论文库在收录的学校和论文数量上所呈现的规律与收录“211 工程”院校的情况类似,本文限于篇幅不再展开论述。   

        2.2 数据库收录非高校单位情况非高校单位是指中国科学院、中共中央党校、煤炭科学研究总院等具有研究生学位授予权的企事业单位。这些单位虽然不参与高考招生,但具有较好的科研环境,每年可培养一定数量的博、硕士研究生,因研究领域各具特色,研究成果同样具有很高的学术价值,知网和万方均有一定数量的收录。文中统计了2000 年以来的非高校单位被收录的数量,如图3 ~ 4 所示。   数量差距比较大,从11 个年度的总和来看,知网收录的博士全文数量几乎为万方收录博士全文数量的3倍,硕士数量也超过了2 倍。以具体单位为例,2000 -2010 年间,知网收录中国科学院系统的博、硕士论文数量分别为4 500,4 139 篇,同期万方只分别收录有1 379和1 690 篇。   

        2. 3 数据库收录所有单位情况   2. 3. 1 收录所有单位数量。数据库收录所有单位情况如图4 ~ 5 所示。   2. 4 按收录同一单位论文数量的差距分组后的单位数量在知网和万方每年同时收录的单位中,并非每个单位收录的论文全文数量都是相同的。按照对同一个单位收录全文数量的差值进行分组对照,结果显示,两家数据库商对同一单位论文全文收录的数量相差多数在30 篇以内,但也有一些单位收录数量相差100 篇以上,具体情况如表4 所示,每组数据中,逗号前为博士学位授予单位数量,逗号后为硕士学位授予单位数量。与收录的博士论文单位不同,万方对共同收录的硕士论文单位的全文收录数量自2004 年起就高于知网。以中山大学为例,2008 年万方收录其硕士论文   2 102篇,而知网仅收录了52 篇。另外,共同收录的硕士论文单位中,差值在100 篇以上的单位数量所占比例与同类型博士论文单位相比明显升高。   但因知网和万方存在对同一篇论文的学位年度著录不同的情况,因此表4 中数据仅供参考。2. 5 2001 -2010 年数据库对学位授予单位的收录稳定性系统、连续的对某单位的学位论文进行收录,反映出数据库商数据来源的稳定性。笔者分别选取知网、万方数据库中2001-2010 年10 年间的“学位授予单位”数据,以“年”为刻度分析在该时间范围内数据库商收录某单位的次数,并划分为3 个层次: 超过9 年的属于第一组,收录6 ~ 8 年的为第二组,10 年间对某单位收录不足5 年的为第三组。每组的单位数量以及每组中包含的“211 工程”院校数量和其他单位数量如表5 所示。   从表5 可以看出, 10 年间知网博士、硕士,万方博士、硕士共收录的单位分别为316、545, 234、441 家,总体来看知网对“学位授予单位”收录的稳定性优于万方。   3 讨论与总结   3. 1 现状及问题分析从上述折线图可以看出,知网对硕士论文单位的收录数量增幅较大,而两家数据库商对各类型博、硕士学位授予单位的收录数量均在2007 后开始减少,且重复收录的院校数量下降更快,出现上述现象的原因,笔者认为有以下两点: a. 知网硕士论文全文库最初定位于“优秀硕士论文数据库”,是有选择性的收录,而后逐渐注重全面收录,因此增幅较大; b. 2007 年后两家数据库商收录院校数量均减少,一方面与数据库商与学位授予单位签署独家授权协议的情况增多、数据来源市场竞争激烈有关; 另一方面,各学位授予单位逐渐重视知识产权保护,不愿再把科研成果出售给商业公司; 另外,数据库商对全文的收录有滞后,在笔者统计时尚未正式出版也是一个重要因素。包括数据库商加工滞后、学位授予单位要求数据库商延期出版等。   文中主要比较的是1999 年以后两家数据库商的全文收录情况,但从全部数据来看,知网对全文的收录年限更长一些,最早的可以回溯到1984 年,除在1985年没有收录硕士论文外,其他年份对博、硕士论文均有收录,这一点从上述的折线图的起点值较高也可以得到印证。而万方对博、硕士论文收录的年限长,数据量大,但全文少,除在1986 年收录有3 篇硕士论文全文外,博士从1999 年、硕士从1994 年才开始有全文收录。   知网和万方学位论文库中均收录有非大陆地区的学位授予单位的论文,如知网中收录有“普兹茅斯大学”硕士论文1 篇,万方中收录有“挪威奥斯陆大学”硕士论文1 篇,但收录单位和论文数量均极少,论文总数量均不超过20 篇。文中也已提到,除数据库商在数据加工时对著录字段有遗漏或者自动标引出错外,不少论文的学位授予年度著录也不一样。严格来说不会出现这种情况,学生用一篇论文进行答辩并取得学位的时间应该是唯一的,而出现这种情况也表明了数据库商对文献著录较为随意,未认真校对。   万方数据库收录了部分单位的博士后论文,反映了万方敏锐的市场嗅觉,对于专注于资源整合的集成商来说,这是一种创新,也是一个趋势。另外,万方学位论文数据库中的记录条数达到了180 万条,大大高于目前知网的学位论文数,虽然目前向用户提供的全文数量不足其全部数量的60%,很多单位的论文尚未提供全文,但对于图书馆的参考咨询工作以及读者对文献的查全率来说,万方学位论文库仍不失为最好的选择。从数据库采购单位的角度来说,学位论文的收录覆盖率、全文数量、性价比是决定是否采购的重要因素; 从数据库商的角度来说,只有拥有了充足的数据才能提供更丰富的应用和知识价值。文中对比可以看出,在收录的单位数量方面,万方目前暂处劣势。但万方以中信所为学位论文的数据来源[4],在原始数据的获取方面更具优势。因此万方应重点解决学位论文的版权问题,随着知网在产品宣传中高调推崇“独家授权”协议,版权之争将会更加激烈。   

       3. 2 总结与不足对于知网和万方重复收录的问题,与其他学者的观点[5-6]不同,笔者不认为这种竞争导致的重复建设属于“资源浪费”,而认为其属于市场竞争的必然结果。国家只需从宏观层面上完善市场竞争体制,只有充分的竞争才能支撑数据库商提供更符合用户需求的产品,也更利于采购单位进行合理选择。在目前情况下,还不存在一个数据库商收录所有单位论文的情况,作为数据库采编人员,应该根据所在单位的学科特点、读者需求和经费情况进行合理购置,必要时可以先申请试用,在分析试用效果及访问情况后再做决定。文中仅对学位论文全文所涉及到的学位授予单位的数量和重复情况进行了统计和对比,未形成具体的指标体系,亦未对学位论文的具体数量和重复情况展开讨论,是本文的不足之处,有待进一步研究。

       净溪知网查重网http://www.ccnki.cc/ ,是高校指定个人知网查重入口,查重价格低,而且准确率也是可以保证的,结果跟学校一样。

高校知网查询

相关文章