高校社会科学用户数据源选择偏好研究

2019-01-31 03:19魏园婷李桂华
图书馆理论与实践 2018年12期
关键词:信息源数据源人际

魏园婷,李桂华,魏 静

(1.西安理工大学图书馆,2.四川大学公共管理学院,3.西安电子科技大学图书馆)

据IDC发布的《数据时代2025》报告指出,到2025年,我们的世界将会被数据淹没,2025年的数据量将会是2016年创建的数据量的10倍。[1]正如图灵奖得主Jim Gray所言,在“指数级增长的科学数据”背景下,科学研究的第四范式——数据密集型科研已经到来,其特点是以数据考察为基础,在此范式下科学研究工作主要由数据收集、管理和分析三种活动过程组成。[2]在这样的环境下,科研人员的信息需求也由以往的单纯对文字资料的需求转化为对文字、数据多内容的资料的需求。因此,选择适合的数据源成为科学研究的重要部分。

1 相关研究

数据源选择偏好是指用户为了满足其数据需求,在数据查找过程中会与不同的数据源发生交互,在交互过程中,用户产生的选择倾向性,即选择某种数据源而不选择另一种的行为。目前关于用户数据查询行为的研究较匮乏。因而本研究在此综述信息源选择偏好的有关内容,为研究数据源选择偏好提供研究借鉴。

在有关信息源内容方面,燕丽君[3]认为信息源包括机构信息源,网络信息源、媒体信息源、印刷信息源和口头信息源,共5种。李珊[4]认为信息源主要包括网上信息源与数据库资源、图书报刊信息源和信息职能机构。Bronstein J[5]认为信息源主要有网络信息源、人际信息源、纸质资源和专家资源。Lliodra-Riera[6]等主张不能将互联网仅看作是一个信息源,而应是信息源的集合,里面包括不同性质的信息源。

最早深入研究用户信息源选择的是Saul Herner。Herner[7]以美国药学科学家为研究对象,研究其对正式与非正式信息源的利用。Areces D[8]调查了高中生在查找大学学位信息时对信息源的选择。KS Kim[9]以225位大学生为研究对象,使学生对不同信息源按使用频率打分(从0到6),结果表明,大学生最常利用的信息源为网络搜索引擎,最少使用的是咨询图书馆员。

通过对用户信息源选择偏好的研究,可以看出不同类型的用户在查找信息时有着不同的偏好。本研究在用户选择数据源的过程中借鉴此理论,进行研究设计,并完成研究。

2 数据分析与结果讨论

本研究首先选取15位用户进行访谈,了解社科用户经常使用的数据源种类,其次,根据访谈结果设计问卷并发放。之后将问卷编码后录入电脑,采用SPPS 19软件做数据分析,主要利用的分析方法有列联表分析,单因素方差分析。

2.1 访谈结果整理

通过对访谈用户提到的数据源整理、归类,发现用户常用的数据源有纸质数据源、人际数据源和网络数据源。①纸质数据源。纸质数据源指一切纸质资料。主要分为年鉴、专著、工具书、文献、案例合同资料和未公开发行的资料。②人际数据源。人际数据源指通过人与人之间的交流获取数据的来源,主要分为:亲密关系者、研究领域专家、目标行业从业者、信息服务机构工作人员。③网络数据源。网络数据源指所有通过互联网获得数据的来源,主要有数据门户网站、政府/机构官网、搜索引擎、商业数据库、免费机构数据平台、国家统计数据库等。

2.2 问卷数据分析

2.2.1 信度、效度分析

信度指问卷的可信度,本研究采用阿尔法系数进行信度检验。利用SPSS工具计算本问卷量表部分的α值,得出结果均大于0.9,说明本问卷具有良好的信度。效度是指问卷的准确性,使用KMO值和Bartlett球度检验的结果来判断结构效度。本问卷KMO值均大于0.8,Bartlett球度检验值小于0.005,因此认为本问卷具有结构效度。

2.2.2 样本人口特征分析

本研究共回收有效问卷356份,来自100多个高校。剔除61位理工科用户,对295名社科用户做进一步分析。其中,男性占28.1%,女性占71.9%,女性多于男性,符合社科领域女性研究者较多的现状。本科生占29.5%,硕士生占46.1%,博士生占10.8%,教师占13.6%,博士生与教师样本量较少,符合高校总体人员分布。

2.2.3 数据源使用频率

用户通常使用的数据源为:纸质数据源、人际数据源、网络数据源,本研究将用户对数据源的使用频率分为“没用过-经常使用”五个程度;并对每个选项进行赋值,从一分到五分,逐渐增加。赋值后对三类数据源的使用频率分别求得均值,纸质、人际、网络数据源使用频率均值分别为2.83、2.46、4.46。

表1 数据源使用频率分布表

由表1可知,经常使用纸质数据源的用户有9.1%,人际数据源的为2.6%,网络数据源的为56.6%。由使用频率均值可知用户对于三种数据源的使用频率从高到低为网络数据源、纸质数据源、人际数据源。

用户使用最多的数据源为网络数据源,网络数据源的使用不受时间、地点的限制,具有极大的便利性。这也与目前用户的信息源选择偏好相符,现有研究表明用户在选择信息源时首先考虑可获取性,最便于获取的信息源最先被使用。[10]

纸质数据源的使用受限因素较多,高校用户使用的纸质书数据源大多为图书馆的馆藏资源,要利用馆藏就会受到图书馆物理距离和开馆时间的限制。此外,纸质数据源数据时效性差,对于查找到的数据需要耗费时间记录,不便于利用软件处理等原因,所以被使用的频率相对较低。

使用频率最低的为人际数据源。人际数据源是通过人与人之间的交流获得数据的一种数据源,人际数据源依赖于被咨询者的数据或数据源储备,质量由被咨询者直接决定。人际数据源的使用过程,不容易留下记录;交流的结果只有参与者知晓,难以产生中立的第三方去评价;此外并不是所有用户都善于交际,与用户的性格也有关,这些原因都可能导致人际数据源使用频率较低。

2.2.4 数据源使用频率与身份、专业相关性分析

表2 数据源使用频率与身份、专业方差分析表

为探求数据源使用频率与身份、专业之间有无关联性,对身份、专业分别与纸质、人际、网络数据源的使用频率做方差分析。由表2可知,各组方差在显著性水平为0.05时,具有方差齐性。①纸质数据源的使用频率与用户身份、专业有关联性。②人际数据源的使用频率与身份和专业均无关。③网络数据源的使用频率与用户专业具有关联性,与专业身份无关。

(1)不同身份用户的纸质数据源使用频率具有差异。由图1可知,对纸质数据源利用最多的用户为教师群体,其他三类用户无明显差异。相对而言,博士生对纸质数据源的利用较多,其次为硕士生,最少使用纸质数据源的为本科生。对纸质数据源利用较少的原因可能是其他数据源已满足需求,不需要利用纸质资料。

图1 不同身份用户纸质数据源使用频率差异分析图

(2)不同专业用户的纸质数据源使用频率具有差异。由图2可知,对纸质数据源的使用频率从高到低的专业依次为:法学、文学、教育学、管理学、经济学。对纸质数据源需求最高的为法学用户,这可能是因为法学用户常用的数据多以纸质形式出版等原因造成。对纸质数据源需求最低的为经济学用户,纸质数据源出版周期长导致数据时效性差、不便于利用软件建模分析等原因,难以满足经济学用户的需求。

图2 不同专业用户纸质数据源使用频率差异分析图

(3)不同专业用户的网络数据源使用频率具有差异。由图3可知,对网络数据源利用频率从高到低依次为:教育学、管理学、经济学、法学、文学。对网络数据源使用频率最高的为管理学、教育学,最低的为文学用户,同时,文学用户对纸质数据源的利用较多。整体而言,大多数用户较为偏好网络数据源。

图3 不同专业用户网络数据源使用频率差异分析图

2.3 数据源选择偏好调查

2.3.1 纸质数据源选择偏好

(1)纸质数据源选择。对纸质数据源进行归类,结果如表3所示。通过统计用户对纸质数据源的选择可知,用户最常使用的纸质数据源为专著数据源,其次为文献数据源;32.2%的用户会使用图书专著来获取数据;30.7%的用户会选择通过文献来获取数据。专著数据源与文献数据源具有一定的相似性,即均为被深度加工、处理过的数据。24.9%的用户会通过年鉴查找数据,年鉴中有大量的统计调查数据的原始记录,数据可信度高,数据量大;12.1%的用户会通过其他纸质数据源获取数据,这类数据源的获得具有一定的难度,需要一定的条件才能获得所需数据。(2)纸质数据源偏好与身份、专业相关性分析。为探究不同用户对纸质数据源选择的偏好,对用户的选择分别与身份、专业做卡方检验,得到Pearson卡方值如表4所示。可知:专著数据源的选择与身份和专业无关联性;工具数据源的选择与身份、专业均具有关联性;文献数据源的选择与身份、专业均具有关联性;其他纸质数据源的选择与身份无关,与专业具有关联性。

表3 纸质数据源分类表

表4 纸质数据源偏好与身份、专业卡方检验结果表

①工具数据源选择与身份列联表分析。由分析结果可知,在身份分组中,硕士用户更偏好于使用工具数据源,其次是博士、本科生,最后是教师用户。69.5%的硕士用户都会通过工具源来查找数据。工具源中利用较多的为年鉴数据源。

②工具数据源选择与专业列联表分析。由分析结果可知,在专业分组中,经济学用户更偏好于使用工具数据源,其次为管理学、法学、教育学,最后为文学用户。有85.2%的经济学用户会选择从工具源中查找数据,这可能是因为工具数据源数据量大,且数据较系统、全面,比较适合经济学的科研任务与研究方式。

③文献数据源选择与身份列联表分析。由分析结果可知,对文献数据源利用最多的为教师,其次为博士生、硕士生,利用最少的为本科生。

④文献数据源选择与专业列联表分析。由分析结果可知,教育学、法学、文学用户对文献数据源的利用较高,管理学、经济学用户对文献数据源利用较少。

⑤其他纸质数据源选择与专业列联表分析。由分析结果可知,最偏好于使用其他纸质数据源的专业为经济学用户,其次为管理学、法学、文学,最后为教育学用户。

2.3.2 人际数据源选择偏好

(1)人际数据源选择。通过统计用户对人际数据源的选择可知,用户最偏好使用的人际数据源为研究领域专家,其次为亲密关系者、目标行业从业者,最后为数据咨询机构工作人员。43.4%的用户表示,会通过研究领域专家获取数据;25.4%的用户表示,会通过询问亲密关系者获得数据;16.4%的用户表示会通过咨询目标行业从业者来获取数据;14.8%的用户会选择咨询数据咨询机构工作人员,该方式通常比较高效,但费用较高。但是也有用户表示,如果能提供我需要的,高质量的数据,花钱也可以(访谈用户S5)。

(2)人际数据源选择与身份、专业相关性分析。为探究不同用户对人际数据源选择的偏好性,对用户的选择分别与身份、专业做卡方分析,得到卡方值如表5所示。可知:是否选择咨询亲密关系者或研究领域专家与用户身份和专业无关;是否通过咨询目标行业从业者获得数据,与用户身份无关,与专业有关;是否通过数据咨询机构获取数据与身份无关,与专业具有关联性。

表5 人际数据源与身份、专业卡方检验结果表

①目标行业从业者选择与专业列联表分析。由分析结果可知,最偏好于通过咨询目标行业从业者获得数据的专业为经济学用户,其次为管理学、文学、教育学,最后为法学用户。有48.15%的经济学用户表示会通过咨询数据所属行业的工作人员获得数据。

②数据咨询机构工作人员选择与专业列联表分析。由分析结果可知,最偏好于通过数据咨询机构获得数据的专业为经济学用户,其次为管理学、教育学、文学,最后为法学用户。数据咨询机构是指有偿根据用户的需求,定制搜索策略,进行数据搜集的机构。有44.4%的经济学用户表示,会通过数据咨询机构来获取数据,说明经济学用户在查找数据时更愿意付出经济成本,也反映出数据对于经济学研究的重要性。

2.3.3 网络数据源选择偏好

(1)网络数据源选择。将问卷中的10类网络数据源归为5种,如表6所示。通过统计用户对网络数据源的选择可知,用户利用最多的网络数据源为综合性数据源,有25.6%的用户选择此类数据源查找数据,这类数据网站的特点是数据都是由个人负责的,拥有的数据内容多且杂,这类数据源通常较易于检索,大多数人会采用搜索引擎来利用此类数据源;其次,有22%的用户选择利用电子文献数据源,这点同纸质文献数据源偏好一样;再次,有20.4%的用户会选择国家数据网,包括政府/机构网、国家统计数据库,这类数据源的特点是,数据均是由国家部门统计发布的,数据质量由国家政府部门决定,大多为统计数据,数据量较大、具有权威性。此外,有19.6%的用户会选择数值数据库,包括商业数据库、免费机构数据库,其特点是,数据库内的数据集是由专门机构收集整理的,在数据库平台上进行发布,这类数据通常数据质量较高;最后,有12.5%的用户会选择调查数据共享平台,包括社科项目数据平台和社科数据共享平台,主要包括社会调查类数据,数据具有一定的深度,但是还属于建设初期,数据量和知名度都比较低,所以用户较少。

表6 网络数据源分类表

(2)网络数据源选择与身份、专业相关性分析。为探究不同用户网络数据源选择的偏好性,对用户的选择分别与身份、专业做卡方分析,得到卡方值如表7所示。可知:用户对综合性数据源、电子文献数据的使用与身份和专业均无关;用户对数值型数据库的选择与身份无关,与专业有关;用户对国家/机构数据网的选择与身份、专业有关;用户对数据共享平台的选择与用户身份有关,与专业无关。

表7 网络数据源选择与身份、专业卡方检验结果表

①数值数据库选择与专业列联表分析。数值型数据库是图书馆重要的数据馆藏资源,由分析结果可知,有79.6%的经济学用户及71.2%的管理学用户表示较常使用数值数据库查找数据,其次为文学、法学,最后为教育学用户。②国家数据网选择与身份列联表分析。由分析结果可知,相比于其他用户,硕士生更偏好于使用国家数据网,有77.1%的硕士生会选择通过国家政府网、统计网查找数据;其次是本科生,为61.3%;再次为教师59.5%;最后为博士生,为54.8%。③国家数据网选择与专业列联表分析。由分析结果可知,最偏好于使用国家数据网的专业用户为经济学用户,其次为管理学、法学、教育学,最后为文学用户。这与不同专业的用户研究任务、查找习惯有关,国家数据网大多为一些统计类数据,与经济学、管理学类专业研究任务较相符,因此有较多用户使用。④数据共享平台选择与身份列联表分析。由分析结果可知,对数据共享平台的利用从高到低依次为教师、博士生、硕士生、本科生。有59.5%的教师,58.1%的博士用户表示会通过数据共享平台查找数据。随着研究水平的增高,科研经验的增多,对数据共享平台的偏好程度增加。一方面是因为数据共享平台还处在建设初期,其知名度有限,只有科研经验较丰富的用户才知晓并选择使用。

3 高校图书馆开展数据服务的建议

3.1 数据开发服务

数据开发服务是指图书馆主动开发图书馆藏文献及所属机构科研数据进行发现、组织、并上传至自建的数据共享平台。通过对专著、文献等数据源中的数据进行开发,可以极大的满足用户查找数据的需求,降低数据查找困难度。

社会科学研究者在科学研究过程中会收集、生产大量数据,可以对社会调查过程中的数据进行开发,形成专门的数据集。一项社会调查往往要花费大量人力、物力、财力,如果只发挥一次作用,便是对资源的浪费。通过图书馆数据开发服务,使调查数据独立于文献存储,可提高检索效率,使更多的研究者利用,更大的发挥调查的价值。通过数据开发,可以丰富图书馆的数据馆藏,提高科学研究的利用价值,节省用户查找数据的时间。

3.2 数据源导航及数据检索服务

网络数据源是用户较为偏好的数据源,具有数据量大、覆盖面广的特点,但是如何在海量的数据源中选择出高质量的数据源又给用户带来了困难。为了解决用户在网络数据源选择、筛选等方面的困难,图书馆可建构数据源导航,数据馆员利用其专业知识对大量的数据源进行筛选,在数据导航网页中列出优质的数据源,并对其内容及数据获取方法进行介绍,分类呈现。国外很多大学图书馆都将数据产品作为馆藏建设的一部分,如,哈佛大学图书馆[10]、麻省理工大学图书馆[11]主页中均有“How to find data”的指引,并将数据源按照专业进行分类组织,提供检索栏,便于用户查找数据。访谈用户及问卷的开放性问题中,也有用户提到,最理想的数据查找方式就是有一个汇集了很多数据、数据源的导航网站,可以简单高效的检索。

通过资源发现系统用户可轻松地在图书馆主页发现自己所需的文献资源。数值型数据库也是图书馆数字馆藏的重要构成,却不能被直接检索,这将降低图书馆资源发现系统的全面性,也给用户查找数据资源带来难度。因此,应当将数值型数据库或其他数据源接入资源发现系统,可以提高数据查找的效率,满足数据需求。如,耶鲁大学图书馆[12]主页的检索系统在资源类型中就包括“数据”这一选项,给用户检索数据带来便利性。

猜你喜欢
信息源数据源人际
睡眠者效应
微信聊天自我表扬的人际和谐管理研究
人际自立特质、人际信任与合作行为关系研究
新媒体时代,记者如何正确使用信息源
搞好人际『弱』关系
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法
英文歌曲Enchanted歌词的人际功能探讨
美国智库对华军事研究的信息源分析——以兰德公司2000~2013年报告的引文分析为例