导航菜单
首页 > 管理学论文 > 情报论文 » 正文

基于年度高频关键词的研究热点提取与可视化研究

高劲松 黄梅 付家炜




收稿日期:2020-06-03

基金項目:中央高校基本科研业务费自由探索项目“面向用户的文物信息资源知识服务研究”(项目编号:CCNU20A06025);华中师范大学信息管理学院研究生自主科研项目“电子商务相似用户评论推荐研究”。

作者简介:高劲松(1966-),女,教授,博士生导师,研究方向:情报学、图书馆学。黄梅(1992-),女,硕士研究生,研究方向:可视化。付家炜(1994-),男,博士研究生,研究方向:知识管理与知识服务。

摘  要:[目的/意义]能以简洁的可视化来追踪某学科研究热点随时间的变化趋势,对于掌握学科研究热点的动向具有重要意义。词频分析法是学科研究热点分析方法之一,目前存在众多的基于词频分析的可视化工具,但是这些可视化工具能够以简洁的可视化形式清晰地展现年度热点关键词存在局限性。[方法/过程]因此本文提出通过学科领域年度发文量与学科全部发文量的比值来衡量年度热点关键词对总年度热点关键词贡献率的可视化方法:基于年度贡献率与二八定律设定并调整阈值参数来控制年度高频关键词的呈现数量,将选取的年度高频关键词按照词频大小与年份依次排序以实现研究热点可视化。[结果/结论]以“关联数据”领域为例进行实证研究,通过分析本文方法提取的高频关键词与现有高频词阈值算法的匹配情况,对比本文方法与Citespace共现图谱的可视化呈现效果,对本文方法的可行性进行检验与评价。

关键词:可视化;高频关键词;词频分析;研究热点;趋势分析

DOI:10.3969/j.issn.1008-0821.2020.12.013

〔中图分类号〕G250.252  〔文献标识码〕A  〔文章编号〕1008-0821(2020)12-0130-10

Research on Hot Spot Extraction and Visualization

Based on Annual High-frequency Keywords

Gao Jinsong  Huang Mei  Fu Jiawei

(School of Information Management,Central China Normal University,Wuhan 430079,China)

Abstract:[Purpose/Significance]It is of great significance to follow the trend of research hotspots in a subject with simple visualization in order to grasp the trend of research hotspots in a subject.Word frequency analysis is one of the hotspot analysis methods of subject research.Currently,there are many visualization tools based on word frequency analysis,but there are limitations that these visualization tools can clearly display the annual hot keywords in a concise visual form.[Method/Process]Therefore,this paper proposed a visualization method to measure the contribution rate of annual hot keywords to the total annual hot keywords by the ratio of the annual amount of articles in the subject area to the total amount of articles in the subject:based on the annual contribution rate and the 80/20 law,the threshold parameters were set and adjusted to control the number of annual high-frequency keywords presented,and the selected annual high-frequency keywords were sorted in order of word frequency and year to achieve visualization of research hotspots.[Result/Conclusion]Taking the field of“linked data”as an example to conduct empirical research,by analyzing the matching of the extracted high-frequency keywords with the existing high-frequency keyword extraction methods and comparing the visualization method presented in this paper with Citespaces co-occurrence knowledge map,Test and evaluate the feasibility of this method was.

Key words:visualization;high frequency keywords;word frequency analysis;research hotspots;trend analysis

信息可视化通过可视化图形的表现形式揭示数据中隐含的信息和规律以增强人的认知能力[1]。随着各个学科研究的不断深入,科技研究文献不断增多,在浩如烟海的科技文献资源中用可视化的形式展现研究热点与发展趋势,为科研人员进行研究决策提供了便利。文献关键词是文献核心内容的高度概括,浓缩并提炼了文献的主题、内容与研究方法。研究人员的研究多数需要参考前人的研究成果,通常某学科关键词在短时间内不会凭空产生与消失,而是处于动态变化的过程,词频的波动与社会现象和情报现象之间存在着内在的联系,一定的社会现象和情报现象要引起一定的词频波动现象[2-3]。如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表现的研究主题是该领域的研究热点[4]。通过统计关键词、主题词、篇名词等核心词汇在某一类学术文献中所出现的频次,可以判别该学术领域的研究热点、知识结构和发展趋势[5]。因此一般认为,某时段学术论文的高频关键词即是该时段的研究热点[6,13]。

目前已经有很多可视化工具以关键词为基础来分析学科领域研究热点与发展趋势,如Citespace、Ucinet、SciMAT、NEViewer等,对学科领域研究热点与发展趋势分析有重要的帮助,并取得了优秀成果。虽然这些工具在文献计量学的词频分析与可视化方面较为完善,但是仍然存在可视化呈现的不足之处,如可视化显示信息过多且复杂,用户感知存在困难等。

因此本文用每年发文量与全部发文量比值来权衡年度高频关键词对研究热点的贡献,统计年度文献的关键词词频并排序,然后截取一定量的高频关键词,按照频次的高低依次从上往下排序并嵌入时间进行可视化呈现来分析学科研究热点与发展趋势。

1  相关研究

1.1  词频分析

词频分析法是利用能够解释或表达文献核心内容的关键词或主题词,在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[4]。词频分析法是情报分析方法之一,已经在文献计量学相关研究上得到了广泛的应用。傅柱等[7]使用词频分析法分析国内外知识研究热点。欧阳博等[8]使用关键词词频分析综述国外信息系统持续使用模型应用现状。邱均平等[9]与巩永强等[10]尝试使用词频率,即年度关键词词频与年度总文献数量之比来分析热点关键词的变化趋势。奉国和等[11]对关键词赋予时间权值来研究学科热点关键词与变化趨势。

基于词频分析法衍生出来的共词分析、聚类分析等研究热点的方法受到了众多学者的关注。共现分析的研究主要包括:陈勇跃等[12]划分各时间段分别提取临床医学高频关键词,使用Ucinet 6.0工具分别对各时间段进行共现网络可视化追踪临床医学研究热点与趋势的变化;卢新元等[13]使用Citespace将国内知识转移的高频关键词进行共现网络图与时区网络图来分析研究热点;刘自强等[14]基于关键词的时间标签分层构建共词网络图谱,实现时序共词网络的动态可视化,并以国内图情领域“数据挖掘”为例进行实证研究。聚类分析的研究主要包括:高劲松等[15]使用SPSS对高频关键词进行聚类来分析国内外关联数据的研究主题;刘自强等[2]通过关键词群总频次与年度发文量的比重情况构建时间序列,然后以可视化形式追踪关键词群的发展趋势,并以“竞争情报”领域为例进行实证研究;施萧萧等[16]使用SPSS、Ucinet工具分别进行共现与主题聚类来分析国外颠覆性创新研究热点。

近年来,多数学者集中于对高频关键词的共现网络与主题聚类的相关研究,而对单个关键词的变化趋势与可视化的相关研究相对较少。聚类分析是在高频关键词共现关系的基础上进行的聚类,关键词共现关系体现了研究内容的耦合,即两两关键词同时出现在同一篇文献,各种聚类算法在不同程度上存在一定的不足导致聚类结果存在偏差、信息过度拟合等问题,而研究学科领域的研究热点与变化趋势仅以研究热点的共现与主题分析有些不合理,单个关键词的变化也应当被考虑,从而更加充分地分析学科研究热点与变化趋势。

1.2  文本可视化

文本可视化旨在将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,通过与视觉信息的交互,使人们能够快速地获取文本可视图中所隐含的关键信息[17]。现有的文本词频可视化技术已经相当成熟,其中以标签云为代表的词频可视化已经得到了较好的应用。标签云[18]图采用TF-IDF来计算词频的重要性,文字的大小表示词语的重要性,然后按照一定的规律排列,如关键词的频度递减来进行布局。另一种常用的文本可视化即树图(TreeMap)[19],使用嵌套的长方形来表示不同层次,以长方形的方向表示不同层次的变换,并以长方形的大小来表示节点的重要性,例如在Web of Science数据库中对选中的文献采用了TreeMap可视化展现的形式。

为了体现文本的变化趋势,有学者结合时间与词频可视化方式来呈现热点词随时间变化的情况。将标签云与时间相结合形成可视化的主要有:Text Flow标签云时间轴模型图、主题河流图、SparkClouds图等[17,20]。Text Flow标签云时间轴模型图与主题河流图[21]是将主题标签云与时间模型相结合,是文本流系统(Text Flow)中的其中两种词频可视化形式。SparkClouds图[22]即在标签云的每个词语下方引入折线图以表示每个词语随着时间的使用频度而变化。

综上所述,词频分析法在研究热点与发展趋势方面的应用非常普遍,但是词频演变可视化的相关研究相对较少。为了弥补基于高频关键词分析研究热点与趋势变化可视化的不足,本文将时间年度与现有词频文本可视化方式相结合来探讨热点关键词的发展态势,期望能够丰富基于时间的词频可视化呈现形式,为研究学科热点与趋势提供一定的参考。

2  基于年度高频关键词的研究热点提取与可视化方法

本文结合时间年度与词频可视化来追踪学科领域研究热点关键词的变化,采用研究热点关键词所在时间节点的词频高低与位次来展现学科领域的研究热点的发展动态。文本词频可视化一般经过信息收集、数据预处理、知识表示、视觉呈现、用户与信息图的交互等过程[17,23]。本文提出的年度高频关键词可视化方法也遵循这样的过程,其主要包括3个部分:高频关键词提取、可视化呈现、可视化分析。本文提出的可视化方法过程如图1所示。

2.1  高频关键词提取

学科领域文献的关键词频次越高则说明学者对该关键词研究方向关注度就越高,通过获得高频关键词的发展趋势可以掌握学科领域文献研究热点的变化。界定高频关键词的数量来判断研究热点的方法有很多,如自定义选取、齐普夫第二定律、普赖斯公式等,自定义选取的方法虽然存在主观性,但是使用较多,而齐普夫第二定律与普赖斯公式较为客观,但是也存在不适用的情况[24]。有学者发现关键词每年的累积频次都达到或超过当年关键词总频次的20%,符合集中分散的二八定律[25]。杨爱青等[26]尝试使用g指数来截取研究热点高频关键词的数量并用二八定律与齐普夫第二定律对截取的高频关键词进行验证。刘奕杉等[24]通过对个人知识管理领域的研究热点高频关键词阀值选取进行实证分析发现,二八定律相对于其他方法截取高频关键词更合适。多数研究者采用传统热点关键词界定的方式提取总文献高频关键词进行热点研究,而关键词具有继承性,传统研究热点界定方式很少考虑每年文献数量对热点关键词的影响。在不同年份学科领域的文献数量存在变动的情况下,随着文献数量的变动,高频关键词的频次会发生相应的改变,高频关键词的数量也会有所不同。通过收集与归纳文献的关键词发现:一般情况下,学科领域在年度发文数量与对应的年度高频关键词数量存在正向关系。因此本文将时间年度与研究热点相结合,将每年文献数量与总文献数量比值作为每年高频关键词对研究热点的贡献值,但是可视化关键词数量有限,还需要设定参数阈值α使其能够按照年度贡献值的比例来计算年度高频关键词的选取数量,在此基础上根据总年度高频关键词的二八定律来调整阈值α的取值,使得提取的所有年度高频关键词能与总年度高频关键词词频总和占全部关键词的词频总和约为20%的高频关键词匹配。年度高频关键词的热点关键词数量选取表达式为:

x=αniN(100≤α≤N)

其中,ni表示收集文献第i年度的发文数量,N表示收集文献的总数量,α为参数,x为第i年可视化关键词个数。

2.2  可视化呈现

人类从外界获得的信息大约有80%以上来自于视觉系统[27-28]。在大数据环境下,可视化表达对情报产品的数据表达的便利性、易读性、生动性和可传播性方面具有很大的应用潜力[29]。在浩如烟海的文献资料中,一张图胜千言、一张图读懂系列等可视化案例对于科学人员对学科领域追踪研究热点与发展趋势具有重要作用。文本可视化呈现重要的任务就是将处理过后的文本数据采用合适的视觉编码来呈现文本信息的特征,文本内容的视觉编码主要包括尺寸、颜色、形状、方位等[17]。在文本可视化中词语的频度通常用字体大小来表示,不同的文本使用不同的颜色加以区分。本文在提取年度高频关键词并按照频次大小依次排序,然后分别根据每年高频关键词的贡献值选取适合的α参数阈值并计算呈现的关键词数量,将选取的年度高频关键词按照词频大小与对应字体大小进行展现,频次越高则对应的字体就越大,相同的关键词采用相同的颜色,不同关键词使用不同的顏色加以区分,最后在时间轴上分别将年度高频关键词按照词频大小依次进行排列展现。

收藏此文 赞一个 ( ) 打赏本站

如果本文对您有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码