导航菜单
首页 > 管理学论文 > 情报论文 » 正文

互动视角下网络百科知识协同模型构建与实证研究

刘丰军 林晓峰 林正奎 曲毅




收稿日期:2020-05-14

基金项目:中国博士后科学基金面上项目“早高峰‘双瓶颈拥挤模式下的错峰调控与拥挤定价研究”(项目编号:2019M651099);山东省自然科学基金项目“基于概率型语言评价信息的多属性决策理论与方法研究”(项目编号:ZR2017BG014);山东工商学院博士启动基金项目“概率型语言信息集成理论及其在决策中的应用”(项目编号:B5201705)。

作者简介:刘丰军(1986-),男,博士研究生,研究方向:信息行为。林晓峰(1995-),男,硕士研究生,研究方向:信息处理与数据挖掘。曲毅(1986-),男,博士后,研究方向:知识管理与智能信息处理。

通讯作者:林正奎(1971-),男,教授,博士,博士生导师,研究方向:知识管理、自然语言处理与人工智能

摘  要:[目的/意义]从互动视角分析网络百科知识协同核心因素间的互动关系,揭示网络百科知识协同机理。[方法/过程]基于协同进化理论分析了网络百科知识协同基本过程,提取知识协同的核心因素并构建了网络百科知识协同模型。以百度百科词条名侦探柯南为例,选取2007—2017年月度时间序列数据,采用向量误差修正模型、格兰杰因果检验和脉冲响应函数,对群体规模、认知冲突和内容质量间的互动关系进行了实证分析。此外,通过预测分析验证模型的合理性和向量误差修正模型的适用性。[结果/结论]研究结果表明群体规模、认知冲突和内容质量间存在显著的互动关系。具体而言,认知冲突和群体规模存在正向互动关系;认知冲突和内容质量同样存在正向互动关系。

关键词:网络百科;知识协同;协同进化理论;向量误差修正模型

DOI:10.3969/j.issn.1008-0821.2020.12.007

〔中图分类号〕G203  〔文献标识码〕A  〔文章编号〕1008-0821(2020)12-0064-10

Model Construction and Empirical Study of Knowledge Collaboration in

Online Encyclopedias from the Perspective of Interaction

Liu Fengjun  Lin Xiaofeng  Lin Zhengkui*  Qu Yi

(School of Shipping Economy and Management,Dalian Maritime University,Dalian 116026,China)

Abstract:[Purpose/Significance]From the perspective of interaction,this paper analyzes the dynamic interrelations among core factors of knowledge collaboration in online encyclopedias,and reveals the collaborative mechanism of knowledge construction.[Method/Process]This paper analysed the basic process of knowledge collaboration in online encyclopedias based on co-evolution theory and proposed a knowledge collaboration model of online encyclopedias through the analysis of collaborative relationship among core factors.Taking Detective Conan as an example,this paper selected monthly time series data from 2007 to 2017,and uses vector error correction model,Granger causality test and impulse response function to analyze the dynamic interrelations among group size,cognitive conflict and content quality.[Result/Conclusion]The research results showed that there were significant dynamic interrelations among group size,cognitive conflict and content quality.Specifically,there was positive interaction between cognitive conflict and group size,as well as cognitive conflict and information quality.

Key words:online encyclopedia;knowledge collaboration;co-evolution theory;vector error correction model

隨着信息技术的快速发展和互联网的日益普及,用户已经由单纯的内容消费者转变为内容的主要生产者,知识生产模式发生了巨大变革。网络百科是集“知识共享”与“网上社交”功能于一身的“知识社区”,基于网络开放共享平台,汇聚群体智慧协同创造知识,开启了知识生产的新时代。网络百科突破传统知识社区僵化的组织模式,奉行以用户为中心的理念,倡导“人人参与”的用户生成内容(UGC)协同模式,颠覆了传统百科全书学院精英式(PGC)编纂模式,获得了巨大成功[1]。

网络百科的成功引起了学术界的高度关注,已经成为信息科学领域的研究热点。目前国内外学者主要从用户、内容和社区3个层面围绕用户参与动因、内容质量评价、因素影响关系、知识协同模式等主题进行研究,探究网络百科成功背后的原因和机理[2-3]。其中,对于网络百科知识协同因素关系的研究,主要从静态视角采用横向研究方法围绕百科词条内容质量开展研究[4]。例如,Arazy O等[5]针对Wikipedia采用PLS路径模型探究了群体结构和冲突(纯冲突、任务—情感冲突、任务—过程冲突)对词条内容质量的影响关系。Kane G C等[6]通过贝叶斯有序Logistic回归实证分析了贡献者数量、网络质量加权度中心性和网络特征向量中心性对Wikipedia词条内容质量的影响。张薇薇等[7]基于在线社区用户身份交流理论和内容质量感知的双过程理论,采用单因素方差分析探究了在线百科知识贡献者身份对内容质量作用机理与影响关系。Matei S A等[8]以Wikipedia和Stack Overflow为例,通过线性回归实证研究了贡献不平等和精英用户粘性与内容质量间的关系。不可否认,现有研究增进了对网络百科知识协同因素间影响机制的认知和理解。但还存在一些不足:首先,在研究视角上。网络百科作为复杂系统具有明显的动态特性,因素间更多表现为复杂的动态关系。目前大多数研究采用静态视角,忽视了网络百科动态演化的特点,无法客观真实反映因素间动态关系。其次,在研究方法上。网络百科属于典型的自组织系统,系统存在反馈机制,因素间更多表现为相互作用(双向影响)关系。然而,现有研究普遍采用回归分析、结构方程等传统的实证研究方法,仅考虑了因素间的单向影响关系,无法对因素间双向影响关系进行分析。

本研究基于协同进化理论,以群体规模、认知冲突和内容质量为核心因素,构建网络百科知识协同模型。然后,以百度百科词条“名侦探柯南”为例,综合运用误差向量自回归模型、格兰杰因果检验、脉冲响应函数一套系统的计量方法实证分析因素间互动关系,深入揭示网络百科知识协同机理。本研究不仅在理论上丰富了网络百科在知识协同方面的理论成果,在研究方法上还为该领域研究提供了新的思路。

1  模型构建

1.1  网络百科知识协同过程分析

协同进化(Coevolution)概念源于生物学,最早是由Ehrlich和Raven在论文《蝴蝶与植物:关于协同进化的研究》中提出的,意指两个以上的物种在一定程度上相互影响并协同进化的现象[9]。此后,协同进化概念在生物学领域获得了长足发展,到20世纪80年代已经发展成为生物学的一个重要分支。与此同时,协同进化理论也迅速扩展到其他学科领域,如社会经济学、遗传学、语言学、地理学等,逐步成为揭示系统复杂现象的科学研究方法。

网络百科知识协同过程中包含外化建构和内化建构两个并行过程:一方面,个体通过自身的认知对词条内容进行编辑,每一次编辑都会形成一个历史版本,经过大量个体的协同编辑,实现词条内容的动态演化;另一方面,个体在知识编辑的过程中,伴随着知识的学习,不断完善和丰富自己的认知,实现个体认知系统的发展。由此可见,知识协同本质上是认知系统(参与个体)和知识系统(百科词条)通过认知交互,实现双向知识建构的动态演进过程,如图1所示。这个过程类似于一种进化,与协同进化理论的思想相切合。具体而言,个体认知结构和百科词条内容存在认知冲突时,认知平衡被打破,个体通过内部同化(在原有的认知结构中添加新的信息,定量知识学习)或内部顺化(改变原有的认知结构,定性知识学习)对原有认知结构进行调整或改变,重新恢复认知平衡,实现个体知识学习。同时,个体通过外部同化(对词条内容进行扩充,定量知识建构)或外部顺化(对词条内容进行重新组织,定性知识建构)对词条内容进行编辑,实现百科词条建构[10-11]。

1.2  网络百科知识协同模型构建

基于上述网络百科知识协同过程分析可以发现,认知冲突是认知系统和知识系统协同演化的内驱力。认知系统的演化主要体现了个体参与者数量(即群体规模)动态变化。大量认知独立的个体通过网络百科平台汇聚到一起,在认知冲突的驱动下进行创造性思维,为百科词条的构建提供丰富的认知资源。因此,群体规模是群体知识协作的重要基础和根本保障,是形成群体智慧的核心因素。知识系统的演化集中体现了百科词条内容质量的动态变化。个体在认知冲突的驱动下参与百科词条构建,实现内容不断更新和质量的不断提升。因此,内容质量是群體知识协作的结果和目的,是衡量群体绩效的核心指标。目前,学者们针对群体规模、认知冲突和内容质量三者间的关系进行了大量的实证研究,其代表性文献如表1所示。

由表1可见,现有研究未能将群体规模、认知冲突和内容质量3种因素纳入一个统一的研究框架,割裂了因素间固有的内在联系,无法系统全面地反映因素间的关系。其次,网络百科作为一个典型的复杂系统,系统因素间存在反馈机制,因素间不是简单的单向静态关系,更多表现为复杂的双向动态关系,即互动关系。遗憾的是,绝大多数研究只考虑了因素间单向静态关系。鉴于此,本研究借鉴Etzkowitz H等[22]提出了三螺旋模型构建网络百科知识协同模型,如图2所示。该模型包含了群体规模、认知冲突和内容质量3种因素,并考虑因素间的互动关系。

2  研究方法与数据获取

2.1  向量误差修正模型

向量自回归(VAR)模型仅适用于分析长期影响,而大多情形下变量之间既存在长期影响也存在短期波动。为此,Engel和Grangre在VAR模型的基础上引入协整理论,建立了向量误差修正(VEC)模型,并将其应用于具有协整关系的非平稳时间序列的建模分析中[23,24]。VEC模型形式如下:

ΔYt=αecmt-1+∑p-1i=1ΓiΔYt-i+εt(1)

其中,ecmt-1=β′Yt-1是误差修正项,反映变量之间的长期均衡关系,系数向量α反映了变量间均衡关系偏离长期均衡状态时,将其调整到均衡状态的调整速度。所有作为解释变量的差分项的系数反映了各变量的短期波动对作为解释变量的短期变化的影响。

2.2  样本选择

百度百科是由百度公司于2006年4月推出的一部内容开放、自由的网络百科全书平台。目前,百度百科拥有超过1 700万个词条和700万用户,总编辑次数超过1.6亿次,日均访问量近4亿,已经成为全球最大中文百科全书。此外,百度百科记录了词条演化和用户活动的历史数据,为学术研究提供了良好的数据支持。因此,本文选择百度百科作为研究对象。

本文选择百度百科词条——《名侦探柯南》作为研究样本,主要有以下几个方面原因:首先,该词条极具典型性和代表性。“名侦探柯南”属于特色词条,特色词条是百度百科词条的典范之作,是高质量词条的一种荣誉称号。其次,该词条是目前用户参与度最高的词条。该词条从2006年至今共吸引用户近2 500个,编辑次数高达5 800多次,是已知编辑次数最多的词条。此外,该词条关注度极高。“名侦探柯南”属于漫画周刊,从1994年开始连载至今,赢得了极高的关注度,词条浏览次数超过4 200万。总之,“名侦探柯南”作为百度百科最具代表性、最受关注的词条之一,是理想的研究样本。

2.3  变量测度

群体规模(SIZE)。目前,学者对群体规模的测度方法较为一致,主要通过计算词条参与人数来度量[6]。据此,本文通过计算词条参与者数量测度群体规模。

认知冲突(CONF)。传统组织研究将冲突划分为任务冲突、情感冲突、过程冲突等类型。在网络百科中,单个冲突事件通常包含多种类型的冲突,而不同类型冲突间的界限较为模糊。鉴于此,本研究对冲突不做严格区分,统称为认知冲突。为了更加全面准确地识别冲突,本文借鉴Kittur A等[25]的研究方法,综合用户标签法(关键词抽取)和信息摘要算法(MD5)共同测度认知冲突。

内容质量(QUAL)。目前内容质量的测度指标主要基于词条内容要素,如词条编辑次数、词条年龄、词条长度、链接数量、参考文献数量等[26]。在这些测度指标中词条编辑次数是一个较为理想的指标,被广泛应用于内容质量的测度中。本文借鉴Ren Y等[4]的方法通过计算词条编輯次数衡量内容质量。

基于以上方法,本研究获取了2007年1月至2017年8月“名侦探柯南”在群体规模、认知冲突和内容质量3个变量的月度时间序列。此外,为了评估模型的预测性能,截取了后面6个月的数据用于样本外预测。

3  实证分析

3.1  单位根检验

为避免伪回归,需要对模型中各变量序列的平稳性进行检验。本文采用Eviews 10.0软件通过ADF单位根检验对变量平稳性进行了检测,结果如表2所示。可以看出,变量LNSIZE、LNCONF和LNQUAL在5%的显著性水平下的ADF统计值均大于其相应的临界值,表明3个变量原序列都是非平稳的,而其相应的一阶差分序列在1%的显著性水平下的ADF统计值均小于其相应的临界值,表明3个变量的差分序列是平稳的,即这些变量是一阶单整的。

注:检验形式中的C、T和K分别表示常数项、趋势项和滞后阶数;滞后阶数K的选择标准是以AIC和SC值最小为准则;为消除时间序列异方差,对变量进行自然对数变换,记为:LNSIZE、LNCONF和LNQUAL,D代表变量序列的一阶差分;***、**分别代表显著水平为1%和5%的临界值。

收藏此文 赞一个 ( ) 打赏本站

如果本文对您有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码