导航菜单
首页 > 历史学论文 > 历史论文 » 正文

“数字敦煌”资源库架构设计与实现

俞天秀 吴健 赵良 丁晓宏 叶青




内容摘要:本文综合考虑满足高性能、高可用、可扩展和安全等需求,设计了从底层平台硬件至上层用户功能的分层架构,采用了动态资源与静态资源分离、应用服务器与数据库分离、负载均衡和数据库主从复制、缓存、应用拆分和压缩等技术,实现了“数字敦煌”资源库的系统功能,并优化和提高了性能;开发了高精度图像快速浏览、洞窟空间结构构建、元数据存储与检索等主要功能,最终“数字敦煌”资源库通过互联网和移动互联网展示,达到全球共享的目的。

关键词:数字敦煌;资源库;系统架构;网络拓扑

中图分类号:K854.3  文献标识码:A  文章编号:1000-4106(2020)02-0120-11

The Design and Implementation of the Framework for

the Database of“Digital Dunhuang”

YU Tianxiu1,2,3,4,5 WU Jian1,2,3,4 ZHAO Liang1,2,3,4 DING Xiaohong1,2,3,4 YE Qing6

(1. Cultural Heritage Digitization Institute, Dunhuang Academy, Dunhuang, Gansu 736200; 2. National Research Center for Conservation of Ancient Wall Paintings and Earthen Sites, Dunhuang, Gansu 736200;

3. Key Scientific Research Base for Conservation of Ancient Wall Paintings of SACH, Dunhuang,

Gansu 736200; 4. Key Laboratory for Conservation of Ancient Wall Paintings and Earthen Sites,

Gansu Province, Dunhuang, Gansu 736200; 5. College of Intelligence and Computing, Tianjian University,

Tianjin 300072; 6. Gansu Win Think Network Technology Co., Ltd. Lanzhou, Gansu 730000)

Abstract: This paper briefly introduces the Digital Dunhuang project, summarizes the present condition of domestic and overseas databases containing material about Dunhuang, and analyzes the characteristics and difficulties of constructing such a data bank. Considering the overall requirements of high performance, high availability, expandability, and security, a layered architecture beginning from the underlying hardware platform to the upper level of user function has been designed. The initial level of construction has realized the primary system functions of a Digital Dunhuang database and even optimized and improved several aspects of data storage and operation with methods such as the separation of dynamic and static resources, separation of application server and database, load balancing, a master-replica and cache of databases, application multifunctioning, and data compression. Many functions like the quick browsing of high resolution images, analysis of the spatial structure and construction of caves, metadata storage, and quick retrieval of information have all been developed with the goal of sharing the Digital Dunhuang database for both online and mobile use.

Keywords: Digital Dunhuang; database; system architecture; network topology

(Translated by WANG Pingxian)

一 “數字敦煌”项目概况

为了敦煌石窟的永久保存、永续利用,敦煌研究院20世纪90年代初开始数字化探索[1]。近30年组织实施的“数字敦煌”项目,包括敦煌石窟数字化、“数字敦煌”数字资产管理系统、永久存储体系和资源库四个方面。

敦煌石窟数字化,采用先进的数字化技术将敦煌石窟进行数字化。

“数字敦煌”数字资产管理系统(DAMS),主要目标是对敦煌石窟保护、研究和弘扬各领域数字资产的生产、保存、展示等进行科学的管理,在统一的系统架构下,实现各领域知识高度关联,达到数字资产的高效利用。数字资产指与敦煌石窟相关的所有数字资源,包括敦煌石窟大遗址、壁画、彩塑和建筑数字化成果,藏经洞出土文物数字化成果,敦煌学研究文献数字资源,石窟保护数据(环境监测数据、保护材料数据、修复方案等),石窟考古资料(考古报告、考古测绘图、出土文物信息等),石窟展示、展览、新闻宣传等方面的资料。

“数字敦煌”永久存储体系,指导数字资产长期保存而建立的模型,是数据生产追踪、数据校验、存储监控、文件格式的提升和转换,数据的备份及容灾,以及存储规章制度等的集合体。

“数字敦煌”资源库,基于“数字敦煌”资产管理系统(DAMS),对数字资产的成果进行再加工,形成新的数字产品。结合大数据分析等技术手段,形成敦煌石窟知识图谱,高度关联敦煌石窟知识等信息。

二 国内外有关敦煌资料资源库应用现状

国内,敦煌研究院于2007年研发了“敦煌艺术图像数据库”[2],利用传统胶片拍摄并数字化扫描,其内容包括佛传、飞天、供养人、服饰、图案、瑞像、经变画、山水画、音乐9个专题共1309幅图像。该库没有完整壁画的数字化成果,图像数量有限;其它与敦煌石窟有关的数据库基本都是敦煌文献数据库,没有敦煌石窟整窟壁画、彩塑等数据,例如敦煌文献数字图书馆[3]收录北敦、斯号、英藏(其他)、伯号、法藏(其他)、俄藏等14类敦煌文献,收入图版文件51万多个,敦煌学信息资源库[4]收录了与敦煌学相关的12万余篇期刊文章和会议论文。

国际上,“国际敦煌项目”(the International Dunhuang Project,IDP)[5]于1994年启动,其目标是敦煌及丝绸之路东段其他考古遗址出土的写本、绘画、纺织品以及艺术品的信息与图像能在互联网上自由地获取,并通过教育与研究项目鼓励用户利用这些资源,数字图像累计525,356张,但是不包括敦煌石窟壁画。敦煌研究院与美国梅隆基金会合作建立了“梅隆国际敦煌档案”(the Me-

llon International Dunhuang Archive,MIDA)[6]展示了22个数字化洞窟的图像和5个虚拟漫游节目[7],展示的敦煌石窟壁画数字化图像采集精度仅为75DPI。敦煌研究院在固定IP地址的电子阅览室可免费浏览,外界观众需要付费查看,浏览速度较慢。

三 “数字敦煌”资源库建设任务的

特点和难点

“数字敦煌”资源库有三大特点:其一,展示内容丰富、专业知识性强。展示对象为敦煌石窟中的建筑、彩塑和壁画。壁画包括尊像画、佛传故事画、本生故事画、因缘故事画、神话题材画、佛教史迹画、经变画、供养画、装饰图案画和说法图等,专业知识涵盖历史、科技和艺术等方面[8];其二,展示数字资源多样,包括高精度数字图像、三维重建数据、虚拟漫游节目、多媒体节目、视频节目、动漫节目、文字等[9];其三,展示壁画数字化成果数据精度高、容量大,敦煌石窟壁画数字化采集分辨率达到300DPI,每一个壁面最终形成的数字化成果数据容量超大,以莫高窟第61窟西壁为例,长宽像素分别为210270×91273,总像素超过了442亿,数据容量超过60GB。

鉴于本资源库的特点,造成了建设中的众多难点:第一,选择本资源库展示敦煌石窟的内容时,需考虑的因素众多,既要考虑敦煌石窟的年代包括北魏、西魏、北周、隋朝、初唐、盛唐、中唐、晚唐、五代、西夏、元代等朝代,又要考虑洞窟形制包括中心塔柱式、穹顶、覆斗型、马蹄形佛坛等,还要考虑壁画的画面内容等;第二,数据关联性强,如何挖掘多种形式的数字资源所包含的价值,并以何种形式科学、高效地关联、组织敦煌石窟的专有知识;第三,由于洞窟空间结构的多样性,导致无法用结构化的数据库进行数据存储;第四,壁画数字化精度高、超大容量的图像如何在互联网和移动互联网上的自适应展示,并且满足个性化的展示与检索;第五,可扩展性强,本资源库第一期展示内容在已完成100余个洞窟的数字化成果中确定30个洞窟[10][11],如何在不改变系统架构,将敦煌石窟812个洞窟全部展示;第六,数据知识产权如何管理;第七,本资源库大量为图像数据,如何优化和提升性能,提高用户并发量;第八,本资源库的网络安全如何保障。

四 分层架构设计

“数字敦煌”资源库分层架构设计如图 1所示。

1)平台硬件层与虚拟化

本资源库购置3台物理主机,利用VMWare?譹?訛构建虚拟环境,vSAN构建分布式存储。允许1台物理主机宕机后,虚拟机可自動迁移至另外两台物理主机上运行,确保“数字敦煌”资源库提供不间断的服务,今后随着数据量和计算资源的增加,只需要底层增加物理主机,加入虚拟池中,即可提供服务。

2)系统软件

虚拟化的管理主机VMware vCenter Server 6.0版本?譹?訛其操作系统采用了Windows server 2008操作系统,其它应用主机都采用了Cent OS6.9操作系统。

3)运维管理

运营统计分析“数字敦煌”资源库页面访问量、页面访问停留时间、访问者的地域统计、操作系统统计、访问者忠实用户量、在线人数,等等。为了提升“数字敦煌”资源库的不间断服务能力,还对服务器硬件、操作系统和应用程序做了相应的监控。

4)后台数据管理

洞窟空间结构管理,以洞窟为单位,构建每个洞窟相对应的空间结构。上传壁画高精度图像和全景漫游节目,数据上传后系统自动校验每个文件的sha-1值,确保上传数据的一致性和完整性。针对洞窟、壁面进行信息编目,并由专业人员审核编目的信息。多语言模块的管理,目前只有中文和英文。

5)用户功能

用户通过互联网和移动互联网访问“数字敦煌”资源库,系统可自适应在PC和不同类型的移动终端显示浏览内容。首先通过全景漫游节目以及文字介绍对整窟有全面的了解,然后每一个壁面对应的有文字介绍,并且可以浏览壁画的每一个细节内容。用户可通过遗址地、年代、洞窟形制筛选浏览内容,或者可通过全文检索准确查找壁画内容。

6)安全保障

“数字敦煌”资源库硬件安全保障采用了防火墙和网页防篡改防火墙,在软件控制方面采用了反向代理技术,提升安全性能。

7)知识产权保护和管理

知识产权是一项非常重要的工作,在页面浏览中加入了自适应多分辨的水印。数据授权目前遵循敦煌研究院线下的授权流程。

五 整体架构实现与优化

敦煌学的研究在国际上涵盖几十个国家,在国内也涵盖多个省份,因此“数字敦煌”资源库面向的用户地域分布较广,为了满足多国家、多地域的用戶需求,提高“数字敦煌”资源库页面的浏览速度,提升用户的体验,单台服务器运行所有的应用程序已不能满足需求。最终采用动态资源与静态资源分离、应用服务器与数据库分离、负载均衡、数据库主从复制、缓存、应用拆分和压缩等技术,满足本资源库的高性能、高可用、可扩展和安全等需求,系统架构拓扑如图 2所示。

1)高性能设计

“数字敦煌”资源库的高性能在用户层面考虑,即访问页面的相应时间越短,用户的体验越好。本资源库包含的主要资源是洞窟高精度壁画数字图像和全景漫游节目,用户多次访问这些资源时不发生任何变化,这些资源在网站资源中都属于静态资源,提高静态资源访问速度的办法是与动态资源分离,将静态资源存储在两台独立的服务器上,启用ngnix?譺?訛高性能的http服务,并且具有独立的二级域,通过独立域名可直接快速访问静态资源。相对应的动态资源即用户多次访问时资源发生变换,本资源库动态资源主要包括洞窟、壁画描述文字、洞窟空间结构、洞窟列表、检索与检索结果、登录、注册、用户信息修改等,这些资源存储在数据库中。

将动态资源和静态资源分离的同时,减少HTTP的下载请求,会缩短网络传输的时间,为了缓解两台独立静态资源服务器的访问压力,浏览器与数据服务器之间增加了squid?譻?訛反向代理服务器。将用户访问频繁的洞窟壁画和全景漫游节目资源缓存,并且重用频繁请求的web页面。用户访问动态资源时,采用了ngnix?譼?訛作为反向代理服务器,并且增加了memcache?譹?訛分布式缓存服务器,从MySQL查询的动态资源存储在memcached服务器中,减少数据库的访问次数。

用户访问的资源如果不影响浏览质量,在网络传输时进行压缩,传输效率大大提升,本资源库采用了gzip?譺?訛的网页压缩的技术,用户浏览器如果支持gzip便可提高访问速度,若用户浏览器不支持gzip压缩技术,访问速度则相对慢一些。经测试用Chrome浏览器访问“数字敦煌”资源库时,网页压缩率可在40%—70%之间。

所有的数据在最底层都要存储于硬盘中,如果硬件资源采用速度较快的设备,将提升“数字敦煌”资源库的整体性能。本资源库底层采用了VMWare vSAN?譻?訛软件定义的分布式存储,硬盘采用闪存和机械硬盘混合模式,提高存储性能。

2)高可用性设计

敦煌学的研究在国际上涵盖多个国家,导致“数字敦煌”的用户来自全球,因为各个国家时差的原因,要求本资源24小时提供可靠的服务。用户访问静态资源和动态资源时采用负责均衡技术,由haproxy?譼?訛软件实现,根据访问资源的特性,haproxy采用不同的负载策略。用户访问壁画与全景漫游节目时采用leastconn(连接数最小)的策略,访问动态资源采用roundrobin(轮询)策略。

本资源库的高可用性设计的另一方面是备份,一旦应用服务器宕机,自动或者手动启动备份设备,缩短系统从故障到正常运行的恢复时间。本资源库的备份有三种形式:第一种,数据库主从复制机制,数据库存储动态资源,单一的数据库容易发生单点故障,因此需要考虑数据库的备份机制,采用了MySQL5.7版本的关系型数据库,利用它自带的主从复制功能,两台独立数据库服务器一主一从,一旦主数据库服务器发生宕机,自动切换至从数据库服务器;第二种,VMWare vSAN技术自身将数据底层做了一份备份,所有的虚拟机都做了快照;第三种,静态资源服务器增加了数据完全相同的备份服务器,两台squid服务器,两台nginx反向代理服务器,拆分的应用根据需求启动了不同数量的备份服务器。

收藏此文 赞一个 ( ) 打赏本站

如果本文对您有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码