我国中文古籍数字化管理的问题与对策

来源:南粤论文中心 作者:赵瑞生 赵雪云 发表于:2010-12-31 15:02  点击:
【关健词】中文 古籍档案 数字 化
古籍档案的保存与使用是目前我国乃至世界的一个至关重要的研究课题,古籍数字化已取得了很大成果,但依然存在底本繁复、选择众多、协调机构和著录规则不统一等问题。因此,要加强古籍档案标准的研究和制定工作;慎重选择底本,搞好古籍资源库建设;同时要做好人员的培训工作。

古籍属于非再生性的文化遗产,古籍随着时间的推移,在数量上将会不断减少。如何保存好现有古籍,已成为档案和图书界最为严峻的任务。国外收藏的中文古籍数量目前还没有一个确切的统计,但大部分古籍正遭受残损亟待抢救的情况是不争的事实。由于图像扫描技术具有简单快捷、成本低廉且保存长久等优势,古籍数字化应该是解决这一问题的有效途径。
  
  一、我国古籍数字化的研究现状
  
  为了传承中国传统文化,香港、台湾和大陆地区的古籍数字化形成了互为补充、共同发展的局面。
  1.港台地区的古籍数字化情况
  20世纪80年代,台湾和香港就开始了古籍的数字化工作。上世纪80年代,台湾中央研究院开始了“史籍自动化计划”,建立了廿五史全文资料库。1988年,香港中文大学中国文化所研究成立“汉达古文献数据库中心”,是研究所“古文献数据库研究计划”的专门出版单位,也是香港从事古籍数字化工程的中坚力量。
  2.中国大陆古籍数字化研究现状
  与港台相比,大陆的古籍数字化工作起步稍晚,但发展迅速,大有后来居上之势。北京书同文数字化技术有限公司制作了文渊阁《四库全书》(与迪志文化出版有限公司合作,2000年完成)、《四部丛刊》(2001年完成)、《历代石刻史料汇编》(2004年完成)、《十通》(2004年完成)、《大清五部会典》(分别编撰于康熙、雍正、乾隆、嘉庆、光绪五朝)、《大清历朝实录》等电子文献。北京爱如生数字化技术研究中心是大陆很有实力的古籍数字化专业公司,它制作完成的数字化古籍总数在3万种以上,是目前大陆制作数字化古籍最多的公司。同时,一些大型的网站也在开发古籍数字化的工作。比如,国学网依托首都师范大学组织国内一批文史专家,经过长达多年的资料搜集,电子化校勘, 建成了一个总字数达8亿的大型中华古籍全文数据库——《国学宝典》。
  
  二、中文古籍数字化存在的问题
  
  1.版本众多,底本的选择优劣不一
  中华民族文化源远流长,各种典籍版本众多,仅《红楼梦》的版本就可分为两个系统:一是八十回抄本系统,题名《石头记》,大都附有脂砚斋评语,又名“脂本”系统。另一种是一百二十回本系统,即程高本,有所增删。 这两个系统中又有甲戌本、乙卯本、庚辰本、戚序本等等。古人强调,“书非校不能读也”。因此在进行古籍数字化时如何选择善本作底本,同时也要和其他的一些版本精心校对拾遗补阙等。并且由于保存条件以及纸张本身的原因,各种善本藏书很多已经受到了损毁,字迹不清、残缺等等现象严重。
  2.缺乏统一的协调机构及著录规则
  从2002年开始,中国科学院文献情报中心、中国科学技术信息研究所等21家单位制定了一些与中文古籍数字化相关的标准和规范,如:《古籍描述元数据著录规则》、《古籍描述元数据规范》、《舆图描述元数据著录规则》、《舆图描述元数据规范》、《拓片描述元数据著录规则》、《拓片描述元数据规范》、《家谱描述元数据著录规则》、《家谱描述元数据规范》等等。但各馆及数字资源生产商都是各自为战,给将来的统一检索留下隐患。因此,古籍数字化工作亟须一套完整的标准规范。
  3.古籍数字化过程中的相关技术问题
  汉字的处理是古籍数字化工作的重点和难点问题。这与电子文本需要字库支撑的特点有直接的关系,而字库中汉字容量是有限的。古籍中众多繁体字、异体字、通假字、避讳字的存在,前人编撰古籍技术的不规范,都使计算机的文字编码不敷应用。目前业界大多采用Unicode作为文字处理的标准,但Unicode定义的汉字也只有7万多,并不能囊括现有古籍中的全部汉字,可以说缺字是古籍数字化的瓶颈。
  OCR虽然是一种较为先进的自动化信息资源输入技术,但对图像质量、文字规范化程度要求较高,在对近现代文献的数字化工作中应用较广。由于古籍普遍存在字迹模糊,墨点、污渍和霉斑较多的特点,如果在OCR处理过程中,不能有效识别这些信息,在电子文本上就会留下大量乱码和不规则暗痕。部分手抄本古籍则无法通过OCR识别原文内容。
  
  三、关于古籍数字化的相关建议
  
  1.加强古籍数字化标准的研究和制定工作
  要想建立一个完整的中国古籍数据库,使用户一上机就能纵览古籍全貌,按图索骥,用其所需,就要实行统一的、行之有效的机读目录格式,重视统一标准的研究和制定工作,是古籍数字化资源共享首先要解决的问题。古籍数字化只有在题名、编著人、卷册页码、刻工、文献形态等条目上实现系统完善的著录,执行统一的分类标准和分类原则,才有可能使制作出来的产品易于读者操作和便于读者访问,实现古籍数字化成果和价值真正意义上的资源共享。这些标准的制定不仅要由图书情报界、信息产业界和与标准相关的软件开发商参与而且也要有从事古籍整理的专业人员参与,只有这样才能为读者提供一个共享古籍文献的统一平台。
  2.慎重选择底本,搞好古籍资源库建设,实现古籍档案检索网络化
  在底本的选择上,慎之又慎,优中选优,善本的损毁程度直接决定了所制作的电子产品的优劣,所以如何选择底本,应以善本为要。善本,通俗的说,就是古书中保存较好的书。善本是我国珍贵的文化遗产的一部分,合理利用,认真选择,利用电子版本保存更加有利于我国文化遗产的保存。
  3.提高人员素质
  从事古籍数字化工作的人员既要掌握古籍整理的专业知识,又要精通现代信息技术。因此古籍资料数字化是传统学术方法与现代科学技术的结合。要确保古籍数字化工作的顺利开展,急需培养一批既具备古籍整理知识又能熟练应用现代信息技术的高层次复合型人才,不仅要意志坚定,不为金钱名利所动,而且要具有一定的文化修养和崇尚科学的精神。
  
  参考文献:
  1.毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(04).
  2.郝淑东,张亮,冯睿.古籍数字化的发展概述[J].情报探索,2007(07).
  3.毛建军.欧美地区中文古籍数字化概述[J].数字与缩微影像,2008(01).
  4.孟忻.古籍数字化的现状与发展方向[J].中国索引, 2008(01).
  5.黄显功.上海图书馆的家谱数字化资源服务——古籍保护效果的一个实例[J].图书馆学刊, 2008(01). (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.