当前位置: 首页 > 党团工作 >

汉语史研究中的数字化研究手段简介

发布时间:2023-06-20 10:18:03 | 来源:网友投稿

一、最初的方法

汉语史研究中的数字化研究手段是语言学的计算机辅助研究,即CAR(Compute-Assisted Research)的一部分。①(P56)最初语言学引入的数字化手段集中在语料库,特别是现代语言语料库的建设方面,即将以往由纸制材料存储的语料改为由计算机存储,从而实现了由自然人的阅读向机器阅读的转变。机器阅读以其速度、精确度方面的优势为语言研究中的统计、采样、辞书编纂等提供了方便。数字化最先在汉语史研究中的应用也是从古籍语料库的建设和利用开始的,其后又引入了关系数据库等手段,为文献语料精细分析加工提供了可能。

我们认为,迄今汉语史研究的数字化主要包括语料的数字化(古籍电子语料库建设)、原有语言知识的数字化(汉语史专家知识库建设)和新语言知识生成的数字化三个层次。语料的数字化多借助于古籍文献语料全文检索系统而实现,原有语言知识的数字化和新语言知识生成的数字化则既借助全文检索系统,又借助关系数据库及其编程技术而实现。

(一)古籍文献语料全文检索系统

古籍文献语料全文检索系统,亦被称作古籍电子化,是指“利用现代计算机技术,对古籍文献进行科学系统的整理,主要应解决存储与检索问题”,它服务于相关人文社会科学的各个部门。据《国学宝典》的设计制作者尹小林先生的观点②,古籍全文检索系统的主要制作程序包括以下十个方面:1.选书;2.数据规划;3.录入;4.补字;5.审校;6.标引;7.软件编写;8.数据联调;9.软件测试;10.界面设计。

汉语史因其主要的工作就是从古代文献语料中发现语言规律,故而成为古籍文献语料全文检索系统的最为主要的用户之一。古籍文献语料全文检索系统的主要优点是“长于检索,能从各种格式、超大容量的文件中迅速、彻底地搜索目标字串,显示包含目标字串的句子,并能返回全文检阅原文,也可以马上输出,进行编辑”。③ (P61)如考察某词的发展,可利用台湾中央研究院研制的“汉籍全文检索系统”,输入一词,查遍全部《二十五史》四千余万字,只需一、二秒,并将检索结果依序穷尽排出,供浏览或打印。如将此项工作交由一个学者,只怕皓首穷经,也未必能保证精确不漏。④(P69)一般的古籍数字化工作面向的用户较为宽泛,对于特定用户所需要的特殊文献未必都能照顾到。从事汉语史研究工作的学者需要特定的语料和文献,这些古代文献包含大量异体字、古今字、通假字、冷僻字、讹俗字,在制作和显示方面有着特殊困难,故而其生产缺乏社会认同度,只能由从事语言研究的学者和单位自己承担。近年来,不少的单位和专家都意识到汉语言文字典籍数据数字化工作的重要,也有了一些初步的成果。

(二)关系数据库系统

全文检索系统只是利用数字化资料的最为基础的应用,它以字符串作为数据,采用的是非组织化的整体存储方式,数据之间的关系被人为隔开,该方式决定我们只能通过它进行直接的、穷尽性的字符串检索。然而语言研究中的要求是多种多样的,绝不满足于全文检索系统的检索字、词、句。

关系数据库技术是在全文检索技术之后又一个深受语言研究者青睐的技术手段,两者各有所长,互相补充。全文检索系统主要存储非线性的、非结构化的数据信息,数据库系统则主要存储、管理有组织的、结构化的数据信息,通俗地讲,就是类似于表格的数据信息。所谓关系数据库是指能处理二维表格,能够进行投影、连接和选择等关系操作的数据库。该数据库既便于人们观察数据的关系,又具备强大的系统管理功能,能开展一些全文检索系统不能胜任的工作。

数据库技术运用于汉语史研究是从汉语史专家知识库的建设开始的。从事汉语史研究的学者发现大量的语言学典籍,其文献结构本身就是结构化的。如《广韵》《集韵》等韵书,文献本身即构成语言知识,它们是古代语言学家语言研究成果的一个固化。1986年华中工学院陈汉清、邓希敏完成的《古今字音对照手册》计算机处理系统通过了技术鉴定。该系统将《古今字音对照手册》作为信息源全部存入计算机,建立了古今字音对照的原始资料库、数据资料库以及面向专家分析、研究、检索、验证系统,大大方便了音韵学研究。⑤[P89-91]此外,关系数据库技术还可应用于汉语史专书词汇、方言、以及诗文韵部的整理等研究中。这些技术的运用大都必须与数据库编程语言或其他编程语言结合起来,通过对数字化语料和原有语言知识进行排比、对照、分析来生成新的语言知识。

二、新的方法——XML标注语言

(一)语言研究需要标注技术

“计算机原本是数值计算的工具,后来虽然也可以处理文档,但这种处理仍然是二进制数值的计算。现在学者最常用的计算机功能就是全文检索,检索结果显示的是字、词、句子,但计算机不过是在对字符的编码进行匹配,对记录字符串的数值进行运算。计算机并不能懂得文档的内容——知识。不能处理知识,计算机就不能用来进行学术研究。要使计算机‘理解’文档内容,可以采用标记(Tag)对文档内容进行标识。”⑥(P9)这种标识应该是能够由语言研究者自主定义的,可根据需要随时扩充其标记。虽然关系数据库技术出现后,可以将文档的内容分析为字段和记录的形式加以存储,也在某种程度上实现了内容的可理解。但是数据库一方面依赖于特定的软件管理系统,另一方面它又肢解了原文档内容的整体性,降低了语言学典籍的可读性。特别是大量的汉语史文献,其文档结构为立体型,如用关系数据库存储,将不得不建立多个数据库表进行关联,如此程序的编写和语言知识的提取分析都将不胜其烦。所以汉语史研究引入一种自定义的、面向纯文本的、能存储结构化数据的标注技术就显得非常重要了。

(二)XML标注语言简介

XML(Extensible Markup language,可扩展标记语言)正是符合我们要求的一门创建结构化数据的技术。它实际上是一种元语言,即一种使用标签存储结构化数据的规范,该规范由W3C组织建议使用。XML将加了标签的数据保存在标准的文本文件中,可以使用任何的文本编辑器,比如Windows操作系统自带的记事本应用程序,来读取和编辑XML文件。XML是可扩展的,这意味着在创建XML文档时,不会局限于一套预先定义的标签,而可以根据你自己的需要创建所需要的任何标签,如我们汉语史研究独有的会意、转注、初文、或体、亦声、省声等均可自行定义。⑥(P9)XML标准还提供了一套与这些细节相关的规则,比如如何创建标签、XML文档如何结构化。XML文档存储的数据虽被加上了标示语义的标签,但由于XML保持数据存储与数据显示相分离的原则,我们借助标签提取的数据在显示上将相对独立。

(三)XML技术在汉语史研究中应用

在汉语史研究中,我们应用XML技术包括了文本生产、数据建模、文本标注、属性提取、文本转换以及应用程序接口的编写等工作。

汉语史的研究材料首先是古代文献,目前大量的古代文献已经被录入电脑,成为可资利用的电子文档。适于汉语史研究需要的古籍电子文本,至少满足以下几个要求:一、纯文本格式;二、繁体文本;三、学术质量高。⑥(P9)就目前情况来看,很多的面向汉语史研究的古籍电子文本还只能由从事语言研究的工作者自己来制作。

有了数字化的电子语料,下面就要对语料文本的自身结构展开分析,为预计生成的XML文档建立数据模型。数据模型提供了XML文档的逻辑结构的一种表示。它指定文档可以包含的元素以及这些元素之间的关系,这种关系往往是一种立体的成树型的结构。DTD(Document Type Definition)和XML Schema是用于指定数据模型的两种可用技术。比较而言,Schema是一个更强大和灵活的数据建模工具。XML Schema的W3C的推荐标准叫做XSD,它可以更加准确地描述文档结构。

建立数据模型后我们就可以根据模型对我们的数据进行标注了,标注并加以声明的文本就是我们需要的XML文档。大部分情况下,XML都是通过程序来创建的,而Microsoft Word 2003目前也可以创建XML文档。

创建的汉语史XML文档,由于各个元素都被加上了相应的标签,我们就可以按图索骥,从中提取我们需要的元素和知识。要从原有XML文档中提取、转换并显示出我们需要的元素和信息,我们可以利用XML的样式表技术。样式表有两种:即层叠样式表(CSS)和可扩展样式表(XSL)。目前两种技术可结合使用,即用CSS控制结果在浏览器中的显示,用XSL转换XML文档以生成另一结构的XML文档。⑦

注释:

①尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000,(3).

②尹小林.关于《古籍数字化彩声不断完善缺钱》的补充说明.国学网.2002-02-26.

③陈海波.关于数据库在古汉语研究中的应用[J].古汉语研究,2000,(3).

④于亭.计算机与古籍整理研究手段现代化[J].古汉语研究,2000,(3).

⑤张普.汉语信息处理研究[M].第1版.北京:北京语言学院出版社,1992.

⑥尉迟治平.汉语信息处理与计算机辅助汉语史研究[J].语言研究,2004,(3).

⑦Peter G.Aitken.微软XML技术指南[M].谢君英译.北京:中国电力出版社,2003.

(甘勇,华中科技大学中文系)

推荐访问:汉语 数字化 史研究 手段 简介

本文标题:汉语史研究中的数字化研究手段简介
链接地址:http://www.ylwt22.com/dangtuangongzuo/2023/0620/266206.html

版权声明:
1.十号范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《汉语史研究中的数字化研究手段简介》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

十号范文网 |
Copyright © 2018-2024 十号范文网 Inc. All Rights Reserved.十号范文网 版权所有
本站部分资源和信息来源于互联网,如有侵犯您的权益,请尽快联系我们进行处理,谢谢!备案号:粤ICP备18086540号