语料库建设中的名词标注方法

来源:南粤论文中心 作者:韩蕾 发表于:2010-06-03 01:26  点击:
【关健词】语料库;名词;多层级分类标注
摘要]名词标注是语料库加工的重点和难点问题。兼顾形式和意义的句法语义一体化处理策略,是名词深加工的 重要原则。把对大多数组合具有普遍解释力的语义特征构建成层级体系,并确立相应的形式识别标准,就可以将名词 进行有效的分类与归类。我们对大量名词所做的组合特征标注实践证明,“特征即关系”,名词组合属性的细致标注, 对揭示双名直接组合模式与搭配规则能够起到很好的作用。

t-_海师范大学的“当代汉语语料库” 建设处于词语加工阶段,在这一阶段,仅仅 给词项赋予词类属性是不够的,如果能使 之带上更丰富的信息,必将为下一步的句 法、语义乃至语用加工提供帮助,为此,我 们提出对名词进行多层级分类标注的方法
(Multiple—levelClassifyingTagging,简称
MCT)。

一、理论架构

1.1    背景和依据 汉语语料库加工的主要流程包括三个
环节:词语加工、句法加-1-和语义语用加
ZE。目前词语加工阶段(分词和词性标 注)虽还遗留着歧义字段、未登录词和兼类 词排歧等疑难问题,但已基本能满足实用 的需要。随着信息处理的深入,语义加工
的任务已被提上日程,与此相关的汉语语
义知识库正处于初期建设阶段。 落实到具体词类上,现有研究大多以
实词为对象讨论语义范畴的性质,虚词语
义知识库尚未涉足。【lo实词中,又以动词初
具规模,名词研究相当薄弱。众所周知,在 现代汉语各词类中,名词占有举足轻重的 地位。许多研究的统计数据都表明:名词 数量不但比任何别的词类都多,并且比别
的词类加在一块儿还多。【2J(Ⅲ词类频度统
计也表明,在词类使用频度上,名词远远超
过动词,居于首位。【3](㈣这意味着,面对着 经过正确词语加工——词语切分和词性标 注的汉语语料,我们大多数时间是在跟名
词打交道,名词深加工是下一步需要解决 的重要问题。可我们知道,“名词研究很重 要,但也很难”【4](附,长期以来,名词研究的
广度和深度,一直无法跟动词相比。因此, 我们的语料库加工,打算选择这个薄弱点 作为突破。为此,需要先了解一下现有的
研究状况。
迄今为止,与名词范畴设置相关的、直 接服务于汉语自然语言处理的语言知识库
建设,在局部已经取得一定的成绩:
(1)句法分类:基于结构主义的语法
分类为了说明名词的句法功能,主要采用 了句法分布的标准。朱德熙在《语法讲 义》中,根据名词与量词的关系分出可数名 词、不可数名词、集合名词、抽象名词、专有名词5类。北京大学俞士汶等的《现代汉 语语法信息词典》,在此基础上进一步细
化,根据名词与不同量词的搭配关系,将名
词划分为个体、物质、集合、专有等8个子 类。∞](嘲’台湾中央研究院黄居仁小组,也 是以量词为标准,利用语料库中直接抽取 的名一量词搭配实例及统计数据,在深度 小于4的子树中获取5075种名词子
类。[6](啪)
(2)语义聚合分类:运用语义场理论, 依据概念之间的同义(近义)、反义、上下 义关系,建立名词层级系统,是十分普遍的 作法。现有的代表性义类词典或语义体系
有:“九。五”工程分出事物、时空、属性和 运动四大类,采用义素分析法处理跟名词 有关的事物、时空等语义类别。【7】‘m’北大计 算所的中文概念词典CCD,抽取Ⅵrordnet 中名词初始义类概念的上下位关系信息, 形成15个上下位关系树。[8]‘啊’其开发的另
一部基于配价的汉语语义词典VCSD,“事 物”类的语义深度达到6层。[9】(㈣
(3)语义组合属性的发现:一是利用 格语法、配价语法、语义网络、蒙塔古语法 等多种策略,探索性地发现名词的普遍属 性。如,973项目设立性别、年龄、职业、身 份、关系、高度、宽度、浓度、形体、场面等语 义特征说明名词关联的选择限制。[10](嗍’知 网Hownet建立网状关系语义系统,把名词 放在N范畴内描述。【lI】㈣’宋春阳基于内涵
模型论的语义分析,选取若干单音节名词
做类义抽象,借此解释与名词有关的组 配。【12](叭剐二是针对相关结构,发现名词的 特定属性。如,电子工业部吴蔚天(1999), 提出关系语义场理论。他认为词语之间能 够组合在于具有相同的关系义素,各自属
于一定的分关系语义场,不同的分关系语 义场可组合成关系语义场。他根据名名两 两组合构成的160个关系语义场,对3000 多个名词作了分类。这种分类能同时提供
名词所具有的句法语义信息。【13 J‘啷锄’
总起来看,现在面临的问题主要是:
(1)如何有机地整合句法分类和语义聚合 分类这“两张皮”下的分类结果:无限细化 的句法次类要避免流于形式,取决于能否 获得合理的深层的语义解释;意义分类要 避免成为百科信息类,分类结果必得有形
•28•
式Jr_的验证。(2)如何把现有研究涉及 的、零散的语义组合属性尽可能地系统化。
1.2原则和步骤
我们认为,信息处理有意识地区分词
法、句法、语义或语用等不同层面来加工语 言知识,无非是为了工程实践的便利和技 术上的易于实现。但实际上语言作为一个 系统,其构成层面的联系是相当紧密的,真
正操作起来,时时会感到“牵一发而动全 身”,即使是初级层面(如词语加工)的分 析也需要配备对其他层面知识的深入了 解,这就是人们通-g-所说的“需求循 环”。【7】(m’如果说,词法和句法等形式知识, 凸显的是高度抽象的语法意义;那么,语义 和语用知识,则更多要倚重逻辑真值与现 实语境获取意义。可见,所谓的词法、句法 和语义、语用知识的区别,差别仅在于从抽 象到具体概括程度的不同而已。因此,我
们比较赞成“只要有办法组织起一套明确 的范畴体系,可以尽可能广泛而准确地描 述语言成分的搭配知识,就是好的选择。 至于所选的范畴是句法的,还是语义的,语 用的,或者干脆就是杂糅的,都可以有意无 意地淡化”。⋯眦1因此。当我们需要在大类 基础上,对名词做进一步的深加212时,比较 倾向采用句法语义一体化的处理策略,给 名词标注上句法语义特征,以同时兼顾形
式和意义两个方面。此外,之所以遵循这
一原则,还考虑了信息处理的现实。
从1.1 35-的介绍可知,虽然汉语名词
现有的语义分类体系林林总总,也有不少。 但大都是更为符合自然、社会和思维规律 自成一体的世界知识分类体系,强调纵向
的“深度分类”,忽略横向的“广度分类”。
关心的是诸如“教师”和“老师”在语义分 类树上处于哪一个结点,在语义(子)场中 的层级和距离之类问题;而并不注意它们 在搭配用法上的差别。当然,在这方面,动(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.