公文语料库建设浅谈

来源:南粤论文中心 作者:nylw 发表于:2010-03-16 10:43  点击:
【关健词】公文语料库建设浅谈WWW.NYLW.NET
语料库顾名思义就是存储语 言材料的仓库,通常是指存放在 计算机里的原始文本或经过加工 后带有语言学信息标注的语料文 本。我们平常所见的公文例文, 或者网站上的公文,或者某些部 门、单位、学者积累的公文材料, 虽与语料库有一定的相似之处, 但这些材料积累,往往只是局部 的、较为随意的、难成体系的公 文收集。我们要建立的公文语料 库,是从词语到段落篇章、不同 文种、不同层次,甚至不同国家 的都有的,材料丰富全面、构造 清晰、分类详细、用途多样的公 文材料库。公文语料库建设是公 文领域十分重要的、有创新性的

一、建设公文语料库的意义 科学的研究往往需要以数据 和大量的事实材料为基础,公文 语料库的建设将为公文研究解决 这一问题并提供科学的理论和方 法,为建构公文新理论提供依据。 从具体的工作实践上说,建 设公文语料库将有助于从词频的 角度来比较词汇的运用、反映公 文的内容及公文语言的变化;有 助于从词汇、句式、篇章等角度
为公文写作提供更科学、全面的
指导;有助于为公文的各种比较 研究提供材料和方法;有助于公 文语体与修辞的研究;有助于促 进公文写作的创新、提高工作效 率;有助于公文的分类管理研究。 以语料库为基础建立的公文词 典,可以作为公文写作处理、学 习研究的工具书。以公文语料库 为基础,结合其他先进的科技成 果,还可以开发出优质的软件和 系统,为实际工作中公文写作与 处理提供良好的工具和平台。
二、公文语料库的创建 创建公文语料库,首先要搜
集原始材料录入计算机。然后是 进行语料处理,即利用软件进行 自动分词、词语标注等,并可以 根据需要建立一些子语料库。如 果有进一步需要,还可以利用上
面取得的信息进行第三步操作,
通过随机抽样、检索、统计、分 析对比、演绎推理、归纳总结等 方法进行具体的研究。
下面以党的十五大、十六大 和十七大报告为原始材料建立一 个小型的语料库,展示一下语料
库的构成和具体操作方法。
党的十五大、十六大、十七 大报告,涉及领域之广,应用频 率之高是其他公文难以比拟的。
这里利用分词软件对三个报告内
容逐个进行自动分词,然后利用 数据库软件进行比较和处理,得 出每一个报告的用词数量、词频 等,形成一个数据集,进而有选
择地进行比较,得出一些结论。
结论一,篇幅相当,适合对 比。三个报告的词汇总量分别为:
14185、14156、13621。用词数量 分别为:2573、2427、2502,依 此可看出三个报告的篇幅基本相 当,非常具有可比性。
结论二,相同用词,体现联
系。通过语料库.很容易得到i 个报告相同用词的量,如每两个 报告之间相同的词汇量介于
1576至1709之间,而三个报告 相同的词汇为1376个。通过某 些词语在不同大会报告的重复利 用率高,还能体现出不同大会报 告在内容上的联系;而十五大报 告与十七大报告中相同的词汇较 少,也可以看出大会内容的不断 变化与发展。
结论=三,特有词汇,显现不
同。三次大会报告中特有词语的 数量依次为673、394、595,这 可以看出:每次大会报告所用词 汇都有相当数量的变化;大会时 间相隔较远,不同词汇就更多一 蝼。

 

万方数据
 
:12009.03>j∥譬各镰∥“,。,f∥叫搿饬掣?辨叫影删聊拶*㈣溅公文写作I虽臣£盈
 
结论四,不同词频,便于研 究。我们只从语料库中选择一部 分典型的词语为例来对比其词 频。某些重要词语在三次报告中 出现的频率有着极大的不同,如 在j三次大会报告中,“邓小平理 论”出现的频率依次为42、13、
9,“与时俱进”为O、9、7,‘‘/J、 康”为0、23、23,“科学发展 观”为0、0、21,“和谐’’为0、
6、34,“以人为本”为O、0、34。 根据这些用词的异同,结合 报告本身,可以做许多研究。如 可以非常客观地从数据人手来研 究各次大会的内容、主题、政策 等的相同和不同,比较容易就能 够看出各次大会的不同之处及创 新之举。同时,用数据说话,不 仅一目了然、快捷高效,而且更
具说服力。
三、公文语料库建设的重点 当前,从公文理论与实践的 需要出发,公文语料库的建设方
向应该是:利用现代设备,面向
实际需要,方便公文写作,有利 公文处理,提高办文效率,改善 工作质量。重点应放在以下几个 方面:
一是整理公文材料。建立公
文生语料库。 生语料库就是没有经过加工
和切分、没有信息标注的原始材 料构成的语料库。这是建设公文 语料库的基础工作。
建设公文语料库需要选择具
有规范性、完整性、代表性、比 例合理的材料,因此搜集起来有 一定的困难,需要花费大量的人 力和时间,同时,因为公文材料
具有政治l生、地域性等特点,有
些公文虽然不是密级文件,但也 没有公开发布,还需要相关部门 和领导的理解与支持。


万方数据
公文可采用先搜集后整理, 边搜集边整理的方式。在整理中 可以分门别类,建立子语料库, 如按照上行文、下行文、平行文 的分类,或按照规范性、通用 性、法规规章性公文、执法性公 文的分类,或按照不同文种,来 进行语料的收集和归类。这种分
类的语料库,可以为需要者提供
检索服务,还可以为不同文种公 文的比较等提供可靠而全面的材 料。
二是全方位多层次地处理材
料。生成公文熟语料库。 熟语料库就是经过一定处
理,进行了切分和标注的语料库。
这种处理主要依靠先进的软件来 完成,可以建成以词汇、句子、 旬式、篇章为成分的大型公文熟 语料库。熟语料库对公文的研究
意义更为直接,如可以为党政公
文的比较、中外公文的比较、古 今公文的比较研究提供数据和材 料,可以为公文的不断改革创新 提供重要依据,还可以为公文语 料词典的编纂以及公文处理软件 的设计提供语料支撑。
由于公文语料库的理论与技
术尚处于起步阶段,目前还不是 十分成熟,比如有些软件的分词 会出现一些偏差,需要人工校对 进行辅助,处理句式篇章的能力
还有待于进一步提高,等等,这
些都需要在实践中不断加以改
进、完善和提高。
三是利用公文语料库,编纂 公文语料词典。         ,.
公文语料词典是依靠公文语 料库建立的,它在公文研究中的 作用将不可忽视。目前所见的公 文词典不仅是语言研究的成果之 一,更成为语言研究或者公文写 作不可或缺的t具。公文语料词
35
典主要包括两类。
第一类是公文常用词词频词 典,也就是根据所建的语料库统 计,掌握公文词汇使用的频率以 及所占的比例。这类词频词典可
以通过注明词语在不同文种、不 同类型的公文中的频率,而便于 比较和操作;可以为从事公文写 作与处理的文秘人员提供有益而 有用的工具;可以为公文研究者(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.