国内学科专业语料库研究现状及发展趋势

2013年3月西安外国语大学学报

Mar.2013国内学科专业语料库研究现状及发展趋势

崔维霞,王均松

(西安外国语大学高职部陕西西安710061;西北工业大学人文与经法学院陕西西安710129)

要:学科专业语料库是依据某一学科或专业而建立的独具特色的专门用途语料库,其在专业词表制定、专科词典

编纂以及机辅翻译等领域应用十分广泛。近年来,国内学科专业语料库呈现快速发展的趋势,数量越来越多,规模也越来越大;但同时也暴露出一系列问题,如总体发展不平衡、理论研究滞后、资源难以共享等。随着大型通用语料库建设速度放缓,规模较小的学科专业语料库将是未来语料库语言学发展的一大趋势。关键词:学科专业语料库;专门用途语料库;趋势中图分类号:H030

文献标识码:A

9876(2013)01-0055-04文章编号:1673-Abstract:Thediscipline-specificcorpus,whichisbasedonaspecificfieldorsubject,hasfoundwideapplicationinmakingspecializedwordlist,syllabusdesign,lexicographyandmachinetranslation.Inrecentyears,thereisarapidincreaseofdo-mesticdiscipline-specificcorporabothinnumberandsize,butontheotherhandtherestillexisttheproblemswithitsoverallspecificcorpusisdevelopment,theoreticalresearchandresourcesharing.Itisbelievedthatdevelopingthesmalldiscipline-oneoftheleadingtrendsofcorpuslinguisticsasgrowthslowsinthehugegeneral-purposecorpus.Keywords:discipline-specificcorpus;specializedcorpus;trend

1.引言

specificcorpus)是专门用学科专业语料库(subject-途语料库的一个分支,它依据某一特定学科(或专业)领域而建立,其立足点是语料来源于某一学科或专业,如法律英语语料库、医学英语语料库等。新闻英语语料库、

与其他类型的专门用途语料库相比,学科专业语料库的针对性强,专业化程度高,在专门用途英语教学研究以及专科词典编纂方面的优势非常明显。20世纪90年代以来,我国语料库建设取得了长足的进步,语料库方法在语言教学、词典编纂和语言研究等领域深入展开,先后建立了一系列应用于不同领域的学科专业语料库,并进行了相关研究。但是,相对于通用语料库和其他类型学科专业语料库的建设和研究才刚的专门用途语料库,

面临诸多的问题与挑战。本文首先对学科专业刚起步,

语料库的应用进行了全面、系统的介绍,然后在文献总结和梳理的基础上对该类型语料库的研究现状进行了深入的分析,指出其存在的问题与不足,并对未来的发展方向和前景进行了展望。

2.学科专业语料库的应用

基于学科专业语料库的语言研究及应用领域相当广泛,如语言教学、语言测试、词典编纂、翻译研究等。其中,学科专业语料库在专业词表的制定、专科词典编纂以及辅助机器翻译方面的应用备受关注。

2.1专业词表制定

在语料库分析中,词频(WordFrequency)是最基本的统计量之一,根据词汇在语料库中的词频、覆盖面和分布情况而制定词汇表可以为英语教学大纲设计、教材上海交通大编写提供客观依据。早在20世纪80年代,

62)通过对自建的上海交学杨惠中和黄人杰(1982:60-通大学科技英语语料库语料(JDEST)比较、统计和筛选,研究出基于该库的正序词表、词频词汇表和十个分专业词汇表,为确定大学英语教学大纲的词汇表提供了学科专业语料库的迅速发展可靠的量化依据。近年来,

为编制特点鲜明的专业英语教学词表提供了有利的条J.等人(2008:442-458)在自建100万词件。如Wang,

次规模医学英语语料库的基础上,创建了包括650个词“医学英语词汇表”(MedicalAcademicWordList)。族的

严明(2011)在黑龙江大学建设的商务英语语料库(HU-BEC)的基础上开发了一系列的商务专业英语词汇表,“商务英语专业参考词汇表”,“商务英语专业基础包括

”,“商务英语专业术语参考词汇表”,“商务参考词汇表

,英语专业缩写词表”这些词表的创建对于商务英语教学具有重要的指导价值。

2.2专科词典编纂

语料库应用于词典编纂研究起源于20世纪80年辛克莱教授带头建立了COBUILD语料库,采用词语代,

索引技术对海量语料进行大规模调查,从此开创了现代语料词典编纂的先河。自从COBUILD词典问世以后,

·55·

库辅助词典编纂已经成为潮流和趋势,并逐步由大型通,“建立用词典扩展到专门词典和专科词典领域。目前(杨惠语料库已经是当代编纂原创性词典的必要条件”中2002:27)。专业语料库由于其客观性、真实性以及高度的专业性,已成为专科词典编撰不可缺少的工具。首语料库可以自动检索、查询,大大节省了词典编纂的先,

人力、物力和时间。其次,专业语料库可以为专科词典编纂者根据词频表对一般通用词和各类立目提供依据,

专业词的词频统计,并结合词典的编纂宗旨和读者对确定收词范围,剔除低频词、补充高频词,以达到收象,

编者可以利用语料库的索引工具,瞬词的平衡。再次,

然后根据词间从专业语料库中检索出大量的可选例证,

典释义的实际情况和例证的词典功能,筛选并确定合适“既加快了词典编纂的速度,丰富了词典的例句。这样

中的词汇知识,增强了词典的原创性,又有利于提高词(章宜华2004:132)。此外,典例证的真实性和可靠性”

目前专业语料库基本上都是开放性的监控语料库(mo-nitorcorpus),可以不断采集各个学科专业中出现的最新语料,并对语言的变化发展实施监控。词典编纂者通过检索语料库可以获得最新词汇方面的知识以及其他语并将语言的实际用法及时反映到词典中来,这言变化,

还可以为编写新样既大大缩短词典修订和增补的周期,词语词典提供便利。

2.3辅助机器翻译

自20世纪90年代以来,语料库在机器翻译和机辅翻译中的作用已经得到越来越广泛的关注和认可,特别是在机器翻译研究中,人们提出了多种基于语料库翻译based)、如:基于实例的翻译方法(Example-的新方法,

based)和基于存储的翻基于统计的翻译方法(Statistic-等2004:91)。这译方法(TranslationMemory)(黄俊红,

些方法不仅可以直接使用对齐的双语语料改进机器自动翻译的质量,加强机器辅助翻译中的人机交互,还可以通过统计模型从双语语料库中获取翻译模型,从而改基于通用语料库的机器翻进传统机器翻译方法。目前,

译面临的主要困难就在于语言歧义的辨别与消解,而语言歧义现象的出现主要是因为人类语言内容丰富,形式多样而且富于变化。学科专业语料库专业化程度高,词汇意义指向单一,结构相对简单,可以在很大程度上减轻计算机处理系统在化解语言歧义方面的负担,有效提298)指出高机器翻译的准确度。MonaBaker(1999:281-“在专业学科领域,建立专业领域的汉英平行语料库,会在现有机器翻译系统性能的基础上,更好实现专业文章。近年来,的中英文翻译效果”基于学科专业语料库的机器翻译系统发展很快,取得了突出的成绩。如北大计清华大学智能技术国家重点实验室和中算语言研究所、

国科学院计算技术研究所共同开发的“面向新闻领域的,汉英机器翻译系统”其基础就是一个大型的汉英新闻对照语料库,目前该库已收集到中文约2000万字,英文

而且库容仍在不断扩大。随着学科专约1000万单词,

业语料库的不断完善,专业领域的机器翻译现状将得到极大的改善。

3.学科专业语料库的发展现状及存在的问题近年来,随着计算机技术、网络技术的发展和语料学科专业语料库的库开发应用方面的资源共享与合作,

研制也呈现出快速发展的趋势。很多学科和领域都相如解放军外国语学院的“军事英语语继建设了语料库,

,“海事英语语料库”,料库”大连海事大学的黑龙江大学“商务英语语料库”,国家语委建设的“计算机专业双的

语语料库”等等。从总体上来看,学科专业语料库的数量越来越多,规模也越来越大,但是有影响力的领域语料库还是凤毛麟角。由于各建库机构和单位之间缺乏交流与协作,语料库建设的领域相对集中,重复建设的情况很严重。此外,由于缺乏统一的规范和标准,以及知识产权方面的问题,很多专业库的利用效率非常低,面临很多亟需解决的问题。

3.1整体发展不平衡

学科专业语料库的发展很不平衡,首先表现在书面语语料库和口语语料库的数量相差悬殊。由于口语语料的搜集和取样过程较为复杂和繁琐,所以口语语料库和书面语语料库的发展极不均衡。目前建成的学科专业语料库大多为书面语语料库,而口语语料库由于人物力及技术方面的限制发展缓慢,数量很少。中国力、

科学院自动化所建立的“旅游咨询口语对话语料库”和“旅馆预定口语对话语料库”就是国内为数不多的几个专业口语语料库。其次,单语语料库与双语语料库的发而双展不平衡。单语语料库在数量上占有绝对的优势,语语料库数量较少,而且主要面向翻译研究的平行语料“新型双语旅游语料库”库,如和“计算机专业双语语料。此外,库”专业语料库的学科领域分布不均衡。专业语料库主要集中在新闻、医学、法律、商贸、旅游等方面,而且重复建设的情况比较严重;而在新兴的学科领域,如能源、通讯、物流、环境科学等方面的语料库则寥寥可数。

3.2理论研究滞后

相对于通用语料库和其他类型的专门用途语料库,学科专业语料库的理论研究相对滞后。笔者在中国知网上对1994—2012年间发表在核心期刊上关于“学科

的文献进行检索,经过筛选后获得相关文专业语料库”

章41篇,年均2.3篇。从研究文献的数量来看,无论是总量还是年均发表量都偏低,这说明对于该领域的理论研究还不够深入和广泛,挖掘的潜力还很大。在研究内容方面,从本体语言学角度对具体的专业学科语言特点进行探讨的文献数量最多(17篇),但大多数研究都集如“Foreign一词在中国英语新闻中在词汇层面(7篇),

(俞希2006:23-26),中的用法”句法、语用、语篇逻辑层

·56·

“体裁分析与商务促销类语篇”(王宏俐、面的文章,如郭37),继荣2006:32-数量不多,深度和广度也不够。另一学科专业语料库的建设和语料库技术的应用方面方面,

“新型双语旅游语料库的的文章数量也不少(16篇),如(李德超,54),“美英报刊英语等2010:46-研制和应用”

(郑志恒2007:32-38)等。与之标注语料库建设研究等”

相对应的是,基于语料库的实践应用研究较少,仅有8篇,而且集中在翻译和词典编纂领域。语言教学方面的只有“高校《机辅商务翻译》课程建设及文章数量最少,

(王立非2011:34-37)和“信息技术与教学系统的研发”

(吕桂2010:50-54)两篇文学术英语翻译课程整合研究”

章,而且内容主要围绕课程设计与课程实施展开,缺乏基于学科专业语料库专业语言教学类文章。由此可见,

的应用研究还相当薄弱,尤其是在语言教学方面。此外,学科专业语料库存在的理据、与ESP的关系以及国应当引起广泛的重内外发展现状的介绍也相当匮乏,视。

3.3资源难以共享

资源共享一直是语料库建设和开发中令人困扰的问题,随着学科专业语料库的广泛出现和应用,资源共享的问题也日益凸显。何婷婷(2003:19)提出“语料库与一般的数据库的一个重要区别就在于:它是为学术研究服务的,资源共享、最大限度地发挥其功能、让尽可能。然而,多的学者使用,是其追求的目标”目前只有极为少数的几个学科专业语料库(如“中国法律法规平行语)可以提供在线检索,料库汉英平行语料库”而且大多功仅提供搭配词和词语索引,研究价值有限。除能单一,

,“大部分已建成的语料库只掌握在小群体的语此之外

料库研究者手中,大多数圈外人只闻其名,难见其形”(杨惠中2002:58)。另一方面,学科专业语料库在设计标注和赋码方案是为了满足不同研究目的和应用领时,

域的需要为基础,具体的标注和赋码方案往往由用户自由于缺乏统一的管理和标准,各家所建的语料己制定,

库之间难以进行综合或者共享,结果往往是自建自用,造成了资源的极大浪费。尽管目前已经有很多比较成wordsmith等,熟的语料库工具软件,如antconc,但为了更好地服务于个性化研究,不少研究者根据自身研究的需要设计专项的分析软件,如“MaritimeESP小助手”就是针对航海专业英语自主开发的语料库检索软件(丁自华2011:103)。然而,众多的语料库工具的标识各不相同,在它们基础上编写的软件能通用的也不多,这给语料库资源共享带来了诸多困难。

4.学科专业语料库发展的前景与趋势

目前,学科专业语料库呈现出一些新的发展趋势,具体表现为以下几个方面。

1)专业口语语料库和双语语料库将成为未来重点建设的方向。语料库话语分析是语料库语言学研究热

相对于书面语而言,口语话语能够提供更多的语言点,

信息,更能揭示真实交际语言的内在特征和规律。一方科学技术的发展给口语语料的提取创造了很多便利面,

的条件;另一方面,话语分析的深层研究也需要以口语语料库的数据作为实证基础,因此加强口语语料库的建在很多专业学科领域,口语语料库设势在必行。目前,

的研制与开发潜力非常巨大,应用前景十分广阔,如医法律领域的法庭辩论语料学领域的医患口语语料库、

库、旅游行业的口语语料库等。除了口语语料库以外,双语语料库也是当前语料库语言学研究的一个焦点。2005年有根据全国哲学社会科学规划办公室网站资料,两项专业双语语料库课题(“台湾海峡两岸三地法律文“基于语料库的本汉/英双语平行语料库建设和研究”和)获得了国家社科基金立项。2010中医典籍英译研究”

年王克非教授主持的国家社科基金重大招标项目“大型英汉平行语料库的建立与加工研究”也包括多个专业双语语料库的开发与研制。此外,值得注意的是,口译双,“目前语语料库的建设和研究在国内还处于起步阶段已建和在建的口译语料库尚不到10个,最大的也不过100万字,(张威而且种类单一(会议口译)、标注简单”2012:193)。因此,未来口译语料库的建设要特别注重不同性质语料库的建设与完善,而专业平行口多类型、

译语料库是其中应当重点建设的一个方向。

2)研究重点将逐步由语料库的建设向基于语料库的应用研究转向,大力开展基于专业语料库的翻译研究和词典编纂研究,不断拓展和深化基于领域语料库的研究内容。首先,语料库与翻译研究相结合催生了一门新——语料库翻译学,极大地推动了译学研究,开的学科—

拓了新的研究范式。现有的译学语料库多为文学类语而法料库或以收纳百科文本为主的大型通用语料库,律、经贸、旅游等应用文体翻译语料或双语语料的译学。“迄今为止,专门为翻译研究而研究语料库不太常见

研制的应用型双语专门语料库并不多,且通常规模较(王克非2011:从几万次、几十万次到百万词不等”小,

210)。事实上,双语专业语料库无论对翻译研究还是译员培训都有其潜在的价值。以语料库为平台,对特定专业学科领域的翻译展开研究,不仅能够帮助提高翻译质量,推动应用文体翻译实践的发展,而且可以克服目前语料库翻译学研究过多集中于文学语料的缺陷。另一语料库作为一种新的方法近来在词典编纂和研究方面,

领域受到了越来越广泛的认可和重视。许多现代语言研究中心和词典编纂中心都把语料库建设作为至关重要的基础工程来对待。利用语料库编纂词典不仅能够为编者提供大量真实、自然的例句及其语境,而且能大缩短词典编纂的周期,同时也大提高词典编纂的效率,极大地方便了词典的修订与增补。

3)加强学科专业语料库的建设和应用,推进语料库资源共享。语料库的建设是一个艰巨的工程,语料的收

·57·

集、语料来源的版权问题等等都制约着语料库的规模、代表性以及流通的广泛性。许智坚(2008:102)提出解决问题的办法之一是建设语料库资源共享平台,多方合作实现语料库的共建和共享。美国Pennsylvania大学建立的LDC语言数据联合会(LinguisticDataConsortium)是一个值得借鉴的例子,该联合会实行会员制,有163个语料库(包括文本的以及口语的)参加,共享语言资实现资源最大限度共享的关键还在于设立专源。此外,

门的学术机构,定期召开学术会议,制定学科专业语料库的行业规范与标准,鼓励跨单位、跨领域的合作,避免低层次的重复建设,促进学科专业语料库的协调发展。目前,很多高校采取联合开发、合作建库的模式,使用者不仅可以便利地使用本校的语料库资源,而且可以通过教育网远程访问其他高校的子库资源,既充分利用了各高校的优势资源,又极大地减少了人力物力的浪费,真正实现了语料资源利用的最大化。

5.结语

随着计算机技术的不断进步,网络资源的充分利用,以及语料库分析工具的不断完善,个人独立完成具有针对性的专门用途小型语料库是完全可能的,而且这些研究者完全可以将自己的语料库建设成为某个领域的专业语料库。Sinclair早在2003年的语料库语言学国,“大型语料库建设的势头已缓,取而代际会议上就指出

之的是大批小型语料库的兴起。在努力建立超大型的、综合性的语料库的同时,建立更多的、具有专业性的和相对较小的专门用途英语语料库将是未来语料库语言。尽管目前学科专业语料库建设和学发展的一大趋势”

研究中存在一些普遍性问题,如低层次语料库重复建软件开发不足,系统的理论研究欠缺以及语料库在设,

外语教学中的应用尚欠发达等,但这些问题通过研究者的共同努力完全可以解决。

[2]Wang,J.etal.Establishmentofamedicalacademicwordlist[J].

EnglishforSpecificPurposes,2008(27):442-458.

[3]丁自华.专业英语语料库的开发与应用[J].航海教育研究,2011

(3):101-104.[4]黄俊红,黄

萍,范

云.专门用途类翻译平行语料库研究述评

[J].重庆大学学报(社会科学版),2004(6):91-94.

[5]何婷婷.语料库研究[D].博士论文.武汉:华中师范大学,

2003.

[6]李德超,王克非.新型双语旅游语料库的研制与应用[J].现代外

2010(1):46-54.语,[7]吕

——以医学英语桂.信息技术与学术英语翻译课程整合研究—J].学位与研究生教育,2010(8):50-54.为例[

[8]王宏俐,郭继荣.体裁分析与商务促销类语篇[J].外语教学,

2006(4):32-37.

[9]王克非.语料库翻译学探索[M].上海:上海交通大学出版社,

2011.

[10]王立非.高校《机辅商务翻译》课程建设及教学系统的研发[J].

2011(2):34-37.中国翻译,

[11]许智坚.语料库资源共享的可行性研究[J].漳州师范学院学报

(哲学社会科学版),2008(2):101-105.

[12]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,

2002.

[13]杨惠中,黄人杰.JDEST科技英语计算机语料库[J].外语教学

1982(4):60-62.与研究,[14]严[15]俞[16]张

明.商务英语语料库开发与应用研究[M].北京:中国商务——一项基于语希.Foreign一词在中国英语新闻中的用法—

威.近十年来口译语料库研究现状与发展趋势.浙江大学学2011.出版社,

J].外语教学,2006(6):23-26.料库的研究[

2012(3):193-205.报(人文社会科学版),

[17]章宜华.计算词典学与新型词典[M].上海:上海辞书出版社,

2004.

[18]郑志恒.美英报刊英语标注语料库建设研究[J].外语研究,

2007(2):32-38.

“专门用途英语基金项目:本文是陕西省教育厅科研计划项目

(项目编号:领域技术性词汇提取的语料库方法研究”

12JK0293)、西安外国语大学科研基金项目“专门用途英(项目编号:11XWB01)、语主题词表的创建及应用研究”

西北工业大学2012年度人文社科振兴基金重点项目(项目编号:RW201219)的阶段性研究成果。

作者简介:崔维霞,西安外国语大学高职部讲师,硕士,研究方

向为语料库语言学与专门用途英语教学。

王均松,西北工业大学人文与经法学院讲师,硕士,研究方向为语料库语言学与计算语言学。

注释:

①本研究中采取二次检索的方式。首先使用统称“专门用途语料”、“学科专业语料库”、“专业语料库”、“专用语料库”为主题词库

“新闻语料库”、“商务语料库”、“旅如进行检索;然后以具体类别,

”、“医学语料库”、“报刊语料库”、“法律语料库”、“军事游语料库

语料库”等为主题词进行二次检索,并对系统提供的与统计结果相似的文献进行筛选和收集。

参考文献

[1]Baker,Mona.Theroleofcorporaininvestigatingthelinguisticbehav-iorofprofessionaltranslators[J].InternationalJournalofCorpusLin-guistics,1999(4):281-298.

收稿日期责任编校

2012-06-17薛旭辉

·58·

2013年3月西安外国语大学学报

Mar.2013国内学科专业语料库研究现状及发展趋势

崔维霞,王均松

(西安外国语大学高职部陕西西安710061;西北工业大学人文与经法学院陕西西安710129)

要:学科专业语料库是依据某一学科或专业而建立的独具特色的专门用途语料库,其在专业词表制定、专科词典

编纂以及机辅翻译等领域应用十分广泛。近年来,国内学科专业语料库呈现快速发展的趋势,数量越来越多,规模也越来越大;但同时也暴露出一系列问题,如总体发展不平衡、理论研究滞后、资源难以共享等。随着大型通用语料库建设速度放缓,规模较小的学科专业语料库将是未来语料库语言学发展的一大趋势。关键词:学科专业语料库;专门用途语料库;趋势中图分类号:H030

文献标识码:A

9876(2013)01-0055-04文章编号:1673-Abstract:Thediscipline-specificcorpus,whichisbasedonaspecificfieldorsubject,hasfoundwideapplicationinmakingspecializedwordlist,syllabusdesign,lexicographyandmachinetranslation.Inrecentyears,thereisarapidincreaseofdo-mesticdiscipline-specificcorporabothinnumberandsize,butontheotherhandtherestillexisttheproblemswithitsoverallspecificcorpusisdevelopment,theoreticalresearchandresourcesharing.Itisbelievedthatdevelopingthesmalldiscipline-oneoftheleadingtrendsofcorpuslinguisticsasgrowthslowsinthehugegeneral-purposecorpus.Keywords:discipline-specificcorpus;specializedcorpus;trend

1.引言

specificcorpus)是专门用学科专业语料库(subject-途语料库的一个分支,它依据某一特定学科(或专业)领域而建立,其立足点是语料来源于某一学科或专业,如法律英语语料库、医学英语语料库等。新闻英语语料库、

与其他类型的专门用途语料库相比,学科专业语料库的针对性强,专业化程度高,在专门用途英语教学研究以及专科词典编纂方面的优势非常明显。20世纪90年代以来,我国语料库建设取得了长足的进步,语料库方法在语言教学、词典编纂和语言研究等领域深入展开,先后建立了一系列应用于不同领域的学科专业语料库,并进行了相关研究。但是,相对于通用语料库和其他类型学科专业语料库的建设和研究才刚的专门用途语料库,

面临诸多的问题与挑战。本文首先对学科专业刚起步,

语料库的应用进行了全面、系统的介绍,然后在文献总结和梳理的基础上对该类型语料库的研究现状进行了深入的分析,指出其存在的问题与不足,并对未来的发展方向和前景进行了展望。

2.学科专业语料库的应用

基于学科专业语料库的语言研究及应用领域相当广泛,如语言教学、语言测试、词典编纂、翻译研究等。其中,学科专业语料库在专业词表的制定、专科词典编纂以及辅助机器翻译方面的应用备受关注。

2.1专业词表制定

在语料库分析中,词频(WordFrequency)是最基本的统计量之一,根据词汇在语料库中的词频、覆盖面和分布情况而制定词汇表可以为英语教学大纲设计、教材上海交通大编写提供客观依据。早在20世纪80年代,

62)通过对自建的上海交学杨惠中和黄人杰(1982:60-通大学科技英语语料库语料(JDEST)比较、统计和筛选,研究出基于该库的正序词表、词频词汇表和十个分专业词汇表,为确定大学英语教学大纲的词汇表提供了学科专业语料库的迅速发展可靠的量化依据。近年来,

为编制特点鲜明的专业英语教学词表提供了有利的条J.等人(2008:442-458)在自建100万词件。如Wang,

次规模医学英语语料库的基础上,创建了包括650个词“医学英语词汇表”(MedicalAcademicWordList)。族的

严明(2011)在黑龙江大学建设的商务英语语料库(HU-BEC)的基础上开发了一系列的商务专业英语词汇表,“商务英语专业参考词汇表”,“商务英语专业基础包括

”,“商务英语专业术语参考词汇表”,“商务参考词汇表

,英语专业缩写词表”这些词表的创建对于商务英语教学具有重要的指导价值。

2.2专科词典编纂

语料库应用于词典编纂研究起源于20世纪80年辛克莱教授带头建立了COBUILD语料库,采用词语代,

索引技术对海量语料进行大规模调查,从此开创了现代语料词典编纂的先河。自从COBUILD词典问世以后,

·55·

库辅助词典编纂已经成为潮流和趋势,并逐步由大型通,“建立用词典扩展到专门词典和专科词典领域。目前(杨惠语料库已经是当代编纂原创性词典的必要条件”中2002:27)。专业语料库由于其客观性、真实性以及高度的专业性,已成为专科词典编撰不可缺少的工具。首语料库可以自动检索、查询,大大节省了词典编纂的先,

人力、物力和时间。其次,专业语料库可以为专科词典编纂者根据词频表对一般通用词和各类立目提供依据,

专业词的词频统计,并结合词典的编纂宗旨和读者对确定收词范围,剔除低频词、补充高频词,以达到收象,

编者可以利用语料库的索引工具,瞬词的平衡。再次,

然后根据词间从专业语料库中检索出大量的可选例证,

典释义的实际情况和例证的词典功能,筛选并确定合适“既加快了词典编纂的速度,丰富了词典的例句。这样

中的词汇知识,增强了词典的原创性,又有利于提高词(章宜华2004:132)。此外,典例证的真实性和可靠性”

目前专业语料库基本上都是开放性的监控语料库(mo-nitorcorpus),可以不断采集各个学科专业中出现的最新语料,并对语言的变化发展实施监控。词典编纂者通过检索语料库可以获得最新词汇方面的知识以及其他语并将语言的实际用法及时反映到词典中来,这言变化,

还可以为编写新样既大大缩短词典修订和增补的周期,词语词典提供便利。

2.3辅助机器翻译

自20世纪90年代以来,语料库在机器翻译和机辅翻译中的作用已经得到越来越广泛的关注和认可,特别是在机器翻译研究中,人们提出了多种基于语料库翻译based)、如:基于实例的翻译方法(Example-的新方法,

based)和基于存储的翻基于统计的翻译方法(Statistic-等2004:91)。这译方法(TranslationMemory)(黄俊红,

些方法不仅可以直接使用对齐的双语语料改进机器自动翻译的质量,加强机器辅助翻译中的人机交互,还可以通过统计模型从双语语料库中获取翻译模型,从而改基于通用语料库的机器翻进传统机器翻译方法。目前,

译面临的主要困难就在于语言歧义的辨别与消解,而语言歧义现象的出现主要是因为人类语言内容丰富,形式多样而且富于变化。学科专业语料库专业化程度高,词汇意义指向单一,结构相对简单,可以在很大程度上减轻计算机处理系统在化解语言歧义方面的负担,有效提298)指出高机器翻译的准确度。MonaBaker(1999:281-“在专业学科领域,建立专业领域的汉英平行语料库,会在现有机器翻译系统性能的基础上,更好实现专业文章。近年来,的中英文翻译效果”基于学科专业语料库的机器翻译系统发展很快,取得了突出的成绩。如北大计清华大学智能技术国家重点实验室和中算语言研究所、

国科学院计算技术研究所共同开发的“面向新闻领域的,汉英机器翻译系统”其基础就是一个大型的汉英新闻对照语料库,目前该库已收集到中文约2000万字,英文

而且库容仍在不断扩大。随着学科专约1000万单词,

业语料库的不断完善,专业领域的机器翻译现状将得到极大的改善。

3.学科专业语料库的发展现状及存在的问题近年来,随着计算机技术、网络技术的发展和语料学科专业语料库的库开发应用方面的资源共享与合作,

研制也呈现出快速发展的趋势。很多学科和领域都相如解放军外国语学院的“军事英语语继建设了语料库,

,“海事英语语料库”,料库”大连海事大学的黑龙江大学“商务英语语料库”,国家语委建设的“计算机专业双的

语语料库”等等。从总体上来看,学科专业语料库的数量越来越多,规模也越来越大,但是有影响力的领域语料库还是凤毛麟角。由于各建库机构和单位之间缺乏交流与协作,语料库建设的领域相对集中,重复建设的情况很严重。此外,由于缺乏统一的规范和标准,以及知识产权方面的问题,很多专业库的利用效率非常低,面临很多亟需解决的问题。

3.1整体发展不平衡

学科专业语料库的发展很不平衡,首先表现在书面语语料库和口语语料库的数量相差悬殊。由于口语语料的搜集和取样过程较为复杂和繁琐,所以口语语料库和书面语语料库的发展极不均衡。目前建成的学科专业语料库大多为书面语语料库,而口语语料库由于人物力及技术方面的限制发展缓慢,数量很少。中国力、

科学院自动化所建立的“旅游咨询口语对话语料库”和“旅馆预定口语对话语料库”就是国内为数不多的几个专业口语语料库。其次,单语语料库与双语语料库的发而双展不平衡。单语语料库在数量上占有绝对的优势,语语料库数量较少,而且主要面向翻译研究的平行语料“新型双语旅游语料库”库,如和“计算机专业双语语料。此外,库”专业语料库的学科领域分布不均衡。专业语料库主要集中在新闻、医学、法律、商贸、旅游等方面,而且重复建设的情况比较严重;而在新兴的学科领域,如能源、通讯、物流、环境科学等方面的语料库则寥寥可数。

3.2理论研究滞后

相对于通用语料库和其他类型的专门用途语料库,学科专业语料库的理论研究相对滞后。笔者在中国知网上对1994—2012年间发表在核心期刊上关于“学科

的文献进行检索,经过筛选后获得相关文专业语料库”

章41篇,年均2.3篇。从研究文献的数量来看,无论是总量还是年均发表量都偏低,这说明对于该领域的理论研究还不够深入和广泛,挖掘的潜力还很大。在研究内容方面,从本体语言学角度对具体的专业学科语言特点进行探讨的文献数量最多(17篇),但大多数研究都集如“Foreign一词在中国英语新闻中在词汇层面(7篇),

(俞希2006:23-26),中的用法”句法、语用、语篇逻辑层

·56·

“体裁分析与商务促销类语篇”(王宏俐、面的文章,如郭37),继荣2006:32-数量不多,深度和广度也不够。另一学科专业语料库的建设和语料库技术的应用方面方面,

“新型双语旅游语料库的的文章数量也不少(16篇),如(李德超,54),“美英报刊英语等2010:46-研制和应用”

(郑志恒2007:32-38)等。与之标注语料库建设研究等”

相对应的是,基于语料库的实践应用研究较少,仅有8篇,而且集中在翻译和词典编纂领域。语言教学方面的只有“高校《机辅商务翻译》课程建设及文章数量最少,

(王立非2011:34-37)和“信息技术与教学系统的研发”

(吕桂2010:50-54)两篇文学术英语翻译课程整合研究”

章,而且内容主要围绕课程设计与课程实施展开,缺乏基于学科专业语料库专业语言教学类文章。由此可见,

的应用研究还相当薄弱,尤其是在语言教学方面。此外,学科专业语料库存在的理据、与ESP的关系以及国应当引起广泛的重内外发展现状的介绍也相当匮乏,视。

3.3资源难以共享

资源共享一直是语料库建设和开发中令人困扰的问题,随着学科专业语料库的广泛出现和应用,资源共享的问题也日益凸显。何婷婷(2003:19)提出“语料库与一般的数据库的一个重要区别就在于:它是为学术研究服务的,资源共享、最大限度地发挥其功能、让尽可能。然而,多的学者使用,是其追求的目标”目前只有极为少数的几个学科专业语料库(如“中国法律法规平行语)可以提供在线检索,料库汉英平行语料库”而且大多功仅提供搭配词和词语索引,研究价值有限。除能单一,

,“大部分已建成的语料库只掌握在小群体的语此之外

料库研究者手中,大多数圈外人只闻其名,难见其形”(杨惠中2002:58)。另一方面,学科专业语料库在设计标注和赋码方案是为了满足不同研究目的和应用领时,

域的需要为基础,具体的标注和赋码方案往往由用户自由于缺乏统一的管理和标准,各家所建的语料己制定,

库之间难以进行综合或者共享,结果往往是自建自用,造成了资源的极大浪费。尽管目前已经有很多比较成wordsmith等,熟的语料库工具软件,如antconc,但为了更好地服务于个性化研究,不少研究者根据自身研究的需要设计专项的分析软件,如“MaritimeESP小助手”就是针对航海专业英语自主开发的语料库检索软件(丁自华2011:103)。然而,众多的语料库工具的标识各不相同,在它们基础上编写的软件能通用的也不多,这给语料库资源共享带来了诸多困难。

4.学科专业语料库发展的前景与趋势

目前,学科专业语料库呈现出一些新的发展趋势,具体表现为以下几个方面。

1)专业口语语料库和双语语料库将成为未来重点建设的方向。语料库话语分析是语料库语言学研究热

相对于书面语而言,口语话语能够提供更多的语言点,

信息,更能揭示真实交际语言的内在特征和规律。一方科学技术的发展给口语语料的提取创造了很多便利面,

的条件;另一方面,话语分析的深层研究也需要以口语语料库的数据作为实证基础,因此加强口语语料库的建在很多专业学科领域,口语语料库设势在必行。目前,

的研制与开发潜力非常巨大,应用前景十分广阔,如医法律领域的法庭辩论语料学领域的医患口语语料库、

库、旅游行业的口语语料库等。除了口语语料库以外,双语语料库也是当前语料库语言学研究的一个焦点。2005年有根据全国哲学社会科学规划办公室网站资料,两项专业双语语料库课题(“台湾海峡两岸三地法律文“基于语料库的本汉/英双语平行语料库建设和研究”和)获得了国家社科基金立项。2010中医典籍英译研究”

年王克非教授主持的国家社科基金重大招标项目“大型英汉平行语料库的建立与加工研究”也包括多个专业双语语料库的开发与研制。此外,值得注意的是,口译双,“目前语语料库的建设和研究在国内还处于起步阶段已建和在建的口译语料库尚不到10个,最大的也不过100万字,(张威而且种类单一(会议口译)、标注简单”2012:193)。因此,未来口译语料库的建设要特别注重不同性质语料库的建设与完善,而专业平行口多类型、

译语料库是其中应当重点建设的一个方向。

2)研究重点将逐步由语料库的建设向基于语料库的应用研究转向,大力开展基于专业语料库的翻译研究和词典编纂研究,不断拓展和深化基于领域语料库的研究内容。首先,语料库与翻译研究相结合催生了一门新——语料库翻译学,极大地推动了译学研究,开的学科—

拓了新的研究范式。现有的译学语料库多为文学类语而法料库或以收纳百科文本为主的大型通用语料库,律、经贸、旅游等应用文体翻译语料或双语语料的译学。“迄今为止,专门为翻译研究而研究语料库不太常见

研制的应用型双语专门语料库并不多,且通常规模较(王克非2011:从几万次、几十万次到百万词不等”小,

210)。事实上,双语专业语料库无论对翻译研究还是译员培训都有其潜在的价值。以语料库为平台,对特定专业学科领域的翻译展开研究,不仅能够帮助提高翻译质量,推动应用文体翻译实践的发展,而且可以克服目前语料库翻译学研究过多集中于文学语料的缺陷。另一语料库作为一种新的方法近来在词典编纂和研究方面,

领域受到了越来越广泛的认可和重视。许多现代语言研究中心和词典编纂中心都把语料库建设作为至关重要的基础工程来对待。利用语料库编纂词典不仅能够为编者提供大量真实、自然的例句及其语境,而且能大缩短词典编纂的周期,同时也大提高词典编纂的效率,极大地方便了词典的修订与增补。

3)加强学科专业语料库的建设和应用,推进语料库资源共享。语料库的建设是一个艰巨的工程,语料的收

·57·

集、语料来源的版权问题等等都制约着语料库的规模、代表性以及流通的广泛性。许智坚(2008:102)提出解决问题的办法之一是建设语料库资源共享平台,多方合作实现语料库的共建和共享。美国Pennsylvania大学建立的LDC语言数据联合会(LinguisticDataConsortium)是一个值得借鉴的例子,该联合会实行会员制,有163个语料库(包括文本的以及口语的)参加,共享语言资实现资源最大限度共享的关键还在于设立专源。此外,

门的学术机构,定期召开学术会议,制定学科专业语料库的行业规范与标准,鼓励跨单位、跨领域的合作,避免低层次的重复建设,促进学科专业语料库的协调发展。目前,很多高校采取联合开发、合作建库的模式,使用者不仅可以便利地使用本校的语料库资源,而且可以通过教育网远程访问其他高校的子库资源,既充分利用了各高校的优势资源,又极大地减少了人力物力的浪费,真正实现了语料资源利用的最大化。

5.结语

随着计算机技术的不断进步,网络资源的充分利用,以及语料库分析工具的不断完善,个人独立完成具有针对性的专门用途小型语料库是完全可能的,而且这些研究者完全可以将自己的语料库建设成为某个领域的专业语料库。Sinclair早在2003年的语料库语言学国,“大型语料库建设的势头已缓,取而代际会议上就指出

之的是大批小型语料库的兴起。在努力建立超大型的、综合性的语料库的同时,建立更多的、具有专业性的和相对较小的专门用途英语语料库将是未来语料库语言。尽管目前学科专业语料库建设和学发展的一大趋势”

研究中存在一些普遍性问题,如低层次语料库重复建软件开发不足,系统的理论研究欠缺以及语料库在设,

外语教学中的应用尚欠发达等,但这些问题通过研究者的共同努力完全可以解决。

[2]Wang,J.etal.Establishmentofamedicalacademicwordlist[J].

EnglishforSpecificPurposes,2008(27):442-458.

[3]丁自华.专业英语语料库的开发与应用[J].航海教育研究,2011

(3):101-104.[4]黄俊红,黄

萍,范

云.专门用途类翻译平行语料库研究述评

[J].重庆大学学报(社会科学版),2004(6):91-94.

[5]何婷婷.语料库研究[D].博士论文.武汉:华中师范大学,

2003.

[6]李德超,王克非.新型双语旅游语料库的研制与应用[J].现代外

2010(1):46-54.语,[7]吕

——以医学英语桂.信息技术与学术英语翻译课程整合研究—J].学位与研究生教育,2010(8):50-54.为例[

[8]王宏俐,郭继荣.体裁分析与商务促销类语篇[J].外语教学,

2006(4):32-37.

[9]王克非.语料库翻译学探索[M].上海:上海交通大学出版社,

2011.

[10]王立非.高校《机辅商务翻译》课程建设及教学系统的研发[J].

2011(2):34-37.中国翻译,

[11]许智坚.语料库资源共享的可行性研究[J].漳州师范学院学报

(哲学社会科学版),2008(2):101-105.

[12]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,

2002.

[13]杨惠中,黄人杰.JDEST科技英语计算机语料库[J].外语教学

1982(4):60-62.与研究,[14]严[15]俞[16]张

明.商务英语语料库开发与应用研究[M].北京:中国商务——一项基于语希.Foreign一词在中国英语新闻中的用法—

威.近十年来口译语料库研究现状与发展趋势.浙江大学学2011.出版社,

J].外语教学,2006(6):23-26.料库的研究[

2012(3):193-205.报(人文社会科学版),

[17]章宜华.计算词典学与新型词典[M].上海:上海辞书出版社,

2004.

[18]郑志恒.美英报刊英语标注语料库建设研究[J].外语研究,

2007(2):32-38.

“专门用途英语基金项目:本文是陕西省教育厅科研计划项目

(项目编号:领域技术性词汇提取的语料库方法研究”

12JK0293)、西安外国语大学科研基金项目“专门用途英(项目编号:11XWB01)、语主题词表的创建及应用研究”

西北工业大学2012年度人文社科振兴基金重点项目(项目编号:RW201219)的阶段性研究成果。

作者简介:崔维霞,西安外国语大学高职部讲师,硕士,研究方

向为语料库语言学与专门用途英语教学。

王均松,西北工业大学人文与经法学院讲师,硕士,研究方向为语料库语言学与计算语言学。

注释:

①本研究中采取二次检索的方式。首先使用统称“专门用途语料”、“学科专业语料库”、“专业语料库”、“专用语料库”为主题词库

“新闻语料库”、“商务语料库”、“旅如进行检索;然后以具体类别,

”、“医学语料库”、“报刊语料库”、“法律语料库”、“军事游语料库

语料库”等为主题词进行二次检索,并对系统提供的与统计结果相似的文献进行筛选和收集。

参考文献

[1]Baker,Mona.Theroleofcorporaininvestigatingthelinguisticbehav-iorofprofessionaltranslators[J].InternationalJournalofCorpusLin-guistics,1999(4):281-298.

收稿日期责任编校

2012-06-17薛旭辉

·58·


    相关文章

    国内图式理论研究综述

    第19卷第4期 2011年7月 河南社会科学 Jul. ,2011 国内图式理论研究综述 康立新 (河南科技大学,河南洛阳471003) 摘要:采用定性研究与定量研究相结合的方法,对30年来国内图式理论研究的现状做了一个较为全 面的评述.主 ...

    公示语翻译研究十年综述

    上海翻译 20llNo.4 公示语翻译研究十年综述 邹彦群 满 颖 孟艳梅(北京第二外国语学院公示语翻译研究中心,北京100024) [摘要]以中国学术期刊网上关键词为"公示语"和"标识语"的文章为统 ...

    双语语料库在英汉翻译中的应用.doc2

    双语语料库在英汉翻译中的应用 外语学院09.3班 侯义茹 摘 要:本文介绍双语语料库的发展历程和现状及其研究价值,阐述了基于双语语料库 的英汉翻译教学及研究,讨论了计算机辅助翻译的重要性和应用.随着国与国之间密切的往 来,语言获得日新月异的 ...

    我国商业银行个人理财业务发展探析1

    我国商业银行个人理财业务发展探析 作者:曾庆山 文章出处:论文网 发布时间:2006-10-10 - 我国商业银行个人理财业务发展探析 一.国内个人理财业务发展现状 个人理财是指个人资产通过银行专家的理财服务实现保值增值的过程.具体的讲,我 ...

    教育信息技术在ESP教学中的应用和发展

    第161期 外语电化教学 TEFLE No.161Jan. 2015 2015年1月 教育信息技术在ESP教学中的应用和发展 王俊凯1,陈 洁2 (1.亳州师范高等专科学校外语系,安徽毫州,236800:2.上海对外经贸大学,上海,2016 ...

    崔希亮:"全球汉语学习者语料库"建设方案

    一.汉语中介语语料库建设现状 1.1 语料库的建设与作用 汉语中介语语料库的建设始于上世纪90年代,第一个语料库即北京语言学院于1995年建成的"汉语中介语语料库检索系统".此后有南京师范大学的"外国学生汉语中 ...

    金明区职称论文发表-旅游文本旅游文体语篇论文选题题目

    云发表,专业论文发表网站!http://www.yunfabiao.com/ 面向作者直接收稿,省去中间环节,价格更低,发表更快,收录更快! 金明区职称论文发表-旅游文本|旅游文体|语篇论文选题题目 金明区职称论文发表-以下是旅游文本|旅游 ...

    跨语言信息检索在搜索引擎中的应用

    跨语言信息检索在搜索引擎中的应用 摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性.重要性和最近的国内外应用状况.指出了对应用中存在的不足和缺陷,并相对应提出了改进建议.最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望. 关键词: ...

    如何写综述论文

    如何写文献综述 一.何谓文献综述? 文献综述是对某一学科.专业或专题的大量文献进行整理筛选.分析研究和综合提炼而成的一种学术论文,是高度浓缩的文献产品.根据其涉及的内容范围不同,综述可分为综合性综述和专题性综述两种类型.所谓综合性综述是以一 ...