个性化虚拟语料库及其应用

时间：2022-03-12 08:42:26 浏览次数：次

摘要：个性化虚拟语料库是大数据时代应运而生的新兴工具，在语言教学与研究中应用前景广阔。它是以现有语料库或互联网语料为基础，根据个性化需求临时创建的专题语料库。本文以美国杨百翰大学维基百科英文语料库为例，介绍了如何创建、编辑、管理和使用个性化虚拟语料库，包括其检索方法，阐述了如何从中挖掘利用语言教学和词典编纂所需的各类词表，并探索了其在专门用途英语教学中的应用，最后提出了如何有效利用该类资源的建议和展望。

关键词：个性化虚拟语料库；维基百科语料库；词表；专门用途英语教学；专科词典编纂

中图分类号：H319.3 文献标识码：B 论文编号：1674-2117（2017）09-0096-05

近年来，语言教学与研究正日益广泛地用到语料库（corpus）资源。用户可在现成正规语料库或互联网语料的基础上，根据自身需求临时创建专题语料库，即个性化虚拟语料库（customized virtual corpus）。这两种语料来源各有优缺点，现成的正规语料库制作规范，标注与统计功能强大，但由于是静态资源，语料库容量有限，所以在建成之初其语料就已经“过时”。而互联网语料实际上是大数据时代的“网络语料库”（web as corpus，又译作“以网络为语料库”），它主要通过Google等搜索引擎来收集最新语料，其中以英国伯明翰城市大学的WebCorp等为代表，但由于受到搜索引擎功能的限制，缺乏正规语料库的标注和统计功能，所以它往往无法按语言工作者的需要精确检索到语料。

美国杨百翰大学（Brigham Young University）Mark Davies教授于2015年发布了具有开放性和动态性的维基百科英文语料库平台（The Wikipedia Corpus）。它为用户专门设置了创建个性化虚拟语料库的功能，这克服了“网络语料库”的目的性和针对性不强的缺点，同时又具有正规（静态）语料库的语料处理功能。该库用户可根据所需主题，检索相关内容的语料，临时聚合语料并分类管理，从而创建个性化的专题（子）库（刘喜琴 & Davies， 2017）。与Sketch Engine等提供的虚拟语料库功能相比，该库创建、管理和使用起来更加灵活方便，进一步降低了用户的技术门槛，因而具有广阔的应用前景。目前，该库语料来源于所有英语国家，库容达190亿个词，含4，400，000个文件。虽然容量巨大，但检索速度很快，是Sketch Engine的五六倍。其优势还体现在它的语料检索功能远远超过维基百科原有系统，而且与学校其他十多个免费权威语料库（如COCA、COHA、BYU-BNC等）实现了无缝对接（Davies， 2015）。

材料，如在电子词汇表中制作有关术语的维基百科语料库超链接，能让学生使用起来非常方便。

在ESP阅读教学方面，教师可按照具体学科的体系建立一个多层级的个性化虚拟语料库系统，挑选最合适的阅读材料提供给学习者。一个教学班的学生往往来自不同专业，因此需要根据其专业特点选择不同的阅读材料。而维基百科语料库因其语料专业性强且更新快而在这方面特别有优势。例如，我们建立一个BIOLOGY的专题库，里面可分为ZOOLOGY（动物学）、BOTONY（生物学）、MICROBIOLOBY（微生物学）等子库。学习者在阅读中遇到专业术语等方面的困难，可以随时查询总库或其他子库资源。

教师还可以通过杨百翰大学语料库网站的Word and Phrase主页（http：//，2009.

[4]Davies M.The Wikipedia Corpus[EB/OL].http：//corpus.byu.edu/wiki/，2015.

[5]Tarp S.，薛梅.語料库驱动词典学、语料库词典学与语料库辅助词典学——论语料库在注释专科术语词条的局限性[J].辞书研究，2016（4）.

[6]胡弘思.基于维基百科的双语可比语料的句子对齐[D].上海：上海交通大学，2013.

[7]刘喜琴.语料库辅助EFL自主学习的多维探索[M].广州：华南理工大学出版社，2013.

[8]刘喜琴，M. Davies.BYU语料库系统及其语言研究应用[J].中国教育信息化，2017.

[9]孟桂国.基于维基百科的双语语料挖掘技术研究[D].苏州：苏州大学，2010.

[10]王健燕.论英语语料库辅助下的学科专业英语（ESP）教学[J].南京航空航天大学学报：社会科学版，2012（1）.

[11]赵飞，周涛，张良，等.维基百科研究综述[J].电子科技大学学报，2010（3）.

本研究得到广东省哲学社会科学“十二五”规划项目（GD15XWW23）和2016年度广州市哲学社会科学发展“十三五”规划课题（2016GZGJ68）的资助，感谢吉林师范大学李亮博士的技术指导。

推荐访问： 语料库 及其应用 个性化 虚拟

[个性化虚拟语料库及其应用]相关文章

上一篇：2株番木瓜根际促生菌的解磷解钾作用
下一篇：基于共引分析的艾滋病疫苗技术前沿研究

[个性化虚拟语料库及其...]头条范本