汉语序数范畴研究
上QQ阅读APP看书,第一时间看更新

1.4 语料来源与处理方式

1.4.1 语料选择原则

语言研究中,没有丰富、可靠的语料,任何研究都是空中楼阁。本书十分重视实证研究,做了大量的语料调查和分析,在语料(尤其是现代汉语语料)选择中坚持以下三个原则:

共时性原则:充分考虑语言的发展变化,在现代汉语语料收集时尽量缩小时间跨度,把时间范围控制在30年以内,所收的都是1980年至2010年这个时间段的语料。

广泛性原则:丰富多样的语料可以提供较全面的视域,从而提高研究的科学性和准确性。语料收集时做到不局限于单一语体和单一题材。现代汉语语料中选取了口语、公文、新闻、科技、文艺等五种语体。在每种语体都选择典型下位语体的前提下,尽量扩大题材的广泛性。这在科技语体的语料收集上表现得尤为突出,所涉及的学科领域很广,包括社会科学和自然科学两大类,社会科学类的语料涉及心理、教育、经济、管理、语言、文化等学科,自然科学类的语料涉及物理、化学、天文、地理、交通、农业、医学、生物、计算机等学科。

典型性原则:均选取五种语体中的典型下位语体,口语语体的语料选自谈话和剧本对白,新闻语体的语料选自新闻报道,科技语体的语料选自科学著作和科普读物,文艺语体的语料选自小说。同时,也考虑到语言规范问题,尽量选择符合普通话规范的语料。

1.4.2 语料来源

本书所用语料包括汉语普通话语料、汉语方言语料、中国少数民族语言和外语语料。下文详细介绍各类语料来源:

(一)汉语普通话语料

汉语普通话语料主要来源于《现代汉语词典》(第6版)和汉语普通话语料库。为方便研究,我们建立了一个约1400万字的汉语普通话语料库,语料主要来源于北京大学中国语言学研究中心现代汉语语料库、《人民日报》电子版(1946~2011)、中国数字图书馆。其中口语和公文语体的语料各100万字,新闻、科技和文艺语体的语料各400万字。五种语体的语料在总量上有一定的差别,一是因为口语语体的语料不足;二是因为公文语体的法规体中,序数表达式的出现频率非常高,并且使用形式呈现单一性。由于本书不进行分语体的使用频率比较,所以语料在语体方面的数量差异不会影响我们的结论。另外,有少量语料来自人民数据库、中国期刊网。汉语普通话语料的具体构成情况如下:

1.词典

中国社会科学院语言研究所词典编辑室编《现代汉语词典》(第6版),商务印书馆2012。

2.1400万字的汉语普通话语料

表1.3 1400万字的汉语普通话语料

(二)汉语方言语料

汉语方言语料主要来源于田野调查、问卷调查和文献资料。

1.田野调查

为了获得第一手汉语方言材料,一方面,笔者前往上海、广州、厦门、长沙、南昌、浏阳、淮北等地,进行汉语方言的田野调查;另一方面,还对自己的母语湖南慈利话进行了记录和研究,这些都为本书的撰写提供了丰富的汉语方言语料。

2.问卷调查

根据前期研究,制定了调查问卷,先后进行了两次问卷调查。第一次以华中师范大学来自不同方言区的学生为调查对象,受试对象有20人。第二次以怀化学院文学与新闻传播学院汉语言文学专业一年级的本科生为调查对象,受试对象有30人。另外,利用参加各类学术会议的机会,请汉语方言的使用者和专家提供了一些原始语料,并对部分语料进行核实。

3.文献资料

广泛阅读、统计了《汉语方言语法类编》(黄伯荣1996)、《汉语方言大词典》(许宝华、宫田一郎1999)、李荣主编的《现代汉语方言大词典》及其他汉语方言研究的专著、论文。所涉及的文献资料相当多,这里不一一列出,仅在所引语料中标明来源。

(三)中国少数民族语言和外语语料

中国少数民族语言和外语语料主要来源于文献资料,我们查阅、统计了各类语言词典、《中国的语言》(孙宏开、胡增益、黄行2007)、《中国少数民族语言简志丛书》、《中国新发现语言研究丛书》、《中国少数民族语言方言研究丛书》及部分中国少数民族语言、外语研究专著、论文、教材。所涉及的文献资料相当多,这里不一一列出,仅在所引语料中注明来源。

1.4.3 语料处理方式

语料处理分两种方式,第一种是手工筛选,主要筛选《现代汉语词典》、50万字的现代汉语语料(从自建现代汉语语料库的五种语体中抽取)、汉语方言语料、中国少数民族语言和外语语料。第二种是“电子检索+手工筛选”,以“一、二……十”“1、2……9”“壹、贰……拾”“两、半、几”“甲、乙、丙……”“A、B、C……”等为查找项,在自建现代汉语语料库中找出所有包含查找项的例句,然后手工筛选出表示序数的用例。

语料处理时会出现大量的重复用例,如果一个序数表达式在同一句法位置多次出现,句法功能也一致,则只选取一例,其他重复用例归入所取例句中,并在此例句上标出重复用例的出现次数。