中国的语言监测研究
摘 要: 语言监测是一项多学科交叉的语言工程。中国的语言监测研究在政府的支持和指导下取得了一系列的研究成果。语言资源是语言监测的基础。通过语言监测可以获得语言使用和语言发展的规律,用以指导语言政策和语言规划的制定。作为一项语言工程,语言监测必须要有相关理论的指导,也必须要有语言信息处理技术的支撑。语言监测的目标是为政府、社会以及学术界提供语言服务。
关键词: 语言监测;语料库;语言数据;语言服务
一、中国语言监测的机构和资源
中国的语言监测是在政府的支持和指导下开展工作的。2004年在教育部语言文字信息管理司的指导下,国家语言资源监测与研究中心成立,教育部语信司分别与北京语言大学、中国传媒大学、华中师范大学、厦门大学、中央民族大学共建了平面媒体中心、有声媒体中心、网络媒体中心、教育教材中心、少数民族语言中心。语言监测对象涵盖了最能代表大众语感的大众媒体和对民族语言发展影响最大的基础教育,既包括国家通用语言,也包括少数民族语言。
语言监测工作主要是在国家语言资源监测语料库基础上展开。国家语言资源监测语料库包括三个子库:通用语媒体语料库、教育教材语料库和少数民族语言语料库。教育教材语料库已搜集了1500万字的教材语料;少数民族语料以不同语种每年2亿字次的速度滚动建设;通用语媒体语料库还分为平面媒体、有声媒体、网络媒体三个子库,每年以10亿字次的规模滚动建设。我们根据流通度来选择那些具有典型性和代表性的不同媒体中的语料。
语言资源是语言监测的基础,是语言监测的生命所在。正是在国家语言监测语料库基础上,我们完成了一个又一个语言监测项目,获得了语言监测的成果。
二、语言监测的实践与成果
在大规模语料库的基础上,我们做了一系列语言使用实时动态调查,获得了很多宝贵的语言数据,发现了部分语言使用的规律。
比如,我们开展了大规模的字词调查。表1反映了从2005年到2013年9年的用字调查结果。注9
表1 2005—2013年度汉字对语料覆盖情况比较表
尽管每年社会生活都发生很大的变化,但汉字使用表现出很强的规律性:每年大众媒体上使用的汉字在1万个左右;覆盖语料80%的汉字在600个左右,覆盖语料90%的在1000个以内,覆盖语料99%的在2400个左右。这就给了我们常用汉字不同等级的数量标准。
表2是从2005年到2013年9年的用词调查结果,用词也表现出很强的规律性。
表2 2005—2013年度词语对语料覆盖情况比较表
表中显示,每年大众媒体上使用的词语数量与语料规模成正相关,语料规模越大,所用词语越多;10亿字次规模的语料使用词语220万左右;覆盖语料80%的词语数量在4700左右,覆盖语料90%的在13000左右,覆盖语料95%的在35000左右。这个结果提供了汉语常用词语不同等级的数量标准。从表1、表2可以看出,覆盖率达到90%,汉语最常用的字词数量可以概括为一个四字格——“千字万词”。
上面是汉语字、词使用数量的规律。下面再从共用、独用角度来看看不同年度字词使用的变化。
表3描述了从2005年到2013年9年汉字的共用、独用状况。
表3 2005—2013年度汉字共用、独用情况比较
可以看出,2013年除外,共用汉字在各年度汉字字种中都占65%以上(排除2005年语料规模不同的因素);而独用汉字在各年字种中基本都不到5%。如果用一个字来概括说明各年度汉字的使用状况,那就是“稳”。
表4描述了从2005年到2013年9年词语的共用、独用状况。
可以看出,跟汉字相比,情况发生了相当大的变化。各年共用词除了2005年外均不到10%,而独用词占将近一半。如果也用一个字来概括说明各年度词语的使用状况,那就是“变”。
表4 2005—2013年度词语共用、独用情况比较
由此看,字是以稳为主,稳中有变,稳是主流;词是以变为主,变中有稳,变是主流。那么比词更大的单位句子呢,显然是变数更大,而比字更基本的单位音节,要比字更稳定。这也证明了一个规律:语言单位越小,其稳固性越强,种数越少;语言单位越大,其稳固性越差,种数越多。这就印证了乔姆斯基的语言观:语言以有限的形式实现了无限的表达。最早提出这种认识的其实还不是乔姆斯基,早在一个多世纪以前,德国著名语言学家洪堡特就提出了相同的观点。
或许有人会问:每年有200多万词,怎么会有那么多?都是一些什么样的词语呢?图1是2010年218万词种的类别分布图。
图1 2010年218万词种类别分布图
由图1可以看出,每年出现最多的是人名,几乎占全部词语的三分之一,其次是机构名、地名、其他专名,以及时间、数字表达式等;而普通词语,即语文词,仅占10%。但这些词语使用的频率是不一样的。图2呈现了一个与此相反的状态,普通词使用次数占91%,而人名、地名仅各占2%。如果我们把普通词以外的词语都归结为“命名实体”,那么图3和图4显示出“普通词语”和“命名实体”在词种分布和词次分布上的巨大反差。占词种10%的普通词语覆盖了语料的91%。这说明普通词语的使用频度要远远高于各种命名实体。这就是语言使用的一种实际状态。
我们还调查了新媒体博客的语言使用状况,并发现了一个很有意思的现象:不同性别的博客用户在使用词语上各有特点,下面是男性和女性使用最多的前10个名词:
男性:社会、问题、国家、政府、学生、文化、政治、历史、学校、大学
女性:女人、男人、时候、女性、爱情、朋友、孩子、美女、明星、妈妈
图2 2010年6亿词次类别分布图
图3 词种分布图 图4 词次分布图
从这些词可以看出,男性更关注社会、政治;女性更关注家庭、生活。这是否说明:如果我们想回到一个人本社会的话,女性管理者、女总统可能更有优势?
上面给大家介绍的是对语言使用状况的整体面貌的监测。更重要的是,我们的研究要为国家服务,就必须去做问题驱动的语言研究。我们也针对社会上一些语言问题做了有关语言文字舆情的监测工作。例如,随着改革开放,汉语中出现了大量的字母词,可以说字母词的大量使用是新时期汉语书面使用系统一个最大的变化。关于字母词的使用问题,一直争议不断。有人提出了“汉语危机论”,认为像NBA、WTO、GDP这些外文缩略词的使用会导致汉语在300年后消亡,提出要打一场“汉语保卫战”。汉语真的会消亡吗?字母词的使用到底是一种怎样的情况?应如何看待它?这是一个语言生活中确实存在、各阶层人士都十分关心的问题。为回答这个问题,我们对1990—2012年《人民日报》字母词的使用情况进行了调查。图5显示的是23年间字母词词种的使用变化趋势。
图5 《人民日报》1990—2012年字母词词种使用变化趋势
图5显示,以2000年为界可以分成两段,前一段的11年间字母词数量上升较快,从每年使用300多个上升到1000多个;2000年以后的12年间字母词数量略有上升,但基本上是在1000个左右波动。这似乎告诉我们:出于语言工具性的需要,汉语对字母词的吸收和使用不是无限制的,到达一定的量就会进入饱和状态。我们再来看图6:
图6 《人民日报》1990—2012年字母词词种、词次使用比例变化趋势
图6实际上是两幅图,上面是字母词词种使用变化的比例图,下面是词次使用变化比例图。这两张图与图5显示了同样的变化曲线和趋势,都是前半段上升,后半段基本平稳,词种比例甚至略有下降。我们要注意的是Y轴上的比例,词种比例是“千分之几”,1990年是千分之二,2000年是千分之五;而词次比例则是“万分之几”,1990年还不到万分之一,2001年几乎达到顶峰,但也仅仅是万分之六。这说明字母词大部分是低频词,使用频次大大低于汉字词。图6再次证明,语言具有一种自我调节功能,字母词无论词种还是词次,在使用中都会有量的控制。
字母词使用的稳定性如何?也可以通过年度间共用的统计数据来说明。
1990—2012年23年间一共使用了近10000个不同的字母词,共用的字母词只有23个:ABC、BBC、B超、CAD、CCTV、CNN、CT、DNA、GE、IBM、NEC、NHK、PC、PVC、SOS儿童村、T恤、T恤衫、X光、X光机、阿Q、卡拉OK、维生素A、维生素C。而人们很熟悉的APEC、NBA、GPS、MBA、MTV等是1992年以后才开始使用的。
这个调查证明:(1)汉语不存在危机,不会因字母词的使用而在300年后消亡;(2)字母词使用很不稳定,大部分字母词对大多数人是陌生的,应尽量少用;(3)应推动外文缩略词的汉化工作。
中国已在2012年6月20日成立外语中文译写规范部际联席会议专家委员会,该委员会专门负责这项工作。在数据的支持下,经过专家论证,2013年4月19日公布:PM2.5的中文名称为“细颗粒物”。9月13日又公布了包括PM2.5、IT、IQ、WTO、WHO在内的10个外文缩略词的中文名称。相信随着类似工作的开展,汉语会朝着越来越健康的方向发展。
有关语言监测的成果大都收录在各年度的中国语言生活绿皮书《中国语言生活状况报告》中。目前,这个绿皮书系列已经被译为英文由德国德古意特(DE GRUYTER)出版社出版,在全世界发行。从2006年开始在商务印书馆出版新词语编年本,每年一本,记录当年的新词语,以反映社会历史的变化。此外,国家语言资源监测与研究中心还做了以下工作:
中国媒体十大流行语发布(2003—2013)
中国媒体十大新词语发布(2011—2013)
中国十大网络词语发布(2012—2013)
汉语字词盘点(2006—2013)
这些工作在社会上产生了很大的影响。现在,用语言盘点社会生活已经成了一场盛宴,一种年俗。每到年底,人们都会期待猜测:哪些字或哪些词能代表过去的一年?
三、语言监测的理论与技术
作为一项语言工程,语言监测有三个支撑点:资源、理论、技术。资源是语言监测的基础,是语言监测获得生命的源泉;理论是语言监测的指导,使之向科学健康的方向前进;技术是语言监测得以实现的保障。
在语言监测的实践中,除了使用现有的语言理论,我们还提出了一些理论模型,如语言动态—稳态模型、相对时间理论模型、词汇时空运动模型、语言监测框架体系等等。这里重点介绍后两个。
首先是词汇时空运动模型。哲学告诉我们,物体的运动总是在时空中发生的,语言系统也不能例外。词汇系统中的每一个词语都有自己的运动轨迹,都可以从时间和空间这两个维度去考察。词汇的时空运动可以通过它在词汇系统中的分布空间在时间上的变化来表示。可以用归一化使用率、使用率比、速度函数作为词汇时空运动模型的特征集。这样我们就将常用词、流行语、新词语、字母词、术语、突发事件用词等各类不同词汇现象纳入一个统一的理论模型中,从而满足各年度《中国语言生活状况报告》发布任务的需要。
图7显示的是我们提出的语言监测框架体系。
图7 语言监测框架体系图
语言监测框架体系将语言监测分为自下而上、前后衔接的四个模块:语言资源—技术平台—数据监测—服务提供。其中语言资源是基础,为语言监测提供原料;技术平台是支撑,语料经过技术平台的处理才能变成有用的数据;数据是监测的结果,它们要通过一定的平台发布出去,才能实现服务国家、服务社会、服务学术的功能。语言监测正是这样通过共享机制实现它的服务功能,又通过评测机制不断改进完善。
除了语言理论指导,语言监测还需要现代技术的支撑,如果没有一个能支持下述功能的技术平台,语言监测就无法实现:
语料的自动采集、分类、标注、储存功能;
提取分类语料形成子语料库的功能;
大规模语料的自动分词、词性标注功能;
字频、词频统计功能;
任意字符串、词串的检索功能;
凸显语言新现象,以便于提取新词语、流行语的功能;
凸显特定词语,以便于提取与社会发展变化密切相关的词语(机构名、人名、姓氏、字母词等)的功能;
语音语料的采集、存储、检索,方便查找词语读音的功能;
对语言文字舆情实时监测的功能;
……
四、语言监测与语言服务
语言服务是语言监测的终极目标。
为国家服务主要是为政府决策服务。我们的监测数据和咨政报告支持国家语委的一些语言文字规范和标准的制定,为制定语言政策提供参考。
为社会服务主要是为公众服务。国家资源,要取之于民,用之于民。数据公布可以引导民众关注语言生活,把握语言国情,冷静客观地看待和应对语言生活中的各种新变化和歧异现象,以构建和谐的语言生活。
为学术服务可以分为线上和线下两个渠道进行。线上:主要是利用各分中心的网站公布语言资源、技术资源及文献资源,实现最大限度的资源共享。线下:采用合作研究的方式,用语料、数据及工具支持兄弟院校和科研机构承担的研究项目以及国内外一些博士、硕士研究生的研究课题。
综上所述,语言监测工作主要包括三个元素:语言+计量+社会。我们的目标就是用语言这把尺子来丈量社会,丈量人心百态。我们力图把语言研究与社会生活、与国家发展紧密联系起来,因此就产生了生长于中国大地、不同于以往的语言学流派——语言生活派。这个学派的研究特点应该是接地气、求真知、重实用。我们今后还将沿着这个方向继续前行。
主要参考文献:
[1]国家语言资源监测与研究中心编 2006 《中国语言生活状况报告(2005)》(下编),商务印书馆。
[2]国家语言资源监测与研究中心编 2007 《中国语言生活状况报告(2006)》(下编),商务印书馆。
[3]国家语言资源监测与研究中心编 2008 《中国语言生活状况报告(2007)》(下编),商务印书馆。
[4]国家语言资源监测与研究中心编 2009 《中国语言生活状况报告(2008)》(下编),商务印书馆。
[5]国家语言资源监测与研究中心编 2010 《中国语言生活状况报告(2009)》(下编),商务印书馆。
[6]教育部语言文字信息管理司组编 2011 《中国语言生活状况报告(2011)》,商务印书馆。
[7]教育部语言文字信息管理司组编 2012 《中国语言生活状况报告(2012)》,商务印书馆。
[8]教育部语言文字信息管理司组编 2013 《中国语言生活状况报告(2013)》,商务印书馆。
[9]何伟、侯敏 2009 《基于词汇时间分布信息的未登录词提取》,载《中国语言资源论丛》(一),商务印书馆。
[10]侯敏 2010 《语言资源建设与语言生活监测相关术语简介》,《术语标准化与信息技术》第2期。