词语计算与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

刘华博士的专著《词语计算与应用》(他谦称为一本“学术上摸索的小书”)就要出版了,希望我为他写一篇序,我答应了。临近截稿日期了,我还没有开笔。因为有一些急于处理的事情,而且又临近我住院的日子,所以我向刘华提出,要不那篇序就算了,有没有关系不大,不要耽误了书的出版。刘华回复坚请,说还来得及,就是推迟几天出版,也要等老师的序来添色。事情就可以从“添色”说起了。

新世纪的读者如果觉得刘华的“小书”《词语计算与应用》读起来有味道、实用,特别是文科的大学生、研究生,认为有新信息、新内容,那是此书本身所存在的“特色”,不是我所能“添”上去的。正如刘华自己所说,他作为一个“计算语言学的门外汉”,经过几年在1和0的世界里纠结、挣扎,才获得了这些心得和成果。不“纠结、挣扎”,一个“门外汉”怎么可能不仅进到门里,还登堂入室,拿到博士学位呢?正所谓天道酬勤,一分耕耘,一分收获。舒舒服服、投机取巧混文凭的人是有的,但这终究是自欺欺人,迟早会暴露。刘华博士的努力是实在的、痛苦的、反复的,也是曲折向上的。

刘华自2002年起,在北京语言大学语言学及应用语言学博士点下攻读“语言信息处理”方向的博士学位。作为一个文科出身的应用语言学的硕士,要以计算机为主要工具,以建设动态流通语料库为主要目标和研究手段,以语言信息处理为主要研究内容,对刘华来说,确实困难重重。他说他从那时才开始接触“1和0的世界”。2002年至2010年,他苦学了8年时间,有意思的是这正好与计算机“二换八”(由低阶二进制换算为高阶八进制)的数字巧合。我看中的恰恰是他的这种倔强钻研、一定要达到目的的牛劲。电子计算机本来就是为各行各业服务的工具,这一新的数字化手段,效力远远超出了技术范围。它不仅冲击着人们传统的工作方式,而且前所未有地改变了人类的生活方式和世界的秩序。正因为计算机(后来又加上网络)渗透了各个领域,现代社会对于它的依赖度也越来越高,所以它也必须与时俱进,升级换代,才能不断适应现代社会的要求,并且越来越人性化、越来越智能化。计算机能够适应各行各业工作的种种特定功能,需要在系统软件的平台和基础上,开发各种不同的应用软件,这就要有各行各业的人士根据自身的工作需要来参与设计开发,提出用户需求,有能力的用户甚至自己进行开发。但是不论谁来开发,只有熟悉所在的领域,设计开发才会更有针对性,更有实用性。具有语言学专业背景的人,研究“词语计算与应用”这种方法甚至开发应用软件,当然就具备了一定的有利条件。不断发现和解决计算机在语言研究与语言应用中的问题,是“语言信息处理”工作者的目标和任务,刘华博士的成果正是在完成这个总的目标和任务。当然,今后众多像刘华博士一样的“彻彻底底的文科生”,不必担心自己都得像刘华博士一样费劲,你们进行“词语计算与应用”时,就会感到使用起计算机来比较得心应手了。倘若你们觉得还不够得心应手,那么你们也可以再自行改造、自行开发,使你们的计算机更加个性化。刘华博士能做到的,你们也一定能做到。

所以,不是我能为刘华博士的《词语计算与应用》这本书来“添色”,而是他的这本书为语言研究与教学,至少是为词语的计算与应用工作添了色。这本书是文科出身的人写给文科的人读的书,不过是从数字化时代的新角度来写,是给也想用数字化手段研究和教学语言的新一代“语言人”读的书。他所“添”之“色”或深或浅,或浓或淡,或柔和或生硬,各有各的评价。但是,科学的春天正是要靠每一个参与者来“添色”,才会生机勃勃。正如宋代朱熹有诗曰:“等闲识得东风面,万紫千红总是春。”

《词语计算与应用》共有四章,除了附录、后记外,核心内容词语的计算与应用,主要包括“领域新词语快速获取”、“词语分类和词语聚类”、“词语计算与辅助汉语教学”、“词语主题度计算与自动标引”几个方面,这些也都是目前理工科(包括图书馆的情报检索)关注的热门课题,属于人文学科与理工学科交叉的边缘领域。语言信息处理、自然语言理解、人工智能、机器翻译等都是这一边缘领域的学科或课题。理工专业人士研究此类项目时,要补充人文专业知识(如语言学);人文专业人士研究此类项目,要补充理工专业知识(如计算机科学、数理科学)。相对而言,补充人文专业知识较容易,补充理工专业知识则较困难。也就是说,搞计算语言学,文科出身者比理工科出身者面临的压力大。通常,理工科的人写的计算语言学的论著,满篇术语公式,文科读者觉得犹如读“天书”,但是刘华博士的《词语计算与应用》并非如此。因为是文科出身的人写给文科出身的人读的书,作为一个“过来人”,他能设身处地为读者着想,每个术语都有诠释,甚至每个公式都有解读,文科的人读来并不觉得过于深奥晦涩。

有的读者可能会觉得书中某些表述不够简洁,我倒认为,任何学术著作都应力求条分缕析,深入浅出,切忌术语轰炸、故弄玄虚或关键之处语焉不详。我反对烦琐哲学,但把论点、论据、论证过程逐一交代清楚,这不是烦琐。我常对我的学生们说:真正的大专家大学者,很重视科学知识的普及,他们常常有能力把复杂的问题讲得很简单,把深奥的知识讲得很明白,把高端的科学解说得很通俗;而“一瓶子不满,半瓶子晃荡”的人则常常相反,总是把简单的问题讲得很复杂,把浅显的道理叨咕得很深奥,这不是他自己本来就没读明白,就是故作高深、名词轰炸、哗众取宠、贪多炫博、短话长说,这样的学风可不好。总之,当简则简,当繁则繁,应如同本书作者一样抱着平实谦和的精神。

刘华博士的《词语计算与应用》毕竟是计算语言学的著作,那些数字化的新手段、新技术、新用法,对于文科的读者而言,虽不是“天书”,但总还存在一定的高度。不过这个高度,相信新一代的“语言人”只要稍微跳起,应该是够得着的。当然,最终的评价应由读者们来作,或者将来由刘华把还不够深入浅出的地方,进一步想一些有利于“彻彻底底的文科生”读懂的办法进行修订。

这本书并不纯粹是刘华博士当初的学位论文原稿。他已经毕业5年,任职于暨南大学华文学院,在海外华语研究中心主任郭熙教授领导下,他5年来一直在进行海外华语华文的资源建设与监测工作。本书中“词语计算与辅助汉语教学”、“词语主题度计算与自动标引”等章节,有的基于他在北京语言大学就读时参与的课题,也有一些是他到暨南大学后的延续研究成果。对于这部分,我不但不能“添色”,也不能掠美。唐代刘禹锡诗云:“芳林新叶催陈叶,流水前波让后波”,青出于蓝而胜于蓝是每个导师对学生的期许。我经常告诫我的研究生们:“师傅领进门,修行在个人。”我不否认,我们这一代人是语言信息处理(更准确地说只是汉语信息处理)事业筚路蓝缕的探索者,在这一新兴的边缘学科开拓之初,我们不得不“瞎子背瘸子”,趟出了一条道。我们采用语言学者和计算机学者相互合作的办法,双方都在原有专业基础上作了一定程度的学科横移,但我们并不真正具有跨学科的综合素质。30多年过去了,今天,随着这门学科相对日臻成熟,着力培养我们的学生成为兼通语言领域知识与计算机领域知识的新型通才,既有必要性,也有可行性了。唯有如此,方可推进语言信息处理在深度、广度及多维度诸方面的持续发展。所以,刘华博士《词语计算与应用》的出版令我非常欣慰。

荀子曰:“学不可以已。”韩愈曰:“业精于勤”、“行成于思”。我愿以此与刘华博士共勉。衷心希望刘华博士日新又日新,添色更添色。

是为序。

张普

2010年暮春于北京