第二节 基于数据库的现代汉语字、词义类分布统计比较研究
一 基本思想
由低一级单位的性质推出高一级单位的性质是语言信息处理智能化的一个重要表现。着眼于汉语信息处理的实际,由汉字的意义推出其所构成的词语的意义也将提升汉语信息处理智能化的水平。“字是汉语社团中具有心理现实性的结构单位”,也是汉语最自然的认知单位。字与字相配便形成词。字义进入词之后便有了“义类”和“义象”的分别,词义是由字的“义类”和“义象”在向心结构和离心结构中经过融合通过自指和转指方式表示的。[1]由字义整合转化为词义是有规律可循的。在字、词语义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间的对应关系,为进一步进行语义构词规律的研究提供一个理论基础。
二 《汉字义类信息库》《同义词义类信息库》的研究与实现
《汉字义类信息库》对由6763个汉字衍生出来的17430个字条进行了归类和详细的属性信息的描述。《汉字义类信息库》比较全面、系统地反映了常用汉字的义类体系以及每个汉字义类信息。
《同义词义类信息库》是以梅家驹等人的《同义词词林》为基础,利用成熟的关系数据库技术,设立“词语、读音、词性、大类、中类、小类、词类”等描述现代汉语同义词的义类信息,共收入词语63050个。《同义词词林》根据汉语的特点和实际的原则,确定了分类的原则:以词义为主,兼顾词类,并充分注意题材的集中[2],而且比较全面地收录了现代汉语的基本词汇。这样总结归纳出来的语义分类体系应该是有代表性的,能够反映现代汉语词语语义体系。
这两个信息库语义分类体系一致,一个是字,一个是词,收入的信息量比较丰富,便于比较字和词的义类分布,非常适合于进一步研究字义和词义之间的关系。
三 字、词的义类分布统计
本部分以《汉字义类信息库》和《同义词义类信息库》为基础,对字、词的义类分布进行统计,从量的方面详细说明汉语字、词义类的分布状况。根据统计我们可以看出,17430个字分布在12个大类、94个中类、1361个小类中;63050个词分布在12个大类、94个中类、1428个小类中。以下给出的是从两个库中整理、统计出的义类体系以及字、词在各个义类中分布的具体数据。“\”前为字的数量、后为词的数量。同时,我们对各类所占的比例也作了计算,限于文章的篇幅,本节没有详细列出。
(一)大类
A人:580\5346;B物:3918\11941;C时间与空间:749\2566;E特征:2120\9583;D抽象事物:3064\10824;E特征:2120\9583;F动作:1104\1641;G心理活动:562\2605;H活动:2501\10264;I现象与状态:1248\4767;J关联:514\1430;K助语:975\1961;L敬语:13\122。从统计可以看出,“B物”类最多,“L敬语”类最少。
(二)中类
(1)Aa泛称:101\318;Ab男女老少:60\296;Ac体态:7\110;Ad籍属:1\62;Ae职业:61\982;Af身份:88\592;Ag状况:18\310;Ah亲人、眷属:108\897;Ai辈次:17\115;Aj关系:44\524;Ak品性21\342;Al才识22\420;Am信仰9\103;An丑类:23\275。在A类的各中类中,字Aa泛称、Ah亲人、眷属两类最多,都在100个以上;词“Ae职业”类最多,“Ah亲人、眷属”类次之。
(2)Ba统称:225\434;Bb拟状物:87\83;Bc物体的部分:105\136;Bd天体:54\201;Be地貌:242\337;Bf气象:45\310;Bg自然物:197\596;Bh植物:512\1235;Bi动物:413\1125;Bj微生物:4\17;Bk全身:294\1007;Bl排泄物、分泌物:40\99;Bm材料:259\609;Bn建筑物:299\1076;B0机具:376\1349;Bp用品:454\1857;Bq衣物:123\560;Br食品、药品、毒品:189\910。在B类的各中类中,“Bh植物”类字、词都是最多的,“Bb拟状物”类最少,这是因为这一类收的都是“类词缀”的一些成分,是一个相对封闭的类。
(3)Ca时间:749\1335;Cb空间:517\1231。C类只有两个中类,表示时间的字词相对多于表示空间的字词。
(4)Da事情、情况:203\1553;Db事理:59\385;Dc外貌:57\375;Dd性能:1110\806;De性格、才能:45\278;Df意识:77\694;Dg比喻物:18\178;Dh臆想物:49\234;Di社会、政法:314\1578;Dj经济:79\582;Dk文教:362\2688。Dl疾病:99\326;Dm机构:56\385;Dn数量、单位:534\762;在D类的各中类中,字最多的是“Dd性能”,而词最多的是“Dk文教”类。
(5)Ea外形:216\469;Eb表象:571\1954;Ec颜色、味道:106\439;Ed性质:629\3173;Ee德才:435\2619;Ef境况:162\929。在E类的各中类中,字词最多的都是“Ed性质”类。
(6)Fa上肢动作:698\785;Fb下肢动作:116\220;Fc头部动作:193\415;Fd全身动作:97\221。在F类的各中类中,字词最多的都是“Fa上肢动作”类。
(7)Ga心理状态:223\1198;Gb心理活动:298\1303;Gc能愿:41\104。在G类的各中类中,“Gb心理活动”类字词都是最多的,“Gc能愿”类都是最少的。
(8)Ha政治活动:25\239;Hb军事活动:76\464;Hc行政管理:218\973;Hd生产:194\594;He经济活动:141\524;Hf交通运输:70\256;Hg教卫科研:213\951;Hh文体活动:48\290;Hi社交:744\2927;Hj生活:620\2350;Hk宗教活动:14\77;Hl迷信活动:10\35;Hm公安、司法:71\294;Hn恶行:56\290。在H类的各中类中,字词最多的类是“Hi社交”类,最少的类是“Hl迷信活动”类。
(9)Ia自然现象:96\348;Ib生理现象:223\844;Ic表情:82\438;Id物体状态:429\718;Ie事态:125\604;If境遇:91\903;Ig始末:62\328;Ih变化:140\584。在I类的各中类中,字最多的是“Id物体状态”类,而词最多的是“If境遇”类。
(10)Ja联系:44\130;Jb异同:71\265;Jc配合:45\150;Jd存在:175\450;Je影响:177\435。在J类的各中类中,“Jd存在”、“Je影响”两类的字词都是最多的。
(11)Ka疏状:457\1258;Kb中介:121\168;Kc联结:85\211;Kd辅助:126\60;Ke呼叹:60\46;Kf拟声:126\218。在K类的各中类中,“Ka疏状”类,字词都是最多的。
(三)小类
A类:(1)Aa01:42\139;Aa02:21\79;Aa03:14\53;Aa04:7\13;Aa05:12\2586;Aa06:5\9;(2)Ab01:23\88;Ab02:16\110;Ab03:5\28;Ab04:16\70;(3)Ac01:2\20;Ac02:0\8;Ac03:5\82;(4)Ad01:1\16;Ad02:0\17;Ad03:0\29;(5)Ae01:2\72;Ae02:4\103;Ae03:1\61;Ae04:2\12;Ae05:0\26;Ae06:0\25;Ae07:1\43;Ae08:2\28;Ae09:7\35;Ae10:14\158;Ae11:3\15;Ae12:1\54;Ae13:3\100;Ae14:0\35;Ae15:3\44;Ae16:0\22;Ae17:16\127;Ae18:2\22;(6)Af01:2\21;Af02:15\92;Af03:1\22;Af04:2\24;Af05:21\70;Af06:2\62;Af07:3\27;Af08:24\74;Af09:10\60;Af10:8\98;Af11:0\42;(7)Ag01:2\23;Ag02:3\41;Ag03:6\74;Ag04:1\51;Ag05:1\17;Ag06:0\22;Ag07:0\21;Ag08:1\14;Ag09:3\23;Ag10:1\24;(8)Ah01:6\71;Ah02:4\37;Ah03:2\28;Ah04:14\139;Ah05:5\31;Ah06:4\33;Ah07:8\46;Ah08:16\177;Ah09:9\68;Ah10:6\35;Ah11:5\13;Ah12:4\19;Ah13:3\28;Ah14:15\102;Ah15:2\37;Ah16:2\16;Ah17:3\17;(9)Ai01:1\28;Ai02:8\49;Ai03:8\38;(10)Aj01:10\142;Aj02:3\38;Aj03:5\42;Aj04:0\29;Aj05:6\46;Aj06:2\8;Aj07:0\19;Aj08:2\21;Aj09:2\33;Aj10:2\11;Aj11:1\15;Aj12:0\14;Aj13:0\15;Aj14:3\19;Aj15:5\23;Aj16:2\11;Aj17:1\38;(11)Ak01:1\24;Ak02:3\24;Ak03:14\154;Ak04:2\19;Ak05:0\16;Ak06:0\11;Ak07:0\9;Ak08:1\19;Ak09:0\19;Ak10:0\15;Ak11:0\14;Ak12:0\18;(12)Al01:6\115;Al02:4\71;Al03:10\115;Al04:0\86;Al05:1\23;Al06:1\10;(13)Am01:5\61;Am02:3\21;Am03:1\21;(14)An01:6\41;An02:2\64;An03:6\62;An04:2\26;An05:2\10;An06:0\16;An07:5\56。
各个小类中除了个别外,绝大多数表现为字多、词也多,字少、词也少。
四 字、词义类分布的比较
本部分在上一部分统计数据的基础上,对字、词在各个义类中的分布进行比较,总结字词义类分布的特点,解释字、词义类分布不同的方面,从而说明字、词义类的对应关系及对应的规律。
(一)字、词义类分布的特点
仔细分析上一节的统计数据,我们可以发现以下几个特点:
1.字的义类体系和词的义类体系基本一致。大类和中类完全一致,小类有一定的差异。字、词总的小类一共是1434个。在1434个小类中,字的有效类为1361个,词的有效类为1428个,字词共同的有效类为1361个,占94.91%。其中有71类,词有而字没有,是词独有的义类;6类字有而词没有,是字独有的义类。为什么会有这种情况,我们将在下文仔细分析。总的来说,现代汉语字、词义类的体系虽有差异,但基本一致。
2.字词在各个类中的分布比例基本一致。分布在每一类中字、词的数量有很大的悬殊,但从分布比例来看,却非常接近。以下是具体的分析,“\”前为字的比例、后为词的比例。
(1)大类。A:3.34\8.48%;B:22.59\18.94%;C:4.32\4.02%;D:17.67\17.17%;E:12.23\15.20%;F:6.37\2.60%;G:3.22\4.13%;H:14.42\16.28%;I:7.12\7.53%;J:2.96\2.27%;K:5.62\3.11%;L:0.07\0.19%。可见,12个大类字词间,最小的只差0.1个百分点,最大的差不到5个百分点。
(2)中类。Aa:17.41\5.95%;Ab:10.34\5.54%;Ac:1.21\2.06%;Ad:0.17\1.16%;Ae:10.52\18.37%;Af:15.17\11.7%;Ag:3.11\5.8%;Ah:18.62\16.78%;Ai:2.93\2.15%;Aj:7.59\9.80%;Ak:3.62\6.40%;Al:3.79\7.86%;Am:1.55\1.93%;An:3.97\5.14%;Ba:5.74\3.63%;Bb:2.22\0.70%;Bc:2.68\1.14%;Bd:1.38\1.68%;Be:6.18\2.82%;Bf:1.15\2.60%;Bg:5.03\4.99%;Bh:13.07\10.34%;Bi:10.54\9.42%;Bj:0.10\0.14%;Bk:7.50\8.43%;Bl:1.02\0.83%;Bm:6.61\5.10%;Bn:7.63\9.01%;Bo:9.60\11.30%;Bp:11.59\15.55%;Bq:3.14\4.69%;Br:4.82\7.62%;Ca:30.97\52.3%;Cb:69.1\47.97%;Da:6.63\14.35%;Db:1.93\3.57%;Dc:1.86\3.46%;Dd:36.23\7.45%;De:1.47\2.57%;Df:2.51\6.41%;Dg:0.59\1.64%;Dh:1.60\2.16%;Di:10.25\14.58%;Dj:2.58\5.38%;Dk:11.81\24.83%;Dl:3.23\3.01%;Dm:1.83\3.57%;Dn:17.43\7.04%;Ea:10.19\4.33%;Eb:26.93\20.39%;Ec:5.00\4.58%;Ed:29.67\33.11%;Ee:20.52\27.33%;Ef:7.64\9.69%;Fa:63.22\47.84%;Fb:10.51\13.41%;Fc:17.48\25.29%;Fd:8.79\13.47%;Ga:39.68\45.99%;Gb:53.02\50.02%;Gc:7.30\3.99%;Ha:1.00\2.32%;Hb:3.04\4.52%;Hc:8.72\9.48%;Hd:7.76\5.79%;He:5.64\5.11%;Hf:2.80\2.49%;Hg:8.52\9.27%;Hh:1.92\2.83%;Hi:29.75\28.52%;Hj:24.79\22.90%;Hk:0.56\0.75%;Hl:0.40\0.34%;Hm:2.84\2.86%;Hn:2.24\2.83%;Ia:7.89\7.30%;Ib:17.87\17.71%;Ic:6.57\9.19%;Id:34.38\15.60%;Ie:10.02\12.67%;If:7.29\18.94%;Ig:4.97\6.88%;Ih:11.22\12.25%;Ja:8.56\9.09%;Jb:13.81\18.53%;Jc:8.75\10.49%;Jd:34.05\31.47%;Je:34.44\30.42%;Ka:46.92\64.15%;Kb:12.42\8.57%;Kc:8.73\10.76%;Kd:12.94\3.06%;Ke:6.16\2.35%;Kf:12.92\11.12%。可见,94个中类中字词间,最小的只差0.06个百分点,除个别的外,差距最大的也在5个百分点内。
(3)小类。a01:41.58\43.71%;Aa02:20.79\24.84%;Aa03:13.86\16.67%;Aa04:6.93\4.09%;Aa05:11.88\7.86%;Aa06:4.95\2.83%……限于篇幅,其他的不一一列出。可以看出每个小类中的差异只有3—4个百分点,在我们计算的各类百分比中,上举这类差别还比较大,有些差距甚至不到1个百分点,百分比非常接近。
3.从第二部分“字、词义类分布统计”的结果,也可以看出从大类到小类,除了个别的类外,字词的绝对数量多少是一致的,即除了个别类外,绝大部分类字最多、词也是最多的;相反,如果字最少、词也是最少的。
4.《汉字义类信息库》和《同义词信息库》中共同的,即都是词的有5736个,占字的32.91%,这也是一个不小的数目。
(二)词“独有”的义类的分析
词“独有”的义类有71个小类。分析这71个小类,我们发现它们都是由若干字复合而成,也就是由已有的两个或两个以上的义类整合而成的,而且在整合之后发生了义类转移。具体有下列几种情况:
1.两个义类组合在一起,构成了一个意义更为具体的人、物、时空类,这个类既不属于A,也不属于B。比如:Ad02(本国人、外国人、外族人);Ad03(本地人、外乡人、同乡);Ae05(邮递员、门房);Ag07(屈死鬼、被害人、冤大头、祸胎);Ak06(吝啬鬼、市侩);Af11(名人、隐士、小人物);Ak05(伪君子、滑头);Al04(聪明人、笨伯、庸人);An06(赌徒、酒徒、烟鬼);Bo31(火箭、导弹);Ca15(童年、少年);Ca16(青年、成年、壮年);Ca17(晚年);Cb09(到处);Cb16(胜地、乐园);Da05(过程、内中);Db08(立场、角度);Df03(私心、邪心、黑心);Dg04(空架子、大杂烩);Di06(阶级);Dm06(医院、疗养院、敬老院);Ed54(分内、分外)。
2.性状、动作类与类似“词缀”的类结合,构成“人”类的义类。例如:Ac02(胖子、瘦子);Ae06(服务员、清洁工、勤杂工);Ae14(运动员、裁判员);Ae16(作者、记者、译者、编辑);Ag06(可怜虫、瓮中之鳖、众矢之的);Ak07(孝子、逆子);Ak09(浪子、色鬼);Ak12(话匣子、应声虫、馋嘴、夜游神、怪人);Aj12(主持人、司仪、与会者);Ak11(急性子、慢郎中)。
3.动作、行为类自相结合,构成与其相关的“人、物”类。例如:Aj04(同学、同事);Ak10(老顽固、学究);Dj01(经济);Dk13(建议、结论、决定);Ha017(革命、解放);Aj13(专人、代表);Aj07(成员)。
4.动作、行为类与事物、时间类结合,构成动作、行为中更具体的类。例如:Ee19(有为、不成材);Hb01(招兵、装备、备战);Hc08(放假、请假);Hc28(办公、出差);Hd18(间作、套作、连作、轮作);Hd19(选种、春化);Hd22(嫁接、压条、整枝);Hg21(处方、配药、下药);Hg22(接生、打胎);Hj04(做寿、过年、过节);Hj13(抱佛脚、放马后炮、赶浪头);Hj14(留后路、留话柄、留后患);Hj18(守节、守身、变节);Hj37(赶集、外出、出走);Hj55(戴孝、除服);Hl01(算命、测字、看相、圆梦);Hn01(违法);Ib02(发胖、消瘦);Ic03(卖俏、传情、撒娇);Ie04(生效、失效);Ie07(已婚、未婚);If05(成名、名誉扫地、出丑);If07(失业、丢官);If10(受累、受冤、平反);If11(受奖、受罚、被捕、入狱);If12(得宠、失宠);If13(扑空、碰壁);If14(自作自受、适得其反);If15(子孙满堂、断子绝孙);If20(闯祸、遇救、脱险);Ih12(更新、复旧);Jd09(解决、克服)。
(三)字“独有”的义类分析
字独有的义类六种,具体有Ba11(有机物):碱、烯、氨、苯、酯、胺等62个,Bm19(非金属元素):碘、磷、硫、硅、硒、硼、溴、砷、碲、砹等10个,Ca32(天干地支):午、甲、乙、辰、丑、丙、庚等23个,Di27(八卦):坎、乾、坤、巽、离、震、兑、艮8个,Dk33(语法范畴):性、格、式、数、态、体、时6个,Kd06(前缀、后缀):么、阿、中、大、于、于、面、其、子、如、然、价、老等30个,这六类除最后一类外,其他应该都是词,只是它们均属于某个专业领域,没有进入普通词汇。最后一类就是词缀,词里自然没有。
(四)字比词多的义类
在统计中,我们发现一般情况都是每个类中词的数量绝对多于字,但是也有几个类出现字比词多的现象。这几个类是:Cb08(地方、地点):264\82;Dd15(名称、姓名):961\130;Dn08(数量单位):253\164;Hj42:(晒、熨)9\6;Id10(浇、溢、淋):29\25。字当中作地名、姓名以及单位的很多,这些不是基本词汇,所以词典一般不收,所以,这三类字远远多于词。后两类动词,主要是因为其中的一些带有文言或方言的色彩,所以字典收了而词典没有收。
从以上四个方面可以看出字与词在意义方面有密切的关系。我们大体上可以得出这样的结论:字与词在义类上有对应关系,大部分词的意义是在字义的基础上整合而成的。这就为我们进一步从语义上建立字与词的对应关系,从而总结语义构词规律提供了理论基础。