1.2.2 信息的收集、分类及编码
1.信息收集方法
信息是客观事物运动和变化的一种反映,是经过加工处理并对人类客观行为产生影响的数据表现形式。要获得信息首先要收集原始信息。
收集数据的方法包括观察法、访谈法、问卷法、抽样调查法等。
①观察法是研究者通过感官或一定的仪器设备,有目的、有计划地观察客观事物的情况,并由此分析客观事物特征和规律的一种方法。
②访谈法是研究者通过与被调查人员进行口头交谈,了解和收集与他们有关的数据资料的一种研究方法。这种方法的最大特点在于整个访谈过程是访谈者与被调查人员相互影响、相互作用的过程。
③问卷法是研究者使用统一的,经过严格设计的问卷来收集被调查人员的数据资料的一种研究方法。其特点是标准化程度比较高,避免了研究的盲目性和主观性,且能在较短时间内收集大量信息,便于定量分析。
④抽样调查法是从研究对象的全部单位中抽取一部分单位进行考察和分析,并用这部分单位的数量特征去推断总体的数量特征的一种调查方法。其中,被研究对象的全部单位称为“总体”;从总体中抽取出来,实际进行调查研究的那部分对象所构成的群体称为“样本”。在抽样调查中,样本数的确定是一个关键问题。抽样的方式有随机抽样和非随机抽样两大类。
2.信息分类
信息分类是根据信息内容的属性、特征,把它们分门别类并系统地组织起来用以描述事物。
信息分类根据信息处理的实际需要进行分类,目的是为了便于信息管理与信息处理。它将信息按照某种属性进行逻辑分类,并把具有某种共同属性的信息归于同一类,同时按一定的次序将这些信息排列成一个有机的体系。
按照信息连续性可分为离散信息和连续信息;按照信息有序性可分为有序信息和无序信息;按照信息的确定性可分为确定性信息和随机信息;信息还可以分为定量信息和定性信息。
信息分类能够帮助人们了解信息的需求、结构、处理的顺序、数据编码和数据存储等。
3.信息编码方法
信息编码是按照一定的组合原则,采用少量的基本符号来表示各种信息。基本符号的种类及其组合规则是信息编码的两大要素。在计算机中,将信息转换成由二进制数0和1表示的代码的过程称为数据编码。只有通过数据编码,信息才能通过计算机来处理。
常用的编码方法有以下3种。
① ASCII码(American Standard Code for Information Interchange)是美国标准信息交换码,是最常用的西文字符编码。该编码用7位二进制数表示,从0000000到1111111,共有128种编码组合,可以表示128个字符,其中数字10个,大小写英文字母52个,控制字符34个,其他字符32个。计算机使用1个字节来存放一个ASCII字符,其最高位设为0。例如大写英文字符“A”对应的二进制数是1000001,其对应的十进数是65。
② Unicode码是一种国际标准编码,是由Unicode联盟开发的一种字符编码标准。该标准采用多个字节表示一个字符。Unicode字符系统有多种表示形式,如UTF-8、UTF-16、UTF-32。在Windows环境中,大多使用UTF-16,能够表示世界上包括中英文在内的所有书写语言中用于计算机通信的字元、象形文字和其他符号。
③中文信息编码。相对于英文字符,中文字符的编码比较复杂。我国于1980年制定了《信息交换用汉字编码字符集基本集》,即GB2312—80国家标准。这个标准规定了一级和二级字库6 763个汉字,另加682个图形符号。按汉字的使用频度将汉字分为一级汉字(常用)和二级汉字。