计算机中信息的表示与存储

一、信息与数据的概念

(一)信息的定义

信息是对客观事物的反映,从本质上讲,它是对社会以及自然界中事物的特征、现象、本质及规律的描述。信息是客观事物性质或特征在人脑中的反映,它只有通过数据形式表示出来才能被人理解和接收。

(二)数据的定义

数据是载荷或记录信息的按一定规则排列组合的物理符号,可以是数字、文字、图像,也可以是计算机代码。数据是信息的具体表现形式,数据经过加工处理之后,成为信息。

二、计算机中的数据表示

(一)二进制的优点

计算机中采用二进制有以下优点:

  • 物理上最容易实现:可以用高、低两个电平表示“1”和“0”,也可以用脉冲的有无或者脉冲的正负极性表示它们.
  • 算术运算规则简单,容易实现:二进制的加法、减法等运算规则简单,便于计算机进行计算.
  • 与逻辑值相对应:两个符号“1”和“0”正好与逻辑值“是”(或称“真”)和“否”(或称“假”)相对应,为计算机实现逻辑运算和程序中的逻辑判断提供了便利条件.
  • 可靠性强:只有0和1两种数字符号,在存储、处理和传输过程中的可靠性最强,不易出错,提高了计算机本身的稳定性和可靠性.

(二)计算机中数据的单位

  • 位(bit):在计算机中数据的最小单位是位,位是指一位二进制数.
  • 字节(Byte):字节是计算机中用来表示存储空间大小的最基本的容量单位,一个字节由8个位组成.
  • 存储容量单位
    • 1 KB = 1024 B = 2^{10} B
    • 1 MB = 1024 KB = 1024×1024 B = 2^{20} B
    • 1 GB = 1024 MB = 1024×2^{20} B = 2^{30} B
    • 1 TB = 1024 GB = 1024×2^{30} B = 2^{40} B
    • 千字节(KB)、兆字节(MB)、吉字节(GB)和太字节(TB)等单位也可以表示存储容量.

三、进位计数制及转换

(一)数制的概念

数制,就是人们利用符号来计数的科学方法,又称计数制。数制有很多种,如最常使用的十进制、钟表的六十进制、年月的十二进制等,它们均是进位计数制,是指按进位的原则进行计数。进位计数制有数码、基数和位权三个要素。

(二)数制的特点

  • 数码:指具有R个不同的数字符号:0,1,…,(R-1).
  • 基数:基数是“R”。进位制的基数是指该进位制中允许选用的基本数码的个数.
  • 位权:指一个数字在某个固定位置上所代表的值,处在不同位置上的数字所代表的值不同,每个数字的位置决定了它的值或者位权.

(三)数制的表示方法

  • 后缀字符:为了标识不同的数制,可在数的后面加上后缀字符,如D(十进制)、B(二进制)、Q(八进制)、H(十六进制).
  • 圆括号括起来:可以将数用圆括号括起来,如(10,2,8,16)表示该括号内的数是哪一种进位制中的数.

(四)数制转换

  • 非十进制数转换为十进制数:将非十进制数各位按位权展开求和即可.
  • 二进制与十六进制之间的转换
    • 二进制数转换为十六进制数:以小数点为界,整数部分从小数点开始向左每四位一组,不足四位在左边以0补足四位,小数部分从小数点开始向右每四位一组,不足四位在右边以0补足四位,然后将每组二进制转为相应的十六进制数.
    • 十六进制数转换为二进制数:只需将每位十六进制数转换为相应的四位二进制数即可.

四、信息的编码

(一)编码的概念

信息需要按照规定好的二进制形式表示才能被计算机处理,这些规定的形式就是信息编码。编码时要考虑信息的特性,并且要方便计算机的存储和处理,还涉及世界范围内有关信息的表示、交换、处理、存储的基本问题.

(二)信息的类型

  • 简单的类型:数字和文字
  • 复杂的类型:表格、声音、图形和图像

(三)常见的编码方式

  • BCD码:专门解决用二进制数表示十进数的问题.
  • ASCII码:在计算机系统中使用最广泛的是美国标准信息交换代码,即ASCII码(American Standard Code for Information Interchange). ASCII码有7位版本和8位版本,国际通用,包括32个通用控制字符、10个十进制数码、52个英文大小写字母和34个专用符号,共128(即2^7)个元素.
  • 汉字的编码
    • 国标码:1980年我国颁布了《信息交换用汉字编码字符集·基本集》(GB 2312-80),这个标准所收集的字符及其编码称为国标码,又叫国标交换码.
    • 区位码:区位码指出了该汉字或字符在字符集中的位置,区位码与汉字是一一对应的. 汉字的区位码和国标码之间是有联系的,每个汉字的区号和位号加上十进制数32或十六进制20H之后,对应的二进制代码才是它的国标码.
    • 机内码:供计算机系统内部进行存储、加工处理、传输等统一使用的代码,又称为汉字内部码或汉字内码. 汉字的机内码和国标码的对应关系如下:机内码=国标码+8080H.
    • 汉字的输入码:汉字输入码又称外码,是为了将汉字输入到计算机而设计的代码. 汉字输入码可分为数字码(如区位码、电报码)、拼音码(如智能全拼、智能ABC、搜狗拼音)、字形码(如五笔字型、表形码)、音形码(如自然码、全息码)等.
    • 字形码:汉字字形码是汉字字库中存储的汉字字形的数字化信息,用于汉字的显示和打印. 常用的字形点阵有16×16点阵、24×24点阵、64×64点阵等.