浅谈C语言中指针的理解及应用
2017-06-06曾凡舒
曾凡舒
指針是C语言中一种广泛使用的数据类型,也是C语言的重要特性。在C语言中,使用指针能够编写出高效、精炼、简洁的程序代码。因此,在C语言的学习过程中,能否正确理解和使用指针是检验是否掌握C语言的一个重要标志,但是,指针也是C语言中最为困难的部分之一。指针的学习像其他内容一样也必须从理解基本概念开始。
一、计算机基本原理
半个多世纪以来,虽然计算机制造技术发生了巨大变化,但仍然沿用冯·诺依曼体系结构。在冯·诺依曼计算机体系结构理论中,有三个基本思想:1)计算机处理的数据和指令采均用二进制数表示;2)计算机运行过程中,指令和数据首先存入主存储器(内存),计算机将自动地并按顺序从主存储器中取出指令一条一条地执行,这一概念称作顺序存储程序;3)计算机硬件由运算器、控制器、存储器、输入设备和输出设备五大部分组成。
计算机的主存储器是由一系列连续编号或编码的存储单元组成,要运行的程序指令以及相关的数据都按照一定的顺序存储在内存中,如图1所示。存储单元中存储的内容有三种:1)指令,如0x03000、0x03001存储单元,2)直接数据,如0x05027、0x05028、0x05029、0x05030存储单元,3)地址数据,如0x03002、0x03003存储单元,它们存储的是存储单元0x05030、0x05027的地址值。
二、指针的基本概念
C语言的设计者Brian W.Kernighan在《C程序设计语言》一书中给指针的定义是:指针是一种保存变量地址的变量,因此要真确理解指针概念,先要理解几个指针相关的概念,如地址、变量等。
地址:在计算机中,通过寻址机构将物理存储介质映射成一维线性空间,并以字节为单位进行统一编码,使得每个字节都具有唯一的编码,类似于街道的门牌号码,该编码称为字节的地址,也称内存地址。内存地址采用无符号整数来表示,例如在32位计算机中,内存地址编码为0x00000000 ~0xFFFFFFFF,能够支持最大4GB的内存空间,每个字节的地址采用32位的无符号整数表示。
存储单元:在计算机系统中,绝大多数的数据往往需要多个字节来存储,如Unicode字符、整数、浮点小数、字符串等。所以,需要分配一个或连续的多个字节来存储这些基本数据,我们把一个或连续的多个字节的存储空间称为一个存储单元,每个存储单元的地址用该存储单元的第一个字节的地址来表示。例如,C语言中的short int、long int、char、double等基本数据类型在32位计算机系统中分别占用2、4、1、8个字节,如果在内存0x0F00地址处依次存储short int、long int、char、double类型数据各一个,那么这四个存储单元的地址则分别为0x0F00、0x0F02、0x0F06、0x0F07,而下一个存储单元的地址则为0x0F0F,如图2所示。
变量:是计算机存储空间或存储单元的具体化,通过一个易辨别的字符序列来标识一个存储空间或存储单元,这样能够大大提高编程效率和代码的可读性。变量具有三个要素:1)名称,2)类型,3)值,此外,变量还有一个隐含属性,即地址。例如,图1中的变量s、i三个变量,它们的要素及属性如表1所示。
指针:回头再看Brian W.Kernighan的指针定义,指针本质上也是一个变量,只不过它存储的数据是一个表示地址的无符号整数。如图1所示,变量pi、ps就是指针变量,我们把表1加上变量pi、ps后得到表2。
三、指针定义及运算
在C语言中,表2中各变量的定义如下:
char s = ‘a, *ps; //定义并初始化char类型变量s,定义一个指向char类型变量的指针
int i = 56, *pi; //定义并初始化int类型变量i,定义一个指向int类型变量的指针
ps = &s; //将变量s的地址保存到ps变量中,则ps将指向s变量
pi = &i; //将变量i的地址保存到pi变量中,则pi将指向i变量
或者
char s = ‘a, *ps = &s ; //指针定义与赋值同时进行
int i = 56, *pi = &i;
其中,*ps称为指针,指针变量的定义格式为:
数据类型 *指针变量名;
在上述代码中,通过ps = &s赋值后,*ps等价于s。结合图1,对于0x05027存储单元中的‘a有两种访问方式:1)通过变量s来访问内存地址0x05027的‘a,这种访问方式称为直接访问方式;2)指针变量ps中存放的是变量s的地址,通过*ps来访问0x05027的‘a需要两个步骤,首先要从指针变量ps中读取变量s的地址0x05027,再从地址0x05027中读出‘a,这种通过指针变量存取数据的访问方式称为间接访问方式。
跟指针密切相关的运算符是*和&,它们均为一元运算符,且互为逆运算。
&运算符:取地址运算符。放在普通变量的前面,作用是获取对应变量的存储地址,例如变量i的值为56,而表达式&i的值则为0x05030,可使用以下语句进行测试:
inti = 56;
printf ("%d, %p", i, &i);
其运行结果为:56, 0060FF34
*运算符:指针运算符,又称间接访问运算符。放在指针变量的前面,作用是获取指针变量中的地址所对应的存储单元中的数据。可用下述代码进行验证。
inti = 56, *pi; // 第1行
pi = &i; // 第2行
printf ("%d, %p, %p, %d", i, &i, pi, *pi); // 第3行
運行结果为: 56, 0060FF34, 0060FF34, 56
其中,第1行的*表示定义指针变量,第3行中的*则表示指针运算。
四、指针的应用
学习指针的难点除了概念上的理解比较难以外,在应用上有以下几个比较难理解的地方。
1.指针的初始化、释放与NULL指针
指针在使用中容易出问题的主要环节就是指针的初始化和释放后的处理。指针必须先申明,再赋值,然后才能使用,使用完后,需要用free()函数释放所占用的存储空间,最后还要对指针变量进行置空,否则会出现意想不到的问题。
首先,在声明指针变量后,如果不进行初始化,那么该指针就是一个未初始化的指针,指针变量中的数据为内存残存数据,如果不进行初始化,就会指向一个未知的地方,得到的是一个无效数据。如下面的程序代码。
int *pt;
printf ("%p, %p, %d\n", &pt, pt, *pt);
运行结果:0060FF30, 004013A0, -2082109099
结果中第一个数字0060FF30表示的是指针变量pt本身的地址值;第二个数字004013A0是表示指针变量pt中的地址值,由于指针pt没有初始化,所以指针pt变量中的地址值是原来内存中的残存数据;第三个数字-2082109099则是残存数据作为地址值所指内存中的数据,不是我们想要的数据,属于垃圾数据。
其次,在指针使用完毕后,第一,要释放指针所占的内存空间,通过free()函数完成,第二,需要对不用的指针变量置空,即设置不再使用的指针变量的值为NULL,否则释放空间后,指针中的地址值不会变,但是指针原来所指的存储单元将成为未使用空间或分配给其他的变量使用。
char *pta = (char *) malloc(30); //第1行
strcpy(pta, "Hello C Language!"); //第2行
printf ("%p \n", pta); //第3行
free(pta); //第4行
printf ("%p \n", pta); //第5行
//if(pta != NULL); //第6行
//strcpy(pta, "zfs"); //第7行
pta = NULL; //第8行
printf ("%p \n", pta); //第9行
结果为:
009C0DC0
009C0DC0
00000000
第一个数字009C0DC0为malloc()函数申请30个字符空间的首个字节的地址,并将该地址值保存到了指针变量pta中;第二个数字009C0DC0是对指针变量pta进行释放处理后其中的值,可以看出,虽然释放了pta所指向的存储空间,但pta中的地址值仍然不变,pta所指向的存储空间已经回收或另作他用,pta指向了不可用内存区域,成了野指针,而且不能使用(pta != NULL)进行检测,所以第6、7行运行会出错;第三个数字00000000是将pta变量置空后pta中的值,即将NULL赋值给pta指针变量,pta即成为NULL指针(空指针),NULL的定义在C语言标准库头文件stddef.h中。宏定义如下:
#undef NULL
#if defined(__cplusplus)
#define NULL 0
#else
#define NULL ((void *)0)
#endif
2.指针与数组
C语言的数组表示的是一段连续的内存空间,用来存储多个指定类型的数据,每个数组成员称为一个数组元素,每个数组元素占用的字节数相等。数组和指针不是同一种结构,不可以互相转换,但是数组变量则是指向了数组的第一个元素的内存地址,如图3所示。
short int ai[5]= {27, 36, 51, 110, 97}; //第1行
short int *ptai; //第2行
ptai = ai; //第3行
在C语言中可以把数组变量直接赋值给指针,但不能把指针变量赋值给数组。如果把一个数组变量值赋给指针,实际上是把指向数组第一个元素的地址赋给指针。第2、3行可以理解为:
short int *ptai = &ai[0];
或者
short int *ptai;
ptai = &ai[0];
所以ai[0]与*ptai是等价,由于数组中的元素是等长的,因此,ai[1]与*(ptai + 1)、ai[2]与*(ptai + 2)也是等价的,以此类推。但是,要注意的是ptai + 1、ptai + 2中的1、2并不是按字节计算的偏移量,而是按short int类型计算的偏移量。
五、总结
指针虽然比较难以理解和掌握,需要许多计算机底层的知识作支撑,但它却是C语言的精髓所在,是C语言的重要特性,能够充分展现C语言的强大魅力。实际上,我们只要从变量的本质、内存地址、计算机寻址原理等多方面进行了解和贯通,指针概念以及指针的相关应用也就不难理解了。而且,通过对指针的深入了解和学习,能够更加高效和灵活地使用数组、字符串、结构体、各种线性非线性数据结构、内存的动态分配以及文件的存取等。所以说,学好了指针,才能够学好C语言。
责任编辑朱守锂