您的位置：首页 > 编程语言 > C语言/C++

【对象模型】C++模版的编译链接过程——编译器真的会检查所有tocken层面的错误么？

2014-12-14 20:19 417 查看

　　模版(template)设计的初衷，是设计一种自动实例化机制，不需要使用者参与，编译器可根据使用者提供的模版参数再套用类的定义来实例化。所谓实例化，除了包含对于程序变量的实例化，即开辟空间并设置某些变量的初值（构造函数）以及指针（如vptr）以及其他支持（virtual base class offset），还有对于函数的实例化，即根据函数的定义生成机器指令，并在函数调用处提供函数的入口地址。简单来看，普通类和模版类的区别，在于普通类实例化时有较为固定的空间开销（除非类似new string(n)这样的实例化）。

为了实现这样的“自动实例化”，就需要许多操作都被推迟到模板类及其成员函数真正被使用的时候。然而就是这个要求，带来了许多问题：

1 编译器如何找到类那些成员函数？

这一点和普通类一样啦，如果函数定义在类内，就容易了；如果在同文件里的类外，根据::符号也能轻易发现；如果在其他文件，则需要借助文件的命名了，比如vector.h里声明的函数，必须在vector.cpp里定义；

在编译的过程中，一旦类成员函数被发现，则会作如下修改：在参数列表的头部加上为this指针准备的指针域，并将函数按照一定规则重命名以便能识别函数的所有者、是否是static、是否是const等信息。

一个成员函数（包括重载运算符），其原型最终一定是这个样子：

return_type function_name(class_name * ptr, arg_list)

或者，如果打开NRV优化：

void function_name(class_name * ptr, return_type & __reult, arg_list)

注意，虽然NRV要把__result加到函数的形参列表里面，但this依然是在列表中的第一个位置，这样对于所有的成员函数，不管有没有做NRV，把第一个参数取出来总是能找到调用该函数的对象。

2 如何只实例化出被调用的成员函数？

有些编译器的办法是对所有的函数，深度地检查语法语义并最终实例化出来，然后借助链接器把实际使用的函数链接进去，其他函数就这样被无情抛弃，然而G++似乎不是这样做的：G++检查实际用了哪些函数，然后针对实际使用的函数进行深度的语法语义的检查和实例化。

是的，G++对于没使用的函数几乎一概不管，即使其中有明显的错误，有例为证：

template <class T>
class C
{
public:
int cc;
void f_has_error();
void f_has()
{
}
};

template <class T>
void C<T>::f_has_error()
{
this->jgfhvgkfhgfkgjhgjhjghjfhghjghjgjkgkghjhj;
}

在这个例子中，模版类有两个函数，其中一个是正常的，另一个则使用了一个未定义的变量。如果C是普通类，那么一定会报错的，但是C现在是模版类，C的数据成员和函数成员的实例化都被推迟到了被使用的时候。所以，当main函数这么写：

main()
{
C<int> c;
c.f_has();
}

的时候，编译器毫无怨言。这是个不好的事情，毕竟编译器对于有错的代码没有给出任何提示。不过，编译器不是什么都不检查，例如如果这么写：

template <class T>
void C<T>::f_has_error()
{
sjdhakhflkashnfsdhaghs;
this->jgfhvgkfhgfkgjhgjhjghjfhghjghjgjkgkghjhj;
}

在这个例子中f_has_error直接用了个没声明的变量，“哦？这里捡到一只变量叫做sjdhakhflkashnfsdhaghs，这是个什么（翻一翻符号表）？不知道，报错！”，于是编译器还是发现了这个错误。而在之前的例子中，编译器看到了this指针。“哦？这是个指针，使用者访问了this指向的实例的某个内部成员，OK pass。” 至于那个成员叫做什么在哪里放着？一概不管。

3 编译器如何避免对于一个数据成员或成员函数的定义，在多个.o文件中被实例化

和1类似，或者通通实例化（实例化意味着将对变量和函数做深度的检查），然后借助链接阶段来取舍；或者通过模拟链接操作，找出实际上需要实例化的是哪些成员。

4 模版声明区（scope of template declaration）和模版实例化区（scope of template instantiation）中的同名函数的抉择

类都有声明的代码以及使用它的代码，因此上面这两个概念很容易理解。当有同名的函数出现在这两个区里面的时候，编译器如何决定用哪一个函数呢？

沿用《Inside the C++ object》书中的代码，现在假设类的声明区有如下代码：

extern double foo(double v)

template<class T>
class ScopeRules
{
int _val;
T _member;
public:
void invariant()
{
_member = foo( _val );
}
T type_independent()
{
return foo(_member);
}
};

而在实例化区有如下代码

extern int foo(int);

ScopeRules<int> sr0;

....

sr0.invariant();
sr0.type_independent();

在实例化区中的两个函数调用，分别调用了哪个foo呢？编译器解析时，将按照函数的参数是否和class T有关来决策：如果函数的参数和class T有关，则使用实例化区里的函数，否则使用声明区里的函数。在上面的例子中，sr0.invariant()中foo函数的参数是_val，而_val是int类型变量，于是和T无关，于是实际被调用的将是声明区里的double foo(double)，即使foo的参数是double而不是int。而在sr0.type_independent()语句中，type_independent实例实际上是：

int _member;
....

int type_dependent()
{
return foo(_memble);
}

foo的参数是_member，而_member的类型依赖于T，因此使用实例化区的foo。这样意味着，编译器要维护两个scope context:

1 模版声明区，专注于一般的template class

2 模版实例化区，专注于特定的template class object

至于两个foo的返回值？Oh nonono，和函数的重载一样，编译器根本不管返回值这个东西（但是为什么不管呢？），编译器只在乎函数原型（函数名、参数列表）。个人猜测，这是因为函数的返回值往往用来赋值给某变量（除非仅仅是为了生成个临时变量），然而这个变量的类型的范围可就广了，比如对于POD，int可以赋值给char、short、float等多种类型的变量，即使会因为长度不懂而被截断也不管；而对于类，基类和派生类之间在类型转换符static_cast的帮助下也可以相互赋值。那么对于int foo()和double foo()，如果调用者这么写：char c = (char)foo()，编译器当然就不知道调用者到底是几个意思了。换句话说，不到函数调用语句看看，就无法分辨不同的返回值之间的最终的区别。

总而言之，编译器对模版做了一件事：按需实例化。而为了实现这个按需实例化，里面的办法却并不简单。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航