http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1078
#include <stdio.h> int main() { int n; int i,j; while(scanf("%d", &n) && n) { int sign = 0; char c[30] = {0}; int base[17] = {0}; for (i = 2; i <= 16; i++) { int m = n; int len = 0; while (m) { c[len++] = m%i; m = m/i; } sign = 1; for (j = 0; j < len/2&&sign; j++) if (c[j] != c[len -j -1]) sign = 0; if (sign) base[i] = 1; } sign = 0; for (i = 2; i <= 16; i++) if (base[i] == 1) sign = 1; if (!sign) printf("Number %d is not a palindrom\n", n); else { printf("Number %d is palindrom in basis", n); for (i = 2; i <= 16; i++) if (base[i] == 1) printf(" %d", i); printf("\n"); } } return 0; }
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1067
#include <stdio.h> struct color { int R, G, B; }map[16]; int main() { int i = 0; for (i = 0; i < 16; i++) scanf("%d%d%d", &map[i].R, &map[i].G, &map[i].B); struct color c; while(scanf("%d%d%d", &c.R, &c.G, &c.B) && c.R >=0 ) { int index = 0; int min = 65535; for (i = 0; i < 16; i++) { int d = (c.R - map[i].R)*(c.R - map[i].R) + (c.G - map[i].G)*(c.G - map[i].G) + (c.B - map[i].B)*(c.B - map[i].B); if (min > d) { min = d; index = i; } } printf("(%d,%d,%d) maps to ", c.R, c.G, c.B); printf("(%d,%d,%d)\n", map[index].R, map[index].G, map[index].B); } return 0; }
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1058
#include <stdio.h> int main () { double a[6][6]; int b[13]; int n; int flag = 0; int cases; scanf("%d", &cases); while(cases--) { int i,j; if (flag) printf("\n"); flag = 1; for (i = 1; i <= 5; i++) for (j = 1; j <=5; j++) scanf("%lf", &a[i][j]); while(scanf("%d", &n) && n) { b[1] = 1; for (i = 2; i <= n+1; i++) scanf("%d", &b[i]); b[i] = 1; double m = 0; scanf("%lf", &m); for (i = 2; i <= n+2; i++) { m = m*a[b[i-1]][b[i]]; m = (int)(m*100+0.5); m /= 100; } printf("%.2lf\n", m); } } return 0; }
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1049
#include <stdio.h> #include <math.h> const double PI = 3.1415927; int main() { int n, i = 1; int year; double x, y, radius, area; scanf("%d", &n); while(n--) { scanf("%lf%lf", &x, &y); radius = x * x + y * y; area = PI * radius / 2.0; year = (int)ceil(area/50.0); printf("Property %d: ", i++); printf("This property will begin eroding in year %d.\n", year); } printf("END OF OUTPUT.\n"); return 0; }
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1045
#include <stdio.h> int main() { float c; while(scanf("%f", &c) && c !=0) { int i = 2; float fResult = 0; while (fResult < c) { fResult += 1.00/i; i++; } printf("%d card(s)\n", i - 2); } return 0; }
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1037
/* 1. M*N; M*N-1+sqrt(2); 2. scanf/printf 3. Judge if the number is even number (number%2 == 0) */ #include <stdio.h> int main() { int iCase; scanf("%d", &iCase); int i; for (i = 1; i <= iCase; i++) { int N, M; scanf("%d%d", &N, &M); printf("Scenario #%d:\n", i); printf("%d.", M*N); if(M&0x1 && N&0x1) printf("41"); else printf("00"); printf("\n\n"); } return 0; }
ID | ACM ID | Topic | Date |
6 | ZOJ1078: palindrom number(回文数) | ||
5 | ZOJ1067: ColreMeLess (颜色压缩) | ||
4 | ZOJ1058: Currency Exchange | ||
3 | ZOJ1049: houseboat解答。 | ||
2 | ZOJ1045 | Handover | |
1 | ZOJ: 1037 | Gridland | 2013.3.4 |
void __cyg_profile_func_enter (void *this_fn, void *call_site); void __cyg_profile_func_exit (void *this_fn, void *call_site);The first argument is the address of the start of the current function, which may be looked up exactly in the symbol table.
#include <stdio.h> #define DUMP(func, call) / printf("%s: func = %p, called by = %p/n", __FUNCTION__, func, call) void __attribute__((__no_instrument_function__)) __cyg_profile_func_enter(void *this_func, void *call_site) { DUMP(this_func, call_site); } void __attribute__((__no_instrument_function__)) __cyg_profile_func_exit(void *this_func, void *call_site) { DUMP(this_func, call_site); } main() { puts("Hello World!"); return 0; }編譯與執行:
$ gcc -finstrument-functions hello.c -o hello $ ./hello __cyg_profile_func_enter: func = 0x8048468, called by = 0xb7e36ebc Hello World! __cyg_profile_func_exit: func = 0x8048468, called by = 0xb7e36ebc看到 "__attribute__" 就知道一定是 GNU extension,而前述的 man page 也提到 -finstrument-functions 會在每次進入與退出函式前呼叫 "__cyg_profile_func_enter" 與 "__cyg_profile_func_exit" 這兩個 hook function。等等,「進入」與「退出」是又何解?C Programming Language 最經典之處在於,雖然沒有定義語言實做的方式,但實際上 function call 皆以 stack frame 的形式存在,去年在「深入淺出 Hello World」Part II 有提過。所以上述那一大段英文就是說,如果我們不透過 GCC 內建函式 "__builtin_return_address" 取得 caller 與 callee 相關的動態位址,那麼仍可透過 -finstrument-functions,讓 GCC 合成相關的處理指令,讓我們得以追蹤。而看到 __cyg 開頭的函式,就知道是來自 Cygnus 的貢獻,在 gcc 2.x 內部設計可瞥見不少。
$ gcc -g -finstrument-functions wrong.c -o wrong $ ./wrong 程式記憶體區段錯誤發生什麼事情呢?請出 gdb 協助:
$ gdb ./wrong GNU gdb 6.6-debian Copyright (C) 2006 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "i486-linux-gnu"... Using host libthread_db library "/lib/tls/i686/cmov/libthread_db.so.1". (gdb) run Starting program: /home/jserv/HelloWorld/helloworld/instrument/wrong Program received signal SIGSEGV, Segmentation fault. 0x0804841d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 7 { (gdb) bt #0 0x0804841d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 #1 0x0804842d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 #2 0x0804842d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 ... #30 0x0804842d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 #31 0x0804842d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 #32 0x0804842d in __cyg_profile_func_enter (this_func=0x8048414, call_site=0x804842d) at wrong.c:7 ---Type既然 "__cyg_profile_func_enter" 是 function hook,則本身不得也被施以 "function instrument",否則就無止盡遞迴了,不過我們也可以發現一件有趣的事情:to continue, or q to quit---
$ nm wrong | grep 8048414 08048414 T __cyg_profile_func_enter如我們所見,"__cyg_profile_func_enter" 的位址被不斷代入 __cyg_profile_func_enter function arg 中。GNU binutils 裡面有個小工具 addr2line,我們可以該工具取得虛擬位址對應的行號或符號:
$ addr2line -e wrong 0x8048414 /home/jserv/HelloWorld/helloworld/instrument/wrong.c:7就 Linux 應用程式開發來說,我們可透過這個機制作以下應用:
$ objdump -d hello | grep -B2 puts ... (省略) ... -- 8048488: e8 87 ff ff ff call 8048414 <__cyg_profile_func_enter> 804848d: c7 04 24 df 85 04 08 movl $0x80485df,(%esp) 8048494: e8 c3 fe ff ff call 804835c看來 GCC 自動生成 __cyg_profile_func_enter 的 function call 動作,並置於 puts 呼叫之前,我們繼續觀察:
$ objdump -d hello | grep -A5 puts ... (省略) ... -- 8048494: e8 c3 fe ff ff call 804835cputs 呼叫之後,GCC 也自動生成 __cyg_profile_func_exit 的 function call 動作,這樣的技巧也被用於 KFT (Kernel Function Trace,前身為 KFI [Kernel function Instrumentation]),同樣以 GCC "-finstrument-functions" 來達到對每個 Linux Kernel function enter/exit 的追蹤功能,但得考慮大量的 static inline function。8048499: bb 00 00 00 00 mov $0x0,%ebx 804849e: 8b 45 04 mov 0x4(%ebp),%eax 80484a1: 89 44 24 04 mov %eax,0x4(%esp) 80484a5: c7 04 24 68 84 04 08 movl $0x8048468,(%esp) 80484ac: e8 8d ff ff ff call 804843e <__cyg_profile_func_exit>
每次都覺得jserv大的文都像是變魔術...
很神
用 Graphviz 可视化函数调用使用开源软件来简化复杂调用结构 |
级别: 初级 M. Tim Jones (mtj@mtjones.com), 资深软件工程师, Emulex 2005 年 7 月 11 日 花一些时间遍历一下源代码,可以向您展现所有的函数调用过程;但是如果函数指针非常复杂,或者代码太长且晦涩难懂,那么这个过程就可能更加困难了。本文将向您介绍如何使用开源软件和一些定制的代码来构建一个动态的图形函数调用生成器。 可以将以图形形式查看应用程序的调用过程看作是一个学习经历。这样做可以帮助您理解应用程序的内部行为,并获得有关程序优化方面的信息。例如,通过对那些经常调用的函数进行优化,您就可以用最少的努力来获得最佳的性能。另外,调用跟踪还可以判断用户函数的最大调用深度,这可以用来对调用栈使用的内存进行有效限制(在嵌入式系统中,这是非常重要的一个考虑因素)。 为了捕获并显示调用图,您需要 4 个元素:GNU 编译器工具链、Addr2line 工具、定制的中间代码和一个名为 Graphviz 的代码。Addr2line 工具可以识别函数、给定地址的源代码行数和可执行映像。定制的中间代码是一个非常简单的工具,它可以减少对图形规范的地址跟踪。Graphviz 工具可以生成图形映像。整个过程如图 1 所示。 图 1. 搜集、简化和可视化跟踪路径的过程 要收集一个函数调用的踪迹,您需要确定每个函数在应用程序中调用的时间。在过去,都是通过在函数的入口处和退出处插入一个惟一的符号来手工检测每个函数的。这个过程非常繁琐,而且很容易出错,通常需要对源代码进行大量的修改。 幸运的是,GNU 编译器工具链(也称为 gcc)提供了一种自动检测应用程序中的各个函数的方法。在执行应用程序时,就可以收集相关的分析数据。您只需要提供两个特殊的分析函数即可。其中一个函数在每次执行想要跟踪的函数时都会调用;而另外一个函数则在每次退出想要跟踪的函数时调用(参见清单 1)。这两个函数都是特别指定的,因此,编译器可以识别它们。 清单 1. GNU 的入口和出口配置函数
在调用一个检测函数时,
在这些分析函数中,您可以记录下地址对,以供以后再进行分析使用。要请求 gcc 所有的检测函数,每个文件都必须使用 因此,现在您就可以为 gcc 提供一些分析函数了,这些函数可以透明地插入应用程序中的函数入口点和函数退出点。但在调用分析函数时,又应该怎样处理所提供的地址呢?您有很多选择,但是为了简便起见,可以将这个地址简单地写入一个文件,要注意哪个地址是函数的入口地址,哪个地址是函数的出口地址(参见清单 2)。 注意:在清单 2 中并没有使用调用 Callsite 信息,因为这些信息对于分析程序来说是不必要的。 清单 2. 分析函数
现在您可以搜集分析数据了,但是您应该在什么地方打开或关闭您的跟踪输出文件呢?到现在为止,还不需要为了进行分析而对源程序进行任何修改。因此,您该如何检测整个应用程序(包括
要创建 constructor 和 destructor 函数,则需要声明两个函数,然后对这两个函数应用 清单 3. 分析 constructor 和 destructor 函数
如果编译分析函数(在 instrument.c)并将它们与目标应用程序链接在一起,然后再执行目标应用程序,结果会生成一个应用程序的调用追踪,追踪记录被写入 trace.txt 文件。跟踪文件与调用的应用程序处于相同的目录中。最终结果是,您可能会得到一个其中满是地址的非常大的文件。为了能够让这些数据更有意义,您可以使用一个不太出名的叫做 Addr2line 的 GNU 工具。
Addr2line 工具(它是标准的 GNU Binutils 中的一部分)是一个可以将指令的地址和可执行映像转换成文件名、函数名和源代码行数的工具。这种功能对于将跟踪地址转换成更有意义的内容来说简直是太棒了。
要了解这个过程是怎样工作的,我们可以试验一个简单的交互式的例子。(我直接从 shell 中进行操作,因为这是最简单地展示这个过程的方法,如清单 4 所示。)这个示例 C 文件(test.c)是通过
在调用 Addr2line 工具时,要使用 清单 4. addr2line 的一个交互式例子
现在您有了一个可以搜集函数函数地址的追踪数据的方法,还可以使用 Addr2line 工具将地址转换为函数名。然而,从应用程序中产生大量的跟踪数据之后,如何对这些数据进行精简,从而使其更有意义呢?这就是使用一些定制的中间代码在开源工具之间建立联系的地方。本文提供了这个工具(Pvtrace)的带有注释的完整代码,包括如何编译和使用该工具的一些说明。(有关的更多信息,请参阅 下载 一节。) 回想一下图 1 中的内容,在执行设置了检测函数的应用程序时,会创建一个名为 trace.txt 的文本文件。这个人们可以读取的文件中包含了一系列地址信息 —— 每行一个地址,每行都有一个前缀字符。如果前缀是 E,那么这个地址就是一个函数的入口地址(也就是说,您正在调用这个函数)。如果前缀是一个 X 字符,那么这个地址就是一个出口地址(也就是说,您正在从这个函数中退出)。 因此,如果在跟踪文件中有一个入口地址(A)紧跟着另外一个入口地址(B),那么您就可以推断是 A 调用了 B。如果一个入口地址(A)后面跟着一个出口地址(A),那么就说明这个函数(A)被调用后就直接返回了。当涉及大量的调用链时,就很难分析究竟是谁调用了谁,因此,一种简单的解决方案是维护一个整个地址的堆栈。每次在跟踪文件中碰到一个入口地址时,就将其压入堆栈。栈顶的地址就代表最后一次被调用的函数(也就是当前的活动函数)。如果后面紧接着是另外一个入口地址,这说明堆栈中的地址调用了这个刚从跟踪文件处读出的地址。在碰到退出函数时,当前的活动函数就会返回,并释放栈顶元素。这会将上下文返到回前一个函数,由此,就可以产生正确的调用链过程。 图 2 介绍了这个概念,以及精简数据的方法。在分析跟踪文件中的调用链时,会构建一个连通矩阵,用来表示哪个函数调用了其他哪些函数。这个矩阵的行表示调用函数的地址,列表示被调用的地址。对于每个调用对来说,行与列的交叉点不断进行累加(调用次数)。当处理完整个跟踪文件时,其结果是该应用程序的整个调用历史的一个非常简单的表示,其中包含了调用的次数。 图 2. 对跟踪数据进行处理和精简,并生成矩阵格式
现在我们已经构建了简化的函数连通性矩阵,接下来应该构建图形的表示了。让我们深入研究 Graphviz,了便理解如何从连通矩阵生成一个调用图。
Graphviz 或 Graph Visualization 是由 AT&T 开发的一个开源的图形可视化工具。它提供了多种画图能力,但是我们重点关注的是它使用 Dot 语言直连图的能力。在本文中,我们将简单介绍如何使用 Dot 来创建一个图形,并展示如何将分析数据转换成 Graphviz 可以使用的规范。(请参阅 参考资料 一节,以获得有关下载这个开源软件的信息。) 使用 Dot 语言,您可以指定三种对象:图、节点和边。为了让您理解这些对象的含义,我们将构建一个例子来展示这些元素的用法。
清单 5 给出了一个简单的定向图(directed graph),其中包含 3 个节点。第一行声明这个图为 G,并且声明了该图的类型(digraph)。接下来的三行代码用于创建该图的节点,这些节点分别名为 node1、node2 和 node3。节点是在它们的名字出现在图规范中时创建的。边是在在两个节点使用边操作( 清单 5. 使用 Dot 符号表示的示例图(test.dot)
要将这个 .dot 文件转换成一个图形映像,则需要使用 Dot 工具,这个工具是在 Graphviz 包中提供的。清单 6 介绍了这种转换。 清单 6. 使用 Dot 来创建 JPG 映像
在这段代码中,我告诉 Dot 使用 test.dot 图形规范,并生成一个 JPG 图像,将其保存在文件 test.jpg 中。所生成的图像如图 3 所示。在此处,我使用了 JPG 格式,但是 Dot 工具也可以支持其他格式,其中包括 GIF、PNG 和 postscript。 图 3. Dot 创建的示例图 Dot 语言还可以支持其他一些选项,包括外形、颜色和很多属性。但是就我们想要实现的功能而言,这个选项就足够了。
现在我们已经看到了整个过程的各个阶段了,下面可以采用一个例子来展示如何将这些阶段合并在一起了。现在,您应该已经展开并安装了 Pvtrace 工具,然后还需要将 instrument.c 文件复制到工作源代码目录中。
在这个例子中,我使用了一个源文件 test.c 进行检测。清单 7 给出了整个过程。在第 3 行中,我使用检测源(instrument.c)来构建(编译并连接)应用程序。然后在第 4 行执行 清单 7. 创建调用跟踪图的整个过程
这个过程的示例输出如图 4 所示。这个示例图是从使用 Q 学习的一个简单增强式学习应用程序中得到的。 图 4. 示例应用程序的跟踪结果 您也可以使用这种方法对更大的应用程序进行分析。我要展示的最后一个例子是 Gzip 工具。我简单地将 instrument.c 加入 Gzip 的 Makefile 中,作为其依赖的一个源文件,然后编译 Gzip,并使用它生成一个跟踪文件。这个图形太大了,不太容易进行更详细的分析,但是下图表示了 Gzip 对一个小文件进行压缩时的处理过程。 图 5. Gzip 跟踪结果
使用开源软件和少量的中间代码,只需要花很少的时间就可以开发出非常有用的项目。通过使用对应用程序进行分析的几个 GNU 编译器扩展,可以使用 Addr2line 工具进行地址转换,并对 Graphviz 应用程序进行图形可视化,然后您就可以得到一个程序,该程序可以对应用程序进行分析,并展示一个说明调用链的定向图。通过图形来查看一个应用程序的调用链对于理解应用程序的内部行为来说非常重要。在正确了解调用链及其各自的频率之后,这些知识可能对调试和优化应用程序非常有用。
|
一些有非常有用的调试技术。。
strings 可以用于去的调试信息的执行文件。列出里面的字符串常量等。如有时没有代码,不知程序里有没有打这个日志的时,可以方便用。
另外可以看到很多函数。。。
一、编译阶段
nm 获取二进制文件包含的符号信息
strings 获取二进制文件包含的字符串常量
strip 去除二进制文件包含的符号
readelf 显示目标文件详细信息
objdump 尽可能反汇编出源代码
addr2line 根据地址查找代码行
二、运行阶段
gdb 强大的调试工具
ldd 显示程序需要使用的动态库和实际使用的动态库
strace 跟踪程序当前的系统调用
ltrace 跟踪程序当前的库函数
time 查看程序执行时间、用户态时间、内核态时间
gprof 显示用户态各函数执行时间
valgrind 检查内存错误
mtrace 检查内存错误
三、其他
proc文件系统
系统日志
一、编译阶段nm(获取二进制文件里面包含的符号)
符号:函数、变量
参数:
-C 把C++函数签名转为可读形式
-A 列出符号名的时候同时显示来自于哪个文件。
-a 列出所有符号(这将会把调试符号也列出来。默认状态下调试符号不会被列出)
-l 列出符号在源代码中对应的行号(指定这个参数后,nm将利用调试信息找出文件名以及符号的行号。对于一个已定义符号,将会找出这个符号定义的行号,对于未定义符号,显示为空)
-n 根据符号的地址来排序(默认是按符号名称的字母顺序排序的)
-u 只列出未定义符号
strings(获取二进制文件里面的字符串常量)
功能:
获取二进制文件里面的字符串常量
用途:
比较重要的是检查KEY泄露
eg:strings <your_proc> | grep '^.\{16\}$‘ 查找<your_proc>中是否存在一行有16个字符的行,并显示出来。
选项:
-a不只是扫描目标文件初始化和装载段, 而是扫描整个文件。
-f在显示字符串之前先显示文件名。
-n min-len打印至少min-len字符长的字符串.默认的是4。
#strings /lib/tls/libc.so.6 | grep GLIBC
GLIBC_2.0
GLIBC_2.1
GLIBC_2.1.1
……
这样就能看到glibc支持的版本。
strip(去除二进制文件里面包含的符号)
用途:
可执行程序减肥(通常只在已经调试和测试过的生成模块上,因为不能调试了)
反编译、反跟踪
readelf(显示目标文件详细信息)
nm 程序可用于列举符号及其类型和值,但是,要更仔细地研究目标文件中这些命名段的内容,需要使用功能更强大的工具。其中两种功能强大的工具是objdump和readelf。
readelf工具使用来显示一个或多个ELF格式文件信息的GNU工具。使用不同的参数可以查看ELF文件不同的的信息。
readelf <option> <elffile>
-a 显示所有ELF文件的信息
-h 显示ELF文件的文件头
-l 显示程序头(program-header)和程序段(segment)和段下面的节
-S 显示较为详细的节信息(section)
-s 显示符号信息,
-n 显示标识信息(如果有)
-r 显示重定位信息(如果有)
-u 显示展开函数信息(如果有)
-d 显示动态节信息,一般是动态库的信息
objdump(尽可能反汇编出源代码)
objdump –S <exe>
尽可能反汇编出源代码,尤其当编译的时候指定了-g参数时,效果比较明显。
addr2line(根据地址查找代码行)
当某个进程崩溃时,日志文件(/var/log/messages)中就会给出附加的信息,包括程序终止原因、故障地址,以及包含程序状态字(PSW)、通用寄存器和访问寄存器的简要寄存器转储。
eg:Mar 31 11:34:28 l02 kernel: failing address: 0
如果可执行文件包括调试符号(带-g编译的),使用addr2line,可以确定哪一行代码导致了问题。
eg:addr2line –e exe addr
其实gdb也有这个功能,不过addr2line的好处是,很多时候,bug很难重现,我们手上只有一份crash log。这样就可以利用addr2line找到对应的代码行,很方便。
注意:
1. 该可执行程序用-g编译,使之带调试信息。
2. 如果crash在一个so里面,那addr2line不能直接给出代码行。
参数:
-a 在显示函数名或文件行号前显示地址
-b 指定二进制文件格式
-C 解析C++符号为用户级的名称,可指定解析样式
-e 指定二进制文件
-f 同时显示函数名称
-s 仅显示文件的基本名,而不是完整路径
-i 展开内联函数
-j 读取相对于指定节的偏移而不是绝对地址
-p 每个位置都在一行显示
二、运行阶段
调试程序的常见步骤:
1、确定运行时间主要花在用户态还是内核态(比较土的一个方法:程序暂时屏蔽daemon()调用,hardcode收到n个请求后exit(0),time一下程序……)。
2、如果是用户态,则使用gprof进行性能分析。
2‘、如果是内核态,则使用strace进行性能分析,另外可以使用其他工具(比如ltrace等)辅助。
ldd(显示程序需要使用的动态库和实际使用的动态库)# ldd /bin/ls
linux-gate.so.1 => (0xbfffe000)
librt.so.1 => /lib/librt.so.1 (0xb7f0a000)
libacl.so.1 => /lib/libacl.so.1 (0xb7f04000)
libc.so.6 => /lib/libc.so.6 (0xb7dc3000)
libpthread.so.0 => /lib/libpthread.so.0 (0xb7dab000)
/lib/ld-linux.so.2 (0xb7f1d000)
libattr.so.1 => /lib/libattr.so.1 (0xb7da6000)
第一栏:需要用什么库;第二栏:实际用哪个库文件;第三栏:库文件装载地址。
如果缺少动态库,就会没有第二栏。
strace(跟踪当前系统调用)
结果默认输出到2。
-p <pid> attach到一个进程
-c 最后统计各个system call的调用情况
-T 打印system call的调用时间
-t/-tt/-ttt 时间格式
-f/-F 跟踪由fork/vfork调用所产生的子进程
-o <file>,将strace的输出定向到file中。
如:strace -f -o ~/<result_file> <your_proc>
-e expr 指定一个表达式,用来控制如何跟踪,格式如下:
-e open等价于-e trace=open,表示只跟踪open调用
使用 strace –e open ./prg 来看程序使用了哪些配置文件或日志文件,很方便。
-e trace=<set> 只跟踪指定的系统调用
例如:-e trace=open,close,rean,write表示只跟踪这四个系统调用.
-e trace=file只跟踪有关文件操作的系统调用
-e trace=process只跟踪有关进程控制的系统调用
-e trace=network跟踪与网络有关的所有系统调用
-e strace=signal 跟踪所有与系统信号有关的系统调用
-e trace=ipc跟踪所有与进程通讯有关的系统调用
ltrace(跟踪当前库函数)
参数和strace很接近
time(查看程序执行时间、用户态时间、内核态时间)
# time ps aux | grep 'hi'
1020 21804 0.0 0.0 1888 664 pts/6 S+ 17:46 0:00 grep hi
real 0m0.009s
user 0m0.000s
sys 0m0.004s
注意:
time只跟踪父进程,所以不能fork
gprof(显示用户态各函数执行时间)
gprof原理:
在编译和链接程序的时候(使用 -pg 编译和链接选项),gcc在你应用程序的每个函数中都加入了一个名为mcount(or“_mcount”, or“__mcount”)的函数,也就是说-pg编译的应用程序里的每一个函数都会调用mcount, 而mcount会在内存中保存一张函数调用图,并通过函数调用堆栈的形式查找子函数和父函数的地址。这张调用图也保存了所有与函数相关的调用时间,调用次数等等的所有信息。
使用步骤:
1、使用 -pg 编译和链接应用程序
gcc -pg -o exec exec.c
如果需要库函数调用情况:
gcc -lc_p -gp -o exec exec.c
2、执行应用程序使之生成供gprof 分析的数据gmon.out
3、使用gprof 程序分析应用程序生成的数据
gprof exec gmon.out > profile.txt
注意:
程序必须通过正常途径退出(exit()、main返回),kill无效。对后台常驻程序的调试——我的比较土方法是,屏蔽daemon()调用,程序hardcode收到n个请求后exit(0)。
有时不太准。
只管了用户态时间消耗,没有管内核态消耗。
gdb core exec (gdb查看core文件)
准备生成core:
启动程序前,ulimit -c unlimited,设置core文件不限制大小。(相反,ulimit -c 0,可以阻止生成core文件)
默认在可执行程序的路径,生成的是名字为core的文件,新的core会覆盖旧的。
设置core文件名字:
/proc/sys/kernel/core_uses_pid可以控制产生的core文件的文件名中是否添加pid作为扩展,1为扩展,否则为0。
proc/sys/kernel/core_pattern可以设置格式化的core文件保存位置或文件名,比如原来文件内容是core,可以修改为:
echo "/data/core/core-%e-%p-%t" > core_pattern
以下是参数列表:
%p - insert pid into filename 添加pid
%u - insert current uid into filename 添加当前uid
%g - insert current gid into filename 添加当前gid
%s - insert signal that caused the coredump into the filename 添加导致产生core的信号
%t - insert UNIX time that the coredump occurred into filename 添加core文件生成时的unix时间
%h - insert hostname where the coredump happened into filename 添加主机名
%e - insert coredumping executable name into filename 添加命令名
使用gdb查看core:
gdb <program> <core文件>
valgrind(检查内存错误)
使用步骤:
1、官网下载并安装valgrind。
2、-g编译的程序都可以使用。
官网的示例代码test.c
1 #include <stdlib.h>
2
3 void f(void)
4 {
5 int* x = malloc(10 * sizeof(int));
6 x[10] = 0; // problem 1: heap block overrun
7 } // problem 2: memory leak -- x not freed
8
9 int main(void)
10 {
11 f();
12 return 0;
13 }
编译程序gcc -Wall -g -o test test.c
3、valgrind启动程序,屏幕输出结果。
valgrind --tool=memcheck --leak-check=full ./test
注意:
valgrind只能查找堆内存的访问错误,对栈上的对象和静态对象没办法。
valgrind会影响进程性能,据说可能慢20倍,所以在性能要求高的情况下,只能使用mtrace这种轻量级的工具了(但是mtrace只能识别简单的内存错误)。
如果程序生成的core的堆栈是错乱的,那么基本上是stackoverflow了。这种情况,可以通过在编译的时候,加上 –fstack-protector-all 和 -D_FORTIFY_SOURCE=2来检测。Stack-protector-all 会在每个函数里加上堆栈保护的代码,并在堆栈上留上指纹。(记录下,没用过)
因为valgrind 查不了栈和静态对象的内存访问越界,这类问题,可以通过使用gcc的-fmudflap –lmudflap来检测。(记录下,没用过)
全局变量的类型不一致的问题,现在还找到比较好的方法,这从另一个方面说明全局对象不是个好的设计,这给调试带来了麻烦。
mtrace(检查内存错误)
mtrace是glibc內提供的工具,原理很简单,就是把你程序中malloc()和free()的位置全部下來,最后两辆配对,沒有配对到的就是memory leak。
使用的步骤如下:
1、代码中添加mtrace()
1 #include <stdio.h>
2 #include <stdlib.h>
3
4 int main(void)
5 {
6 int *p;
7 int i;
8
9 #ifdef DEBUG
10 setenv("MALLOC_TRACE", "./memleak.log", 1);
11 mtrace();
12 #endif
13
14 p=(int *)malloc(1000);
15
16 return 0;
17 }
这段代码malloc了一个空间,却沒有free掉。我们添加9-12行的mtrace调用。
2、编译gcc -g -DDEBUG -o test1 test1.c
3、执行./test1,在目录里会发现./memleak.log。
4、使用mtrace <your_proc> memleak.log查看信息。
# mtrace test1 memleak.log
- 0x0804a008 Free 3 was never alloc'd 0xb7e31cbe
- 0x0804a100 Free 4 was never alloc'd 0xb7ec3e3f
- 0x0804a120 Free 5 was never alloc'd 0xb7ec3e47
Memory not freed:
-----------------
Address Size Caller
0x0804a4a8 0x3e8 at /home/illidanliu/test1.c:14
可以看到test1.c 14行没有对应的free()。
三、其他proc文件系统
内核的窗口。
proc文件系统是一个伪文件系统,它存在内存当中,而不占用外存空间。
用户和应用程序可以通过proc得到系统的信息,并可以改变内核的某些参数。
proc/目录结构(部分):
cmdline 内核命令行
cpuinfo 关于Cpu信息
devices 可以用到的设备(块设备/字符设备)
filesystems 支持的文件系统
interrupts 中断的使用
ioports I/O端口的使用
kcore 内核核心映像
kmsg 内核消息
meminfo 内存信息
mounts 加载的文件系统
stat 全面统计状态表
swaps 对换空间的利用情况
version 内核版本
uptime 系统正常运行时间
net 网络信息
sys 可写,可以通过它来访问或修改内核的参数
proc/<pid>/目录结构(部分):
cmdline 命令行参数
environ 环境变量值
fd 一个包含所有文件描述符的目录
mem 进程的内存被利用情况
stat 进程状态
status Process status in human readable form
cwd 当前工作目录的链接
exe Link to the executable of this process
maps 内存映像
statm 进程内存状态信息
root 链接此进程的root目录
系统日志
/var/log/下的日志文件:
/var/log/messages 整体系统信息,其中也包含系统启动期间的日志。此外,mail、cron、daemon、kern和auth等内容也记录在var/log/messages日志中。
/var/log/auth.log 系统授权信息,包括用户登录和使用的权限机制等。
/var/log/boot.log 系统启动时的日志。
/var/log/daemon.log 各种系统后台守护进程日志信息。
/var/log/lastlog 记录所有用户的最近信息。这不是一个ASCII文件,因此需要用lastlog命令查看内容。
/var/log/user.log 记录所有等级用户信息的日志。
/var/log/cron 每当cron进程开始一个工作时,就会将相关信息记录在这个文件中。
/var/log/wtmp或utmp 登录信息。
/var/log/faillog 用户登录失败信息。此外,错误登录命令也会记录在本文件中。
C++Profiler工具 |
精确度 |
对动态库的支持 |
对动态控制的支持 |
二次开发和维护成本 |
GUN profile |
较高,对函数执行次数的统计是100%正确的,但是对函数执行时间的统计是通过采样平率估算的,存在一定的偏差。 |
No |
编译时决定,灵活性较差 |
代码集成在glibc中,二次开发和修改的影响面较大,而且发布不易。 |
Google performance tools |
一般,对函数次数和执行时间的统计都是通过采样频率估算的,存在一定的偏差和遗漏。 |
Yes |
运行时控制,更方面操作 |
独立的第三方库,开源项目,二次开发和维护成本较低。 |
Oprofile |
待调查 |
待调查 |
待调查 |
待调查 |
|
|
|
|
|
概要:本文同期调研了google profile工具以及其他常用profile的工具,如GNU gprof、oprofile等(都是开源项目),并对其实现原理做了简单分析和比较。希望对之后的推广使用或二期开发有所帮助。
Gprof是GNU profiler工具。可以显示程序运行的“flatprofile”,包括每个函数的调用次数,每个函数消耗的处理器时间。也可以显示“调用图”,包括函数的调用关系,每个函数调用花费了多少时间。还可以显示“注释的源代码”,是程序源代码的一个复本,标记有程序中每行代码的执行次数。关于Gprof的使用以及实现原理网上已有多篇文章提及,本文就不再详述,只是对其进行梳理和总结,方便阅读。(Gprof的官方网址:http://www.cs.utah.edu/dept/old/texinfo/as/gprof_toc.html,http://sourceware.org/binutils/docs/gprof/index.html 绝对权威的参考资料。)
Glibc自带,无需另外安装
参考http://hi.baidu.com/juventus/blog/item/312dd42a0faf169b033bf6ff.html/cmtid/3c34349bb5a8ceb8c9eaf4c5
图形化输出请参考大师blog:http://www.51testing.com/?uid-13997-action-viewspace-itemid-79952
引用官网说明:
Profiling works by changing how every function in your program iscompiled so that when it is called, it will stash away some informationabout where it was called from. From this, the profiler can figure outwhat function called it, and can count how many times it was called.This change is made by the compiler when your program is compiled withthe `-pg' option. Profiling also involves watching your program as it runs, andkeeping a histogram of where the program counter happens to be everynow and then. Typically the program counter is looked at around 100times per second of run time, but the exact frequency may vary fromsystem to system. A special startup routine allocates memory for the histogram andsets up a clock signal handler to make entries in it. Use of thisspecial startup routine is one of the effects of using `gcc ... -pg' tolink. The startup file also includes an `exit' function which isresponsible for writing the file `gmon.out'. Number-of-calls information for library routines is collected byusing a special version of the C library. The programs in it are thesame as in the usual C library, but they were compiled with `-pg'. Ifyou link your program with `gcc ... -pg', it automatically uses theprofiling version of the library. The output from gprof gives no indication of parts of your programthat are limited by I/O or swapping bandwidth. This is because samplesof the program counter are taken at fixed intervals of run time.Therefore, the time measurements in gprof output say nothing about timethat your program was not running. For example, a part of the programthat creates so much data that it cannot all fit in physical memory atonce may run very slowly due to thrashing, but gprof will say it useslittle time. On the other hand, sampling by run time has the advantagethat the amount of load due to other users won't directly affect theoutput you get. |
当我们使用"-pg" 选项编译程序后,gcc会做三个工作:
1. 程序的入口处(main 函数之前)插入monstartup函数的调用代码,完成profile的初始化工作,包括分配保存信息的内存以及设置一个clock 信号处理函数;
2. 在每个函数的入口处插入_mcount函数的调用代码,用于统计函数的调用信息:包括调用时间、调用次数以及调用栈信息;
3. 在程序退出时(在 atexit () 里)插入_mcleanup()函数的调用代码,负责将profile信息输出到gmon.out中。
这些过程可以通过objdump反汇编显示出来:
objdump -S a.out
0000000000400aba<main>:
400aba: 55 push %rbp
400abb: 48 89e5 mov %rsp,%rbp
400abe: 48 83 ec20 sub $0x20,%rsp
400ac2: e8 69 fd ffff callq 400830<mcount@plt>
......
可以看出,在main函数的入口插入了一行汇编代码:callq 400830 <mcount@plt> ,这样main函数的第一行执行代码就是调用_mcount函数。
我们接下来再看看glibc的这三个函数具体都做了什么:
a ) __monstartup 此函数的定义在glibc的gmon/gmon.c中
A special startup routine allocates memory for the histogram andeither calls profil() or sets up a clock signal handler. This routine(monstartup) can be invoked in several ways. On Linux systems, aspecial profiling startup file gcrt0.o, which invokes monstartup beforemain, is used instead of the default crt0.o. Use of this specialstartup file is one of the effects of using `gcc ... -pg' to link. OnSPARC systems, no special startup files are used. Rather, the mcountroutine, when it is invoked for the first time (typically when main iscalled), calls monstartup. |
linux系统中,__monstartup是在__gmon_start__ 中调用的。在程序链接过程中,gcc用gcrt0.o替代了默认的crt0.o,从而修改了main函数执行前的初始化工作:
crt0.o是应用程序编译链接时需要的起动文件,在程序链接阶段被链接。主要工作是初试化应用程序栈,初试化程序的运行环境和在程序退出时清除和释放资源。 |
__gmon_start__的定义在csu/gmon-start.c中
void __gmon_start__ (void) { #ifdef HAVE_INITFINI /* Protect from being called more than once. Since crti.o is linked into every shared library, each of their init functions will call us. */ static int called;
if (called) return;
called = 1; #endif
/* Start keeping profiling records. */ __monstartup ((u_long) TEXT_START, (u_long) &etext);
/* Call _mcleanup before exiting; it will write out gmon.out from the collected data. */ atexit (&_mcleanup); |
__gmon_start__ 不仅调用了__monstartup函数,还注册了一个清理函数_mcleanup,此函数将在程序结束时被调用。_mcleanup的功能会在后续说明,接下来让我们看看__monstartup函数都做了什么。
void __monstartup (lowpc, highpc) u_long lowpc; u_long highpc; { register int o; char *cp; struct gmonparam *p = &_gmonparam;
/* * round lowpc and highpc to multiples of the density we're using * so the rest of the scaling (here and in gprof) stays in ints. */ p->lowpc = ROUNDDOWN(lowpc, HISTFRACTION * sizeof(HISTCOUNTER)); p->highpc = ROUNDUP(highpc, HISTFRACTION * sizeof(HISTCOUNTER)); p->textsize = p->highpc - p->lowpc; p->kcountsize = ROUNDUP(p->textsize / HISTFRACTION, sizeof(*p->froms)); p->hashfraction = HASHFRACTION; p->log_hashfraction = -1; /* The following test must be kept in sync with the corresponding test in mcount.c. */ if ((HASHFRACTION & (HASHFRACTION - 1)) == 0) { /* if HASHFRACTION is a power of two, mcount can use shifting instead of integer division. Precompute shift amount. */ p->log_hashfraction = ffs(p->hashfraction * sizeof(*p->froms)) - 1; } p->fromssize = p->textsize / HASHFRACTION; p->tolimit = p->textsize * ARCDENSITY / 100; if (p->tolimit < MINARCS) p->tolimit = MINARCS; else if (p->tolimit > MAXARCS) p->tolimit = MAXARCS; p->tossize = p->tolimit * sizeof(struct tostruct);
cp = calloc (p->kcountsize + p->fromssize + p->tossize, 1); if (! cp) { ERR("monstartup: out of memory\n"); p->tos = NULL; p->state = GMON_PROF_ERROR; return; } p->tos = (struct tostruct *)cp; cp += p->tossize; p->kcount = (HISTCOUNTER *)cp; cp += p->kcountsize; p->froms = (ARCINDEX *)cp;
p->tos[0].link = 0;
o = p->highpc - p->lowpc; if (p->kcountsize < (u_long) o) { #ifndef hp300 s_scale = ((float)p->kcountsize / o ) * SCALE_1_TO_1; #else /* avoid floating point operations */ int quot = o / p->kcountsize;
if (quot >= 0x10000) s_scale = 1; else if (quot >= 0x100) s_scale = 0x10000 / quot; else if (o >= 0x800000) s_scale = 0x1000000 / (o / (p->kcountsize >> 8)); else s_scale = 0x1000000 / ((o << 8) / p->kcountsize); #endif } else s_scale = SCALE_1_TO_1;
__moncontrol(1); } |
可以看书,函数中的大部分代码都是在做初始化工作,为profile信息分配存储空间,它的两个参数lowpc,highpc(通过调试可以得知lowpc起始是程序代码段的起始地址,而highpc是程序代码段的结束地址,&etext),分别代表了需要记录profile信息的地址范围,超过这个范围的地址,gprof是不会记录profile信息的。这也解释了为何gprof不能支持对动态库的解析,以为动态库的装载是在程序代码段之外的。我们通过一个实例可以证明这一点。
以一个简单的测试程序为例:
#include <stdio.h> int or_f(int a,int b) { return a^b; } int main(int argc,char** argv) { printf("%d\n",or_f(1,2)); sleep(30); return 1; } |
编译生成./test可执行程序。我们用readelf工具获取test文件的段信息,
readelf -S test
Section Headers: [Nr] Name Type Address Offset Size EntSize Flags Link Info Align ...... [12] .text PROGBITS 0000000000400540 00000540 0000000000000278 0000000000000000 AX 0 0 16 ....... |
从输出可以看出,test可执行程序的text代码地址为0x400540 ~ 0x400540 + 0x278。
接下来运行./test ,通过对glibc代码的修改,我们打印出__monstartup函数的两个实参值,结果如下:
lowpc: 400540, highpc: 4007c6,正好对应着test程序的代码段范围。
同时我们也dump出test程度在内存中的装载地址:
cat /proc/$self/maps:
00400000-00401000 r-xp 00000000 08:03 70746688 /tmp/test 00600000-00601000 rw-p 00000000 08:03 70746688 /tmp/test 10ca4000-10cc5000 rw-p 10ca4000 00:00 0 [heap] 3536600000-353661c000 r-xp 00000000 08:03 93028660 /lib64/ld-2.5.so 353681b000-353681c000 r--p 0001b000 08:03 93028660 /lib64/ld-2.5.so 353681c000-353681d000 rw-p 0001c000 08:03 93028660 /lib64/ld-2.5.so 2b4f1af23000-2b4f1af25000 rw-p 2b4f1af23000 00:00 0 2b4f1af25000-2b4f1b063000 r-xp 00000000 08:03 32931849 /root/glibc-2.5-42-build/lib/libc-2.5.so 2b4f1b063000-2b4f1b263000 ---p 0013e000 08:03 32931849 /root/glibc-2.5-42-build/lib/libc-2.5.so 2b4f1b263000-2b4f1b267000 r--p 0013e000 08:03 32931849 /root/glibc-2.5-42-build/lib/libc-2.5.so 2b4f1b267000-2b4f1b268000 rw-p 00142000 08:03 32931849 /root/glibc-2.5-42-build/lib/libc-2.5.so 2b4f1b268000-2b4f1b26f000 rw-p 2b4f1b268000 00:00 0 7fffa306b000-7fffa3080000 rw-p 7ffffffea000 00:00 0 [stack] ffffffffff600000-ffffffffffe00000 ---p 00000000 00:00 0 [vdso] |
test装载到内存的地址范围为00400000-00401000,为libc.so装载到内存的地址范围为2b4f1af25000-2b4f1b063000,现在不在lowpc和highpc范围之内,所以libc中的函数是不会被gprof解析的。
__monstartup函数的最后会调用__moncontrol函数来设置一个clock信号处理函数用于设置提取sample。
__moncontrol的定义在glibc的gmon/gmon.c中
void __moncontrol (mode) int mode; { struct gmonparam *p = &_gmonparam;
/* Don't change the state if we ran into an error. */ if (p->state == GMON_PROF_ERROR) return;
if (mode) { /* start */ __profil((void *) p->kcount, p->kcountsize, p->lowpc, s_scale); p->state = GMON_PROF_ON; } else { /* stop */ __profil(NULL, 0, 0, 0); p->state = GMON_PROF_OFF; } } |
其中__profil的定义在sysdeps/posix/profil.c中
int __profil (u_short *sample_buffer, size_t size, size_t offset, u_int scale) { struct sigaction act; struct itimerval timer; #ifndef IS_IN_rtld static struct sigaction oact; static struct itimerval otimer; # define oact_ptr &oact # define otimer_ptr &otimer
if (sample_buffer == NULL) { /* Disable profiling. */ if (samples == NULL) /* Wasn't turned on. */ return 0;
if (__setitimer (ITIMER_PROF, &otimer, NULL) < 0) return -1; samples = NULL; return __sigaction (SIGPROF, &oact, NULL); }
if (samples) { /* Was already turned on. Restore old timer and signal handler first. */ if (__setitimer (ITIMER_PROF, &otimer, NULL) < 0 || __sigaction (SIGPROF, &oact, NULL) < 0) return -1; } #else /* In ld.so profiling should never be disabled once it runs. */ //assert (sample_buffer != NULL); # define oact_ptr NULL # define otimer_ptr NULL #endif
samples = sample_buffer; nsamples = size / sizeof *samples; pc_offset = offset; pc_scale = scale;
act.sa_handler = (sighandler_t) &profil_counter; act.sa_flags = SA_RESTART; __sigfillset (&act.sa_mask); if (__sigaction (SIGPROF, &act, oact_ptr) < 0) return -1;
timer.it_value.tv_sec = 0; timer.it_value.tv_usec = 1000000 / __profile_frequency (); timer.it_interval = timer.it_value; return __setitimer (ITIMER_PROF, &timer, otimer_ptr); } |
这个函数的主要作用就是定义了一个SIGPROF信号处理函数,并通过__setitimer函数设置SIGPROF的发送频率。这个信号处理函数的功能很关键,后续仍会说明。
b)_mcount 此函数的定义在sysdeps/generic/machine-gmon.h中
#define MCOUNT \ void _mcount (void) \ { \ mcount_internal ((u_long) RETURN_ADDRESS (1), (u_long) RETURN_ADDRESS (0)); \ } |
其中((u_long) RETURN_ADDRESS (nr)调用了__builtin_return_address(nr)函数,__builtin_return_address(nr)会返回当前调用栈中第nr帧的pc地址。所以(u_long)RETURN_ADDRESS (0)返回的是当前函数地址topc;而(u_long) RETURN_ADDRESS(1)返回的是当前函数的返回地址frompc。
__builtin_return_address(LEVEL)
---This function returns the return address of the currentfunction,or of one of its callers. The LEVEL argument is number offrames to scan up the call stack. A value of '0' yields the returnaddress of the current function,a value of '1' yields the returnaddress of the caller of the current function,and so forth. |
mcount_internal的定义在gmon/mcont.c中
_MCOUNT_DECL(frompc, selfpc) /* _mcount; may be static, inline, etc */ { register ARCINDEX *frompcindex; register struct tostruct *top, *prevtop; register struct gmonparam *p; register ARCINDEX toindex; int i;
p = &_gmonparam; /* * check that we are profiling * and that we aren't recursively invoked. */ if (catomic_compare_and_exchange_bool_acq (&p->state, GMON_PROF_BUSY, GMON_PROF_ON)) return;
/* * check that frompcindex is a reasonable pc value. * for example: signal catchers get called from the stack, * not from text space. too bad. */ frompc -= p->lowpc; if (frompc > p->textsize) goto done;
/* The following test used to be if (p->log_hashfraction >= 0) But we can simplify this if we assume the profiling data is always initialized by the functions in gmon.c. But then it is possible to avoid a runtime check and use the smae `if' as in gmon.c. So keep these tests in sync. */ if ((HASHFRACTION & (HASHFRACTION - 1)) == 0) { /* avoid integer divide if possible: */ i = frompc >> p->log_hashfraction; } else { i = frompc / (p->hashfraction * sizeof(*p->froms)); } frompcindex = &p->froms[i]; toindex = *frompcindex; if (toindex == 0) { /* * first time traversing this arc */ toindex = ++p->tos[0].link; if (toindex >= p->tolimit) /* halt further profiling */ goto overflow;
*frompcindex = toindex; top = &p->tos[toindex]; top->selfpc = selfpc; top->count = 1; top->link = 0; goto done; } top = &p->tos[toindex]; if (top->selfpc == selfpc) { /* * arc at front of chain; usual case. */ top->count++; goto done; } /* * have to go looking down chain for it. * top points to what we are looking at, * prevtop points to previous top. * we know it is not at the head of the chain. */ for (; /* goto done */; ) { if (top->link == 0) { /* * top is end of the chain and none of the chain * had top->selfpc == selfpc. * so we allocate a new tostruct * and link it to the head of the chain. */ toindex = ++p->tos[0].link; if (toindex >= p->tolimit) goto overflow;
top = &p->tos[toindex]; top->selfpc = selfpc; top->count = 1; top->link = *frompcindex; *frompcindex = toindex; goto done; } /* * otherwise, check the next arc on the chain. */ prevtop = top; top = &p->tos[top->link]; if (top->selfpc == selfpc) { /* * there it is. * increment its count * move it to the head of the chain. */ top->count++; toindex = prevtop->link; prevtop->link = top->link; top->link = *frompcindex; *frompcindex = toindex; goto done; }
} done: p->state = GMON_PROF_ON; return; overflow: p->state = GMON_PROF_ERROR; return; } |
此函数的主要功能就是记录每个函数的调用次数,以及函数之间的调用关系表。并将这些信息保存在全局变量_gmonparam中。由于此函数是通过hack的方式来调用的(插入入口代码),因此其获取的信息都是精确的。强调z这一点的目的是为了下面将要介绍的另一个主要函数: profil_counter 。回溯到gcc的一个步骤,monstartup函数在初始化的最后阶段,通过sigaction调用注册了一个SIGPROF信号处理函数,这个函数profil_counter。这个函数会以__profile_frequency()的频率被调用,并完成profile的主要工作:收集sample信息,以此来计算每个函数的消耗时间。
profil_counter函数的定义依赖于具体的系统平台,X86_64平台下的定义是在sysdeps/unix/sysv/linux/x86_64/profil-counter.h中
static void profil_counter (int signo, SIGCONTEXT scp) { profil_count ((void *) GET_PC (scp));
/* This is a hack to prevent the compiler from implementing the above function call as a sibcall. The sibcall would overwrite the signal context. */ asm volatile (""); } |
其最终调用的profil_count定义在sysdeps/posix/profil.c中
static inline void profil_count (void *pc) { size_t i = (pc - pc_offset - (void *) 0) / 2;
if (sizeof (unsigned long long int) > sizeof (size_t)) i = (unsigned long long int) i * pc_scale / 65536; else i = i / 65536 * pc_scale + i % 65536 * pc_scale / 65536;
if (i < nsamples) ++samples[i]; } |
这段代码的逻辑有点晦涩,需要联系之前的处理逻辑来理解。pc_offset、pc_scale以及samples这些全局变量的赋值是在__profil函数中处理的。回溯__profil的逻辑代码,就可以看出samples=_gmonparam->kcount, 用于保存sample信息,pc_offset =p->lowpc,是程序代码段的起始地址,pc_scale是一个比例因子,用于控制sample的提取粒度。综合上下文,gprof在这里的处理逻辑是将lowpc~lowpc+65536(linux下默认一个段的大小为64K)范围内的代码映射到一个内存数组,而pc_scale其实就是决定了映射粒度。对于任何一个处于[lowpc,lowpc+65536]范围内的pc,其对应的数组下标是: pc - lowpc / (65536/ pc_scale) = (pc - lowpc) * pc_scale /65536;这样一个数组项(一个sample)对应了一段pc_scale长度的程序地址,而每当这段地址内的代码被执行时,相应的sample计数就会加1。
c ) 最后当程序结束时,会调用_mcleanup,其定义在gmon/gmon.c中。
void _mcleanup (void) { __moncontrol (0);
if (_gmonparam.state != GMON_PROF_ERROR) write_gmon ();
/* free the memory. */ free (_gmonparam.tos); } |
首先其通过__moncontrol(0)结束profil工作,其次通过write_gmon ()函数将profile信息输出到gmon.out文件中。
write_gmo函数的定义在gmon/gmon.c中
static void write_gmon (void) { struct gmon_hdr ghdr __attribute__ ((aligned (__alignof__ (int)))); int fd = -1; char *env;
#ifndef O_NOFOLLOW # define O_NOFOLLOW 0 #endif
env = getenv ("GMON_OUT_PREFIX"); if (env != NULL && !__libc_enable_secure) { size_t len = strlen (env); char buf[len + 20]; __snprintf (buf, sizeof (buf), "%s.%u", env, __getpid ()); fd = open_not_cancel (buf, O_CREAT|O_TRUNC|O_WRONLY|O_NOFOLLOW, 0666); }
if (fd == -1) { fd = open_not_cancel ("gmon.out", O_CREAT|O_TRUNC|O_WRONLY|O_NOFOLLOW, 0666); if (fd < 0) { char buf[300]; int errnum = errno; __fxprintf (NULL, "_mcleanup: gmon.out: %s\n", __strerror_r (errnum, buf, sizeof buf)); return; } }
/* write gmon.out header: */ memset (&ghdr, '\0', sizeof (struct gmon_hdr)); memcpy (&ghdr.cookie[0], GMON_MAGIC, sizeof (ghdr.cookie)); *(int32_t *) ghdr.version = GMON_VERSION; write_not_cancel (fd, &ghdr, sizeof (struct gmon_hdr));
/* write PC histogram: */ write_hist (fd);
/* write call-graph: */ write_call_graph (fd);
/* write basic-block execution counts: */ write_bb_counts (fd);
close_not_cancel_no_status (fd); } |
通过write_hist、write_call_graph、write_bb_counts这三个子函数,其分别将pc histogram、call-graph以及basic-block execution counts信息输出到gmon.out中。
在gmon.out文件产生之后,可以通过GNU binutils中提供的工具gprof来分析数据,转换成容易阅读、理解的格式(文字、图片等)。
gprof的主要代码在gprof/gprof.c中
在gmon_out_read函数中,其分别通过hist_read_rec、cg_read_rec、bb_read_rec来读取gmon.out中对应的pc histogram、call-graph以及basic-block executioncounts信息。在将pchistogram映射到具体函数时间的处理上,gprof采用了一种近似算法:
|
其中,bin_low_pc待用sample数组中的任意一项所对应的PC地址:而bin_high_pc代表bin_low_pc下一个sample对应的PC地址:
bin_low_pc = lowpc + (bfd_vma)(hist_scale * i);
bin_high_pc = lowpc +(bfd_vma) (hist_scale * (i + 1));
sym_low_pc待用可执行程序中某个符号(函数名、段名等)所对应的PC地址,sym_high_pc为下一个符号项所对应的PC地址:
sym_low_pc =symtab.base[j].hist.scaled_addr;
sym_high_pc = symtab.base[j +1].hist.scaled_addr;
gprof只将[bin_low_pc, bin_high_pc]和[sym_low_pc ,sym_high_pc]重合区域(以箭头标识)的sample次数算为sym_low_pc符号的消耗时间。
overlap = MIN (bin_high_pc,sym_high_pc) - MAX (bin_low_pc, sym_low_pc);
credit = overlap * time /hist_scale; // time = sample[i], hist_scale = pc_scale.
Gprof是GUN 工具链中自带的profiler,无需安装成本,与gcc的结合让其使用方便,能够快速上手。但是gprof也有其一定的缺陷,
1、它的测试结果并不能保证完全准确: 它无法统计程序耗在IO以及swap上的时间:
The output from gprof gives no indication of parts of your programthat are limited by I/O or swapping bandwidth. This is because samplesof the program counter are taken at fixed intervals of the program'srun time. Therefore, the time measurements in gprof output say nothingabout time that your program was not running. For example, a part ofthe program that creates so much data that it cannot all fit inphysical memory at once may run very slowly due to thrashing, but gprofwill say it uses little time. On the other hand, sampling by run timehas the advantage that the amount of load due to other users won'tdirectly affect the output you get. |
而且,由于其通过采集sample来计算profile的方式,本身就存在一定的失真:
The run-time figures that gprof gives you are based on a samplingprocess, so they are subject to statistical inaccuracy. If a functionruns only a small amount of time, so that on the average the samplingprocess ought to catch that function in the act only once, there is apretty good chance it will actually find that function zero times, ortwice. By contrast, the number-of-calls figures are derived by counting,not sampling. They are completely accurate and will not vary from runto run if your program is deterministic. The sampling period that is printed at the beginning of theflat profile says how often samples are taken. The rule of thumb isthat a run-time figure is accurate if it is considerably bigger thanthe sampling period. The actual amount of error is usually more than one sampling period. In fact, if a value is n times the sampling period, the expected error in it is the square-root of nsampling periods. If the sampling period is 0.01 seconds and foo'srun-time is 1 second, the expected error in foo's run-time is 0.1seconds. It is likely to vary this much on the average from one profiling run to the next. (Sometimes it will vary more.) This does not mean that a small run-time figure is devoid of information. If the program's totalrun-time is large, a small run-time for one function does tell you thatthat function used an insignificant fraction of the whole program'stime. Usually this means it is not worth optimizing. |
2. gprof不能支持动态库的解析。原因在本文中已经分析。
3. gprof不易维护和扩展,因为gprof的代码是封装在GNU工具链的glibc以及binutils中,修改libc的风险较大,而且版本也不易维护(不同系统中使用的libc版本不一致,如果单独更新glibc,会出现程序crash)。
Goolgleperformance tools是google公司开发的一套用于C++Profile的工具集。其中包括:
一个优化的内存管理算法—tcmalloc性能优于malloc。
一个用于CPU profile的工具,用于检测程序的性能热点,这个功能和gprof类似。
一个用于堆检查工具,用于检测程序在是够有内存泄露,这个功能和valgrind类似。
一个用于Heap profile的工具,用于监控程序在执行过程的内存使用情况。
官方文档:
http://code.google.com/p/google-perftools/wiki/GooglePerformanceTools
它的使用方式比较简单:首先在编译程序的时候加上相应的链接库,然后在运行程序时
通过设置相应的环境变量来激活工具。
1.使用其提供的内存管理函数---TC Malloc:
gcc [...] -ltcmalloc
2.使用其堆内存检查工具:
gcc [...] -o myprogram -ltcmalloc
HEAPCHECK=normal ./myprogram
3.使用Heap Profiler:
gcc [...] -o myprogram -ltcmalloc
HEAPPROFILE=/tmp/netheap ./myprogram
4.使用Cpu Profiler:
gcc [...] -o myprogram -lprofiler
CPUPROFILE=/tmp/profile ./myprogram
它的输出也很清晰,下图是一个CpuProfiler的结果图,其中每个方块代码一个函数,方块间的箭头描述了函数之间的调用关系,每个方块里面有两个数字:X ofY,其中Y表示在程序执行过程中函数所消耗的总体时间,X表示函数自身所消耗的时间,所以Y-X及时函数所调用的子函数消耗时间。如果函数没有子函数,则只显示总体时间。(X,Y的单位得sample,每个sample所代表的时间可以设置,默认为10ms)
a) 安装libunwind
libunwind是一个用于解析程序调用栈的C++库,由于glibc内建的栈回滚功能在64位系统上有bug,因此googleperformance tools建议使用libunwind
cd $HOME
tarxzvf libunwind-0.99-beta.tar.gz
mkdir libunwind-0.99-beta-build
cd libunwind-0.99-beta
./configure –prefix=$HOME/libunwind-0.99-beta-build
b) 安装Google PerformanceTools
注意:如果在系统目录中找不到libunwind,google performance tools将默认使用glibc的内建功能,因此我们需要手动设置libunwind的安装目录。
cd $HOME
tar xzvf google-perftools-1.6.tar.gz
mkdir google-perftools-1.6-build
cd google-perftools-1.6
./configure –prefix=$HOME/ google-perftools-1.6-build
CPPFLAGS=-I$HOME/libunwind-0.99-beta-build/include
LDFLAGS=-L$HOME/libunwind-0.99-beta-build/lib
make && make install
这里有两点想突出介绍下,一个是对动态库的支持,一个对动态profiler功能的支持。
在第一章节里面我们已经证明和分析GUNProfiler不提供对动态库的支持,虽然可以通过修改glibc的代码来扩展此功能,但是维护成本较大。而Goolgle performancetools本身就已经提供了对动态库的支持功能。当然动态库的使用也分两种情况:一种是在运行时动态链接库,一种是在运行时动态加载库。
运行时链接可以动态地将程序和共享库链接并让 Linux 在执行时加载库(如果它已经在内存中了,则无需再加载)。以一个具体例子来说明:
//libtestprofiler.h extern "C"{ int loopop(); } |
libtestprofiler.cpp只定义了一个耗时计算函数,便于分析。
// libtestprofiler.cpp #include "libtestprofiler.h" extern "C"{ int loopop() { int n = 0; for(int i = 0; i < 1000000; i++) for(int j = 0; j < 10000; j++) { n |= i%100 + j/100; } return n; } |
将libtestprofiler.cpp编译为动态库:
g++--shared -fPIC -g -O0 -o libtestprofiler.so libtestprofiler.cpp
在主程序中调用动态库:
#include <iostream> #include "libtestprofiler.h" using namespace std;
int main(int argc,char** argv) { cout << "loopop: " << loopop() << endl; return 1; } |
编译主程序,并动态链接libtestprofiler.so:
a) 首先采用GUN Profile的方式编译主程序
g++ -g -O0 -omain main.cpp -ltestprofiler -L. –pg
./main
gprof –b ./main结果如下:
Each sample counts as 0.01 seconds. no time accumulated
% cumulative self self total time seconds seconds calls Ts/call Ts/call name 0.00 0.00 0.00 1 0.00 0.00 global constructors keyed to main 0.00 0.00 0.00 1 0.00 0.00 __static_initialization_and_destruction_0(int, int) 0.00 0.00 0.00 1 0.00 0.00 data_start |
和预想一样,GNU Profile 不能解析动态库的性能热点。
b) 再以google CPU Profile的方式编译主程序:
g++ -g -O0 -omain main.cpp -ltestprofiler -L. -lprofiler-L/home/wul/google-perftools-1.6-build/lib
CPUPROFILE=perf.out./main
pprof --text./main ./perf.out,结果如下:
Using local file ./main. Using local file ./perf.out. Removing killpg from all stack traces. Total: 5923 samples 5923 100.0% 100.0% 5923 100.0% loopop 0 0.0% 100.0% 5923 100.0% __libc_start_main 0 0.0% 100.0% 5923 100.0% _start 0 0.0% 100.0% 5923 100.0% main |
由此证明,Google CPU Profiler支持对动态链接库的性能分析。
运行时加载允许程序可以有选择地调用库中的函数。使用动态加载过程,程序可以先加载一个特定的库(已加载则不必),然后调用该库中的某一特定函数,这是构建支持插件的应用程序的一个普遍的方法。
还是以上述程序为例,对主程序代码进修改:
#include <stdio.h> #include <dlfcn.h>
char LIBPATH[] = "./libtestprofiler.so"; typedef int (*op_t) ();
int main(int argc,char** argv) { void* dl_handle; op_t loopop; char* error;
/* Open the shared object */ dl_handle = dlopen( LIBPATH, RTLD_LAZY ); if (!dl_handle) { printf( "dlopen failed! %s\n", dlerror() ); return 1; }
/* Resolve the symbol (loopop) from the object */ loopop = (op_t)dlsym( dl_handle, "loopop"); error = dlerror(); if (error != NULL) { printf( "dlsym failed! %s\n", error ); return 1; }
/* Call the resolved loopop and print the result */ printf("result: %d\n", (loopop)() );
/* Close the object */ dlclose( dl_handle );
return 0; } |
编译:
g++ -g -O0 -o main_dl main_dl.cpp -lprofiler -L/home/wul/google-perftools-1.6-build/lib-ldl
CPUPROFILE=perf_dl.out./main_dl
pprof--text ./main_dl ./perf_dl.out,结果如下:
Using local file ./main_dl. Using local file ./perf_dl.out. Removing killpg from all stack traces. Total: 5949 samples 843 14.2% 14.2% 843 14.2% 0x00002b2f203d25d6 …… 0 0.0% 100.0% 1 0.0% 0x00002b2f203d25ed 0 0.0% 100.0% 5949 100.0% __libc_start_main 0 0.0% 100.0% 5949 100.0% _start 0 0.0% 100.0% 5949 100.0% main |
很奇怪,这个结果显示libtestprofiler.so库中的符号没有正确解析,perf_dl.out文件也没有包含libtestprofiler.so的内存映射信息,但是我们确实在主程序已经通过dlopen将动态库装载到内存并执行成功了,为何在主程序的内存映射表中找不到动态库的信息呢?经过一番分析和调查,终于找到原因,因为perf_dl.out文件的输出工作是在主程序执行结束之后、系统回收资源的时候调用的(具体见实现原理一节),而在此时主程序执行了dlclose()函数卸载了libtestprofiler.so,所以随后dump出的内存映射表当然就不会包含libtestprofiler.so的信息了。我们测试下将dlclose(dl_handle)注释后的运行结果:
Using local file ./main_dl. Using local file ./perf_dl.out. Removing killpg from all stack traces. Total: 5923 samples 5923 100.0% 100.0% 5923 100.0% loopop 0 0.0% 100.0% 5923 100.0% __libc_start_main 0 0.0% 100.0% 5923 100.0% _start 0 0.0% 100.0% 5923 100.0% main |
哈哈,动态库中的符号又能正常解析了。
这里首先需要解释下何谓动态profiler功能:传统的profiler工具,以GUNProfiler为例,只能编译阶段控制profiler的开关(-fprofile-arcs-ftest-coverage),但是我们有时候需要在程序的运行阶段,或者说运行的中间阶段控制profiler的开关。Googleperformance tools可以通过CPUPROFILE环境变量在程序运行初阶段控制cpuprofiler的开关,而且根据文档/usr/doc/google-perftools-1.5/pprof_remote_servers.html的提示,可以通过功能扩展可以实现在运行中间阶段或通过http协议远程控制profiler信息的功能。gperftools-httpd项目就已经初步完成了这个功能,我们可以体验一下。
1.从http://code.google.com/p/gperftools-httpd/下载gperftools-httpd安装。
2.修改下测试程序 main.cpp, 正常运行时间,方便测试
#include <iostream> #include "gperftools-httpd.h" #include "libtestprofiler.h" using namespace std; int main(int argc,char** argv) { ghttpd(); while(1) cout << "loopop: " << loopop() << endl; return 1; } |
这个程序主要做了两点修改,调用ghttpd()启动一个轻量级web servive,已完成pprof的远程请求服务;通过while循环加长了程序的执行时间,已方便验证动态profiler功能。
3.编译,需要连接libghttpd.so、libprofiler.so
g++-g -O0 -o main main.cpp-I/home/wul/gperftools-httpd-0.2-ltestprofiler -L.-L/home/wul/gperftools-httpd-0.2/ -lghttpd -lprofiler -L/home/wul/google-perftools-1.6-build/lib-dl -lpthread
4. 启动测试程序
./main 注意我们这时并没有设置CPUPROFILE环境变量,即表示此时CPU PROFILE功能还没有打开。
5.通过pprof工具远程打开测试程序的CPU profile功能:
pprof ./main http://localhost:9999/pprof/profile,结果如下:
Using local file ./main. Gathering CPU profile from http://localhost:9999/pprof/profile?seconds=30 for 30 seconds to /home/wul/pprof/main.1292168091.localhost Be patient... Wrote profile to /home/wul/pprof/main.1292168091.localhost Removing _L_mutex_unlock_15 from all stack traces. Welcome to pprof! For help, type 'help'. (pprof) text Total: 2728 samples 2728 100.0% 100.0% 2728 100.0% loopop 0 0.0% 100.0% 2728 100.0% __libc_start_main 0 0.0% 100.0% 2728 100.0% _start 0 0.0% 100.0% 2728 100.0% main |
从结果中可以看出,当pprof向本地web服务http://localhost:9999/发送Getpprof/profile请求时,测试程序就会自动开启profile功能,默认的监控时间段是now~now+30s(时间长短可以通过seconds参数设置),等待30s之后,测试程序停止profile,将结果返回给pprof并保存在/home/wul/pprof/main.1292168091.localhost中,此时再通过text命令就可以看到解析后的输出了。pprof工具还支持其它的query参数,譬如采样频率控制、触发采样事件等,具体可以参考gperftools-httpd以及google performancetools的官方文档。
Google performance tools包含四大功能,但是本章主要集中介绍CPU profiler功能,以便和GNU profiler做横向对比。
googleCPU profile的实现方式不同于gprof,但是两个的实现原理有点相似。CPUprofiler是通过设置SIGPROF信号处理函数来采集sample的,这点和gprof一样,但是CPUprofiler没有在函数入口插入代码,而是通过保存调用栈信息来记录函数的调用图和调用次数。CPUprofiler的主要实现代码在src/profiler.cc中。这个文件中定义了一个CpuProfiler类,并声明一个该类的静态实例。这样在main函数之前,此静态实例就会被初始化。
// Initialize profiling: activated if getenv("CPUPROFILE") exists. CpuProfiler::CpuProfiler() : prof_handler_token_(NULL) { // TODO(cgd) Move this code *out* of the CpuProfile constructor into a // separate object responsible for initialization. With ProfileHandler there // is no need to limit the number of profilers. charfname[PATH_MAX]; if (!GetUniquePathFromEnv("CPUPROFILE", fname)) { return; } // We don't enable profiling if setuid -- it's a security risk #ifdef HAVE_GETEUID if (getuid() != geteuid()) return; #endif if (!Start(fname, NULL)) { RAW_LOG(FATAL, "Can't turn on cpu profiling for '%s': %s\n", fname, strerror(errno)); } } |
该构造函数首先会判断系统变量CPUPROFILE是否被设置,如果设置了,则启动CPU profiler进程,否则,直接返回。我们在看看Start函数做了什么:
bool CpuProfiler::Start(const char* fname, const ProfilerOptions* options) { SpinLockHolder cl(&lock_);
if (collector_.enabled()) { return false; }
ProfileHandlerState prof_handler_state; ProfileHandlerGetState(&prof_handler_state);
ProfileData::Options collector_options; collector_options.set_frequency(prof_handler_state.frequency); if (!collector_.Start(fname, collector_options)) { return false; }
filter_ = NULL; if (options != NULL && options->filter_in_thread != NULL) { filter_ = options->filter_in_thread; filter_arg_ = options->filter_in_thread_arg; }
// Setup handler for SIGPROF interrupts EnableHandler();
return true; } |
此函数首先会调用ProfileHandlerGetState来获取其它的控制参数,包括CPUPROFILE_REALTIME和CPUPROFILE_FREQUENCY。
CPUPROFILE_FREQUENCY=x |
default: 100 |
How many interrupts/second the cpu-profiler samples. |
CPUPROFILE_REALTIME=1 |
default: [not set] |
If set to any value (including 0 or the empty string), useITIMER_REAL instead of ITIMER_PROF to gather profiles. In general,ITIMER_REAL is not as accurate as ITIMER_PROF, and also interacts badlywith use of alarm(), so prefer ITIMER_PROF unless you have a reasonprefer ITIMER_REAL. |
其次,函数调用ProfileData::Start为记录profiler信息分配内存并初始化,其定义在profiledata.cc中。
bool ProfileData::Start(const char* fname, const ProfileData::Options& options) { if (enabled()) { return false; }
// Open output file and initialize various data structures int fd = open(fname, O_CREAT | O_WRONLY | O_TRUNC, 0666); if (fd < 0) { // Can't open outfile for write return false; }
start_time_ = time(NULL); fname_ = strdup(fname);
// Reset counters num_evicted_ = 0; count_ = 0; evictions_ = 0; total_bytes_ = 0;
hash_ = new Bucket[kBuckets]; evict_ = new Slot[kBufferLength]; memset(hash_, 0, sizeof(hash_[0]) * kBuckets); // Record special entries evict_[num_evicted_++] = 0; // count for header evict_[num_evicted_++] = 3; // depth for header evict_[num_evicted_++] = 0; // Version number CHECK_NE(0, options.frequency()); int period = 1000000 / options.frequency(); evict_[num_evicted_++] = period; // Period (microseconds) evict_[num_evicted_++] = 0; // Padding
out_ = fd;
return true; } |
其中slot数组evict_就是profiler输出文件中的保存内容,具体可参考profiler输出文件的格式说明。Bucket数组hash_是用于临时保存程序调用栈信息的hash表,num_evicted记录evict_数组中的有效长度。这些变量在后续将会经常出现。回到profiler.cc中的CpuProfiler::Start函数,其最后一步调用的是EnableHandler(), 用于设置SIGPROF的信号处理函数。
void CpuProfiler::EnableHandler() { RAW_CHECK(prof_handler_token_ == NULL, "SIGPROF handler already registered"); prof_handler_token_ = ProfileHandlerRegisterCallback(prof_handler, this); RAW_CHECK(prof_handler_token_ != NULL, "Failed to set up SIGPROF handler"); } |
函数通过ProfileHandlerRegisterCallback注册了一个回调函数prof_handler:
ProfileHandlerToken* ProfileHandler::RegisterCallback( ProfileHandlerCallback callback, void* callback_arg) { ProfileHandlerToken* token = new ProfileHandlerToken(callback, callback_arg);
SpinLockHolder cl(&control_lock_); DisableHandler(); { SpinLockHolder sl(&signal_lock_); callbacks_.push_back(token); } // Start the timer if timer is shared and this is a first callback. if ((callback_count_ == 0) && (timer_sharing_ == TIMERS_SHARED)) { StartTimer(); } ++callback_count_; EnableHandler(); return token; } |
紧接着通过ProfileHandler::EnableHandler注册SIGPROF信号处理函数SignalHandler。
void ProfileHandler::EnableHandler() { struct sigaction sa; sa.sa_sigaction = SignalHandler; sa.sa_flags = SA_RESTART | SA_SIGINFO; sigemptyset(&sa.sa_mask); const int signal_number = (timer_type_ == ITIMER_PROF ? SIGPROF : SIGALRM); RAW_CHECK(sigaction(signal_number, &sa, NULL) == 0, "sigprof (enable)"); } |
到此,CPU profile的初始化工作基本上都完成了,总结一下主要是完成了两个工作:一个是内存的分配以及初始化,一个是注册SIGPROF信号处理函数,以便采集sample信息。所以接下来的重点将是分析CPU profile是如何采集sample的。首先看看SignalHandler函数的定义:
void ProfileHandler::SignalHandler(int sig, siginfo_t* sinfo, void* ucontext) { int saved_errno = errno; RAW_CHECK(instance_ != NULL, "ProfileHandler is not initialized"); { SpinLockHolder sl(&instance_->signal_lock_); ++instance_->interrupts_; for (CallbackIterator it = instance_->callbacks_.begin(); it != instance_->callbacks_.end(); ++it) { (*it)->callback(sig, sinfo, ucontext, (*it)->callback_arg); } } errno = saved_errno; } |
从代码中可以看出,SignalHandler除了记录中断次数之外,遍历调用了callbacks_链中的所有回调函数,回溯CPU Profile前面的初始化工作,这里就会调用prof_handler函数:
// Signal handler that records the pc in the profile-data structure. We do no // synchronization here. profile-handler.cc guarantees that at most one // instance of prof_handler() will run at a time. All other routines that // access the data touched by prof_handler() disable this signal handler before // accessing the data and therefore cannot execute concurrently with // prof_handler(). void CpuProfiler::prof_handler(int sig, siginfo_t*, void* signal_ucontext, void* cpu_profiler) { CpuProfiler* instance = static_cast<CpuProfiler*>(cpu_profiler);
if (instance->filter_ == NULL || (*instance->filter_)(instance->filter_arg_)) { void* stack[ProfileData::kMaxStackDepth]; // The top-most active routine doesn't show up as a normal // frame, but as the "pc" value in the signal handler context. stack[0] = GetPC(*reinterpret_cast<ucontext_t*>(signal_ucontext));
// We skip the top two stack trace entries (this function and one // signal handler frame) since they are artifacts of profiling and // should not be measured. Other profiling related frames may be // removed by "pprof" at analysis time. Instead of skipping the top // frames, we could skip nothing, but that would increase the // profile size unnecessarily. int depth = GetStackTraceWithContext(stack + 1, arraysize(stack) - 1, 2, signal_ucontext); depth++; // To account for pc value in stack[0];
instance->collector_.Add(depth, stack); } } |
从代码的注解片段中可以理解此函数的主要工作就是记录将当前程序的调用栈信息。顾名思义,GetPC函数用于获取当前pc指针,它是利用linux系统的信号处理机制来获取当前pc的(具体可参考《unix环境高级编程》), 其主要实现代码在getpc.h中:
inline void* GetPC(const ucontext_t& signal_ucontext) { // fprintf(stderr,"In GetPC3"); return (void*)signal_ucontext.PC_FROM_UCONTEXT; // defined in config.h } |
GetStackTraceWithContext函数完成了cpu profiler过程中最重要的一步,它最终调用了libunwind库,dump出了当前的函数调用栈信息,其主要实现代码在stacktrace_libunwind-inl.h中:
int GET_STACK_TRACE_OR_FRAMES { fprintf(stderr,"in libunwind\n"); void *ip; int n = 0; unw_cursor_t cursor; unw_context_t uc; #if IS_STACK_FRAMES unw_word_t sp = 0, next_sp = 0; #endif
if (recursive) { return 0; } ++recursive; unw_getcontext(&uc); int ret = unw_init_local(&cursor, &uc); assert(ret >= 0); skip_count++; // Do not include current frame
while (skip_count--) { if (unw_step(&cursor) <= 0) { goto out; } #if IS_STACK_FRAMES if (unw_get_reg(&cursor, UNW_REG_SP, &next_sp)) { goto out; } #endif }
while (n < max_depth) { if (unw_get_reg(&cursor, UNW_REG_IP, (unw_word_t *) &ip) < 0) { break; } #if IS_STACK_FRAMES sizes[n] = 0; #endif result[n++] = ip; if (unw_step(&cursor) <= 0) { break; } #if IS_STACK_FRAMES sp = next_sp; if (unw_get_reg(&cursor, UNW_REG_SP, &next_sp) , 0) { break; } sizes[n - 1] = next_sp - sp; #endif } out: --recursive; return n; |
这个函数的过程有点复杂,它的主要功能是回滚当前调用栈,并将栈指针都保存在stack数组中,根据这些信息就可以记录程序指令的执行次数,以及描述函数之间的调用关系图。(具体实现原理请参考libunwind官网说明)。再对到prof_handler函数中,程序的最后一步就是将当前获取的调用栈信息保存到预先分配的内存中,其具体实现在profiledata.cc文件中:
void ProfileData::Add(int depth, const void* const* stack) { if (!enabled()) { return; }
if (depth > kMaxStackDepth) depth = kMaxStackDepth; RAW_CHECK(depth > 0, "ProfileData::Add depth <= 0");
// Make hash-value Slot h = 0; for (int i = 0; i < depth; i++) { Slot slot = reinterpret_cast<Slot>(stack[i]); h = (h << 8) | (h >> (8*(sizeof(h)-1))); h += (slot * 31) + (slot * 7) + (slot * 3); }
count_++;
// See if table already has an entry for this trace bool done = false; Bucket* bucket = &hash_[h % kBuckets]; for (int a = 0; a < kAssociativity; a++) { Entry* e = &bucket->entry[a]; if (e->depth == depth) { bool match = true; for (int i = 0; i < depth; i++) { if (e->stack[i] != reinterpret_cast<Slot>(stack[i])) { match = false; break; } } if (match) { e->count++; done = true; break; } } }
if (!done) { // Evict entry with smallest count Entry* e = &bucket->entry[0]; for (int a = 1; a < kAssociativity; a++) { if (bucket->entry[a].count < e->count) { e = &bucket->entry[a]; } } if (e->count > 0) { evictions_++; Evict(*e); }
// Use the newly evicted entry e->depth = depth; e->count = 1; for (int i = 0; i < depth; i++) { e->stack[i] = reinterpret_cast<Slot>(stack[i]); } } } |
此函数的处理流程如下:
1.对stack数组的所有项做hash,得到一个hash值;
2.根据hash值在hash_表中查找此调用栈,如果找到匹配项则增加该项的执行次数;
3.如果没有找到则将从相应的hash槽中pop出执行次数最少的一个调用栈,将此调用栈中的所有栈指针值按顺序保存到evict_数组中,并将新调用栈push到hash槽中。
到此,CPU profile的主要流程都走完了,总结一下其一直在循环执行一个动作:定期保存程序的当前调用栈信息。在被测程序执行结束之后,CPU profile所做的最后一步工作就是将evict_数组中保存的数据输出到%CPUPROFILER环境变量制定的文件中(profiledata.cc):
void ProfileData::Stop() { if (!enabled()) { return; }
// Move data from hash table to eviction buffer for (int b = 0; b < kBuckets; b++) { Bucket* bucket = &hash_[b]; for (int a = 0; a < kAssociativity; a++) { if (bucket->entry[a].count > 0) { Evict(bucket->entry[a]); } } }
if (num_evicted_ + 3 > kBufferLength) { // Ensure there is enough room for end of data marker FlushEvicted(); }
// Write end of data marker evict_[num_evicted_++] = 0; // count evict_[num_evicted_++] = 1; // depth evict_[num_evicted_++] = 0; // end of data marker FlushEvicted();
// Dump "/proc/self/maps" so we get list of mapped shared libraries DumpProcSelfMaps(out_);
Reset(); fprintf(stderr, "PROFILE: interrupts/evictions/bytes = %d/%d/%" PRIuS "\n", count_, evictions_, total_bytes_); } |
在dump出evict_数组数据之后,函数还通过DumpProcSelfMaps将/prof/self/map中的信息追加到输出文件中,这些信息记录了应用程序的内存映射情况,是pprof工具解析指令符号的重要依据。(关于/prof/self/map中的信息说明可以参考《程序员的自我修养》)
虽然监控程序已经停止,但是CPUprofiler的工作还没完全结束,因为之前保存在$CPUPROFILER文件中的数据都是二进制格式的,不具备可读性,需要借助pprof工具的解析功能才能揭露它的真实信息。
pprof是用perl语言编写的解析工具,它的主要功能就是将CPU profile的输出数据转换成容易阅读理解的可视格式,如text、pdf、gif等,接下来本文将讲解pprof的主要工作原理,具体细节可以参考pprof代码。
$CPUPROFILER文件中保存了两部分信息:前部分是定期dump的调用栈信息,每个调用栈信息中都包含了执行次数、栈深度以及栈指针值(即指令地址);后半部分记录应用程序的内存映射图。所以第一步,pprof根据内存映射图和程序符号表将调用栈中的指令地址翻译成容易理解的程序代码;第二步,pprof根据第一部分保存的栈信息描述出程序中的函数调用图;最后一步,pprof根据栈执行次数计算出每段代码的执行次数,再根据定时器的执行频率估算出程序段的执行时间,进而找出程序的性能热点。
Google performance tools采用了和GUNProfiler近似的原理、不同的方式来达到profiler的效果。由于其通过记录调用栈信息来反推程序段的执行次数,不可避免地会出现遗漏和误算情况,而且和GUNProfiler一样,它也是通过sample的采样频率来估算程序段的运行时间,因此最终计算结果并不是十分精确的,具有一定的误差。但是,Google performance tools较之其他Profiler工具而言,有其自身的特点和优势,Googleperformance tools是一个用户态程序,不需要内核提供支持(对比oprofiler);它对被监控程序的入侵程序度较小(对比GUNProfiler),无需修改程序代码,以attach的方式跟踪程序执行状态;而且它也是google的开源项目之一,工程量较小,方面后期扩展和二次开发。
总结前两章的调研结果,对目前常用的C++ profiler工具做了一个简单的对比,对比的焦点主要集中在日常使用中大家所发现或比较关注的问题。不过由于时间关系,所选工具和对比项都十分有限,希望能在后期的进一步工作中完善补充。
C++Profiler工具 |
精确度 |
对动态库的支持 |
对动态控制的支持 |
二次开发和维护成本 |
GUN profile |
较高,对函数执行次数的统计是100%正确的,但是对函数执行时间的统计是通过采样平率估算的,存在一定的偏差。 |
No |
编译时决定,灵活性较差 |
代码集成在glibc中,二次开发和修改的影响面较大,而且发布不易。 |
Google performance tools |
一般,对函数次数和执行时间的统计都是通过采样频率估算的,存在一定的偏差和遗漏。 |
Yes |
运行时控制,更方面操作 |
独立的第三方库,开源项目,二次开发和维护成本较低。 |
Oprofile |
待调查 |
待调查 |
待调查 |
待调查 |
|
|
|
|
|
未完待续……