浅谈数值计算程序开发中性能分析的重要性-valgrind工具使用简介及可恶的std:pow
序
最近一直在做NS方程DG方法实现,写完了程序发现有些时候跑起来出乎意料地慢,我百思不得其解。决定用程序性能分析工具寻找下原因,最后发现原来有个指数计算的地方我用了std::pow这个函数,再加上又用了AD计算导数,导致程序运行百分之九十多的时间都在调用这个函数。而对于正常计算来说,这个地方基本不占用时间。最后,pow函数被替换掉之后发现程序运行时间大大降低,原来运行20min的算例,现在不到2min就能完成。由此可见,很多时候直接使用库函数固然方便,但是考虑到效率问题,使用之前还是要慎重。
关于Valgrind
Valgrind是运行在Linux上一套基于仿真技术的程序调试和分析工具,它包含一个内核──一个软件合成的CPU,和一系列的小工具,每个工具都可以完成一项任务──调试,分析,或测试等。Valgrind可以检测内存泄漏和内存违例,还可以分析cache的使用等,灵活轻巧而又强大,能直穿程序错误的心脏,真可谓是程序员的瑞士军刀。
一、简介
1.Memcheck
用来检测程序中出现的内存问题,所有对内存的读写都会被检测到,一切对
malloc()/free()/new/delete
的调用都会被捕获。所以,它能检测以下问题:
. 对未初始化内存的使用;
. 读/写释放后的内存块;
. 读/写超出malloc分配的内存块;
. 读/写不适当的栈中内存块;
. 内存泄漏,指向一块内存的指针永远丢失;
. 不正确的malloc/free或new/delete匹配;
*. memcpy()相关函数中的dst和src指针重叠。
2.Callgrind
和gprof类似的分析工具,但它对程序的运行观察更是入微,能给我们提供更多的信息。和gprof不同,它不需要在编译源代码时附加特殊选项,但加上调试选项是推荐的。Callgrind收集程序运行时的一些数据,建立函数调用关系图,还可以有选择地进行cache模拟。在运行结束时,它会把分析数据写入一个文件。callgrind_annotate可以把这个文件的内容转化成可读的形式。
3.Cachegrind
Cache分析器,它模拟CPU中的一级缓存I1,Dl和二级缓存,能够精确地指出程序中cache的丢失和命中。如果需要,它还能够为我们提供cache丢失次数,内存引用次数,以及每行代码,每个函数,每个模块,整个程序产生的指令数。这对优化程序有很大的帮助。
4.Helgrind
它主要用来检查多线程程序中出现的竞争问题。Helgrind寻找内存中被多个线程访问,而又没有一贯加锁的区域,这些区域往往是线程之间失去同步的地方,而且会导致难以发掘的错误。Helgrind实现了名为“Eraser”的竞争检测算法,并做了进一步改进,减少了报告错误的次数。不过,Helgrind仍然处于实验阶段。
5.Massif
堆栈分析器,它能测量程序在堆栈中使用了多少内存,告诉我们堆块,堆管理块和栈的大小。Massif能帮助我们减少内存的使用,在带有虚拟内存的现代系统中,它还能够加速我们程序的运行,减少程序停留在交换区中的几率。
二、 Valgrind使用方法
Valgrind的使用非常简单,valgrind命令的格式如下:valgrind [valgrind-options] your-prog [your-prog options]
一些常用的选项
选项 | 作用 |
---|---|
-h or - -help | 显示帮助信息 |
- -version | 显示valgrind内核版本 |
-q or - -quiet | 只输出错误信息 |
-v or - -verbose | 输出更详细的信息 |
- -tool=[default: memcheck] | 运行valgrind中名为toolname的工具。如果省略工具名,默认运行memcheck |
- -db-attach= [default: no] | 绑定到调试器上,便于调试错误 |
三、valgrind中callgrind的使用
总结起来讲用callgrind
分析代码只需要三步:
- 编译程序时最好添加debug符号,便于生成
call-graph
- 以命令
valgrind --tool=callgrind ./programname
运行程序生成分析数据文件- 用可视化工具,诸如
KCachegrind
分析上一步生成的数据文件。
一个可视化后的例子如图,在右下角的视图中可以看到函数间的调用关系和相应的比例