导语:编译优化是通过编译技术获得性能提升的一类性能优化方法,它具有通用性和可持续性强的优势,一次投入后可长期保持稳定的优化效果,可以有效降低性能优化的成本。 本文将回顾视频号推荐模块落地编译优化的历程和成果,也会介绍具体实践中遇到的问题和对应的解决方案,为后续同类应用提供参考。期待后续更多的业务模块能通过编译优化取得性能提升和成本收益。
我们把编译优化落地路径分为以下几类:
在微信视频号推荐模块我们首先完成了编译器版本升级,从GCC 7.5升级到TGCC(基于GCC 10),随后陆续将PGO/LTO等优化特性应用用到推荐模块的编译过程中,最后取得的性能提升为**20%**。通过对比,多个模块上都可看出相同负载(调用数)下,cpu使用率明显下降。
编译优化是一项发展很成熟的技术,但在实际落地实践中仍面临一系列问题和挑战。我们遇到的问题包括以下几类:
我们协同业务团队解决了上述问题,以下将我们的实践经验分享出来。
★ 文件编译时间过长** 微信某些文件(比如mmconfig_finder.ii)编译时间过长,freport-time-details显示pta阶段的占用超过150秒(gcc -c mmconfig_finder.ii -O2 -ftime-report-details)。详见:
经排查发现,该优化pass(PTA)在gcc10得到显著优化改进(Compile-time and memory-hog hog[1])。
解决方案:建议业务团队把编译器升级到gcc10以上版本。
**★ LTO链接耗时变长**
当前的编译并没有加入LTO优化,但是LTO优化带来的效果还是比较明显,测试下来可以看到有5%左右的运行性能提升,但是引入的副作用是链接时间也会明显的变长,影响开发效率。GCC的LTO分为WPA和LTRAN两个阶段,WPA为全局符号分析阶段,目前GCC只支持串行执行;LTRAN为分析后的优化执行阶段,这个阶段可以通过并行来缩短链接时间,打开参数-flto=auto可以让编译器自动根据机器性能设置LTRANS阶段的并行数量,尽量的减小链接耗时带来的负面影响。
★ MMERR打印宏引起编译器ICE(internel compiler error)
经过分析后确定是已知bug,[9 Regression] ICE in subspan, at input.h:69[2]。该bug属于前端(frontend),由于get_substring_ranges_for_loc 获得的位置信息中列号为0,导致subspan拿到的偏移量为-1。该问题修复patch包含在gcc10.3.0的更新中,tgcc升级基线后问题解决。
**★ AutoFDO方式编译 jemalloc/src/prof.c时栈溢出错误**
GCC的AutoFDO会将间接调用函数都内联到caller函数中,auto-profile.cc中对于递归函数并没有作特别处理,因此在遇到递归函数时会出现无限内联导致栈溢出Segment fault, GCC12中已经对这个问题作了修复,对于递归函数在AutoFDO的时候跳过内联即可。
我们将这段代码移植到对应的GCC10分支后同样解决了这个问题。
★ gcc: ICE in ipa_profile_write_edge_summary
lto+autoFDO 统一编译的时候报ipa_profile_write_edge_summary 的ICE,但是单独编译无法复现。
调试后发现GCC在分配indirect_call采样灰度值变量的内存空间不足,autofdo的indirect call只填了四个counter, 但是ipa_profile_genereate_summary会按照TOPN的格式去访问数据,导致访问到第5至第9个未分配内存的区域,越界产生了随机行为,调整变量内存空间后修复了此问题。
xgcc: fatal error: cannot execute '/data/mm64/mmdev/gcc10_debug/./gcc/cc1': execv: Argument list too long
微信的bazel build需要传入非常多的-isystem 参数到gcc中作为预编译头文件。gcc driver在fork后invoke cc1plus的时候参数超过256K的时候就开始报参数过长的错误:“execv: Argument list too long” 但是系统的限制约为2M,单独的测试案例直接invoke cc1plus也只会在2M之后报参数过长,需要分析看GCC在什么地方做了额外的设置导致提前报错。
内核对环境变量参数字符串长度有限制。execv在fork新的进程之前会调用copy_strings把argv和envp都拷贝到内核空间,argv的长度通过修改linux内核已经提高到2M了,但是envp的长度是由MAX_ARG_STRLEN来控制的,这个宏在devcloud机器上面是PAGESIZE*32, 也就是128K,但是在微信的编译机器上面变成了256K(微信编译机采用了修改过的Kernel,并没有用默认的MAX_ARG_STRLEN)
gcc在调用execv fork cc1前会调用libc的系统函数“putenv”设置一个很长的环境变量COLLECT_GCC_OPTIONS(相当于输入参数的长度),这个环境变量是GCC必须的,当COLLECT_GCC_OPTIONS的长度超过内核的限制时就会报参数过长的错误。
建议的解决方案为:修改linux kernel拷贝环境变量的字符串长度限制。
**★ profile-use+LTO ICE in lto-partion.c**
这个ICE发生在LTO的WPA阶段,牵涉到了很多链接文件,非常的难查,社区里面也经常遇到,但是并没有特别好的解决办法[3]。
视频号的推荐模块用到了2000多个静态库,包括了大量的重名函数分布在不同的库文件中,导致很难reduce成小的测试案例,不过通过隔离文件的方法找到了一种成功链接的结果用于对比,比较后发现在ipa-profile pass时两边同样的节点信息还是完全一致,但是ipa-visibility这个pass运行结束成功链接和失败链接对应函数节点的comdat group信息出现了差异,进一步跟踪后发现相同的函数节点和属性但是不同的访问顺序会导致comdat的消除出现不同的结果,原因是externally_visable变量在使用时还没有更新到预期的值,因此调整update_visibility_by_resolution_info中的检查函数来消除节点访问顺序造成的影响[4]。
★ coredump**
视频号推荐模块升级到tgcc后,发现运行错误“illegal instruction",导致coredump
经过反复排查,发现是某个函数没有提供返回值导致。
返回值未声明未void函数,实际却没有提供返回值,这在c++标准中属于未定义行为。在该函数加上返回值后,经测试确认coredump不再发生。对于此类问题,建议打开编译选项 -Werror=return-type检查此类错误,使问题可以在编译期暴露。出处:Flowing off the end of a value-returning function (except main) without a return statement is undefined behavior. return statement - cppreference.com[5]
★ 运行时火焰图函数缺失问题
微信后台开启LTO优化后符号丢失,火焰图上显示调用栈不完整或明显错误。通过分析二进制反汇编发现函数没有使用FP指针保存上下文环境,进一步发现链接选项里没有加上-fno-omit-frame-pointer,导致调用栈不能正确获取。
加上编译选项后,该问题已解决。
**★ ParseFromArray fail**
这个问题困扰了我们较长的时间,表现现象为下游返回的protobuf包数据格式不对导致解析失败,最开始出现在试用O3优化选项的时候,后面不得不回退到相对保守的O2的优化选项。
然后在灰度profile-use的时候在某些模块上面再一次出现,由于在新的模块上编译和测试时间相对短了很多,因此方便了对选项进行隔离排查。profile-use会打开20个[6]优化子选项,对这些选项进行二分隔离后定位到-ftree-loop-vectorize, 结合微信部门同事提供的问题可能在用到的第三方snappy库中,进一步确定了1.0.4版本代码的源文件中的IncrementalCopyFastPath函数由于写法有问题,强制使用了aligned的访问方式,导致源地址和目标地址重叠的时候生成了不安全的向量化指令操作。
禁掉vectorize或版本升级(1.1.4+)都可以解决此问题,但从代码安全角度考虑,采取了snappy版本升级到1.1.8的策略。
编译得到的mmfinderrecommend_1117_O2_PUSE二进制文件大小为2.6G,尽管相对于最初的GCC10 O2+LTO的3.6G减小了1G,还是显得有点大,分析二进制文件的具体内容可以发现debug信息占了将近90%的内容,binutils中的objcopy提供了一个压缩功能选项: objcopy --compress-debug-sections [xxx] [xxx.gz] 对二进制文件中的DWARF块进行zlib压缩,可以再次大幅减小二进制文件到1.2G。
各debug段具体压缩明细:有两种方式可以实现dwarf信息压缩:
进一步打开gc-sections优化可以将二进制文件优化到1G以内,大幅改进文件传输时间和镜像部署效率。783M Nov 30 13:13 bazel-bin/.../mmfinderrecommend结论:微信后台二进制占比最大的部分是调试信息,通过压缩调试信息和链接优化,二进制尺寸从3.6GB缩小为800MB,减少将近80%。
视频号推荐模块的PGO优化方案包含了编译器升级(GCC7 -> GCC10)和选项优化(PGO)两部分内容,在实施过程中面临了比较多的问题。
版本的升级一般来说都会带来各方面性能的提升,包括编译速度,运行速度,更高级的优化选项以及生成更高效的指令代码。但同时也可能高版本的编译器的检查选项更严格,有些以前没有暴露的错误被暴露出来,导致编译报错,有时是源代码本身的问题,也有些可能是编译器内部的问题,需要按照特定情况去解决。
在视频号模块上我们成功的实现了版本升级适配以及20%的综合性能提升,优化后的二进制文件大小减少了80%,显著的改进了部署效率。
参考
本文由哈喽比特于1年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/c7hFYqtpm1nCepQJdpk-lQ
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。