| 雷峰网
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给Nemo
发送

0

腾讯云操作系统内核团队悄然修复bug,获Linux创始人Linus Torvalds 赞许

本文作者: Nemo   2024-12-31 09:31
导语:腾讯云也开发了自研的服务器操作系统版本TencentOS Server,装机规模超过1000万套

12月30日获悉,腾讯云操作系统(Tencent OS)内核团队在 Linux 社区默默提交的两项改进,成功解决了自 2021 年以来一直困扰着一线厂商,并在近期让多个Linux顶级Maintainer(软件维护者)困惑的关键内核bug。这一改进方案最终被合并进入后续的Linux  LTS(Long-term support) 版本中,并获得了 Linux 之父 Linus Torvalds 的高度评价。

 

腾讯云操作系统内核团队悄然修复bug,获Linux创始人Linus Torvalds 赞许

Linus:“不明,觉赞”

 

大约两个月前,Linux 社区中的一封邮件引起了广泛关注。其内容主要是,自 2021 年 12 月起,Linux 内核中启用了 Large folio 特性(能够提升系统访存性能)的 XFS 文件系统用户(但不仅限于 XFS)有概率遭遇缓存损毁导致的宕机问题。该问题受到了社区的高度重视。

 

XFS 是最常见的 Linux 文件系统之一,在常见的 Linux 使用场景中,如服务器、桌面等,XFS 被作为主力文件系统大量采用。尽管该bug较难触发,但其潜在风险仍然让社区和各大厂商感到不安。Meta 和 Cloudflare 等公司甚至不得不暂时禁用 XFS 的 Large folio 特性以确保系统稳定。

 

一个多星期的讨论中,大家迟迟没有捕捉到bug所引发的具体位置或线索,只是确认 bug确实存在而且亟需修复。几位顶级Maintainer,以及 Linus Torvalds 本人也参与进入讨论。

 

社区在广泛排查的过程中,突然发现这个问题在新的 Linux 内核版本中已经不复存在。进一步的调查发现,这一变化归功于腾讯云操作系统内核团队在今年 4 月提交的两项改进。

 

原来,腾讯云操作系统内核团队在进行操作系统性能优化研发时发现,操作系统内核使用 XArray(内核中用于处理广范围地址索引结构的基数树处理库)管理 Page Cache(页面缓存)时,会因XArray在分配内存时没有考虑好并发修改的问题,导致分配的内存指针可能指向错误的数据,对外表现为 XFS 与其他引入了 Large Folio 特性的文件系统均有概率出现卡死宕机甚至数据丢失的情况。

 

针对这一问题,腾讯云操作系统内核团队在优化 Page Cache 对 Xarray 的使用上,引入了一个新的辅助函数,简化了 Xarray 的中Large Folio 的插入算法,并进一步梳理和修复了内存分配的并发处理,确保了即使在多线程环境下,内存分配和释放也能正确进行。这些改动不仅修复了数据损坏的问题,还提升了操作系统系统的性能。

 

经历了数个星期的讨论与分析后,这些改动被社区认为是最佳的修复方案。

 

如今,这一修复方案已经被合入了最新的操作系统版本中,为这一问题画上了句号。同时,方案也极大提升了大文件在 Page Cache 中的读入性能,数以十亿计运行 Linux 的设备,都会因此快一点。

 

除了这次贡献外,腾讯云操作系统内核团队近年来通过与社区的紧密合作,在 swap(交换空间)、memory cgroup(内存控制组)、页面与热度管理等方面持续进行技术创新,不断提升 Linux 内核的性能和稳定性,助力操作系统技术发展。

 

目前,腾讯云也开发了自研的服务器操作系统版本TencentOS Server,装机规模超过1000万套,除了支撑腾讯自研的国民级应用,也广泛服务了互联网、金融、政务、工业、能源、交通等行业客户。

 

 

 

 


雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map