2025 年终总结：从时序数据库到 AI Infra 的转身

前言

2025 年转瞬即逝。回望这一年的经历，许多事都是撰写 2024 年年终总结时未曾预料的，这份不确定性也让复盘过程更具意义。

首先依然是自我介绍环节：我叫谭新宇，清华本硕，是一名开源技术爱好者，主要关注分布式存储、共识算法、时序数据库、可观测性与性能优化等领域，过去六年也一直在这些方向做一些工作。今年开始，我把重心从偏存储扩展到计算调度与机器学习平台基础设施。尽管在新领域仍是新人，但也算正式以 AI Infra 工程师的视角开始做事了。

2025

介绍完背景，下面按时间线回顾一下 2025。

一开年回来，同事告诉我：我们系统组 2024 年为 IoTDB 做的 TPCx-IoT 性能与性价比双登顶工作，榜单成绩被刷新了。这件事也让我很快进入状态。

TPCx-IoT 的核心指标是吞吐与性价比。吞吐可以通过横向扩展提升；性价比更依赖架构与工程细节——能否把资源利用率做到极致。我们 2024 年的上榜方案在集群多副本架构上已经做到相对 SOTA，且相关工作也在投稿路上，因此对于 “短期被赶超” 的结果确实有些意外。

我随后认真读了新榜一的公开报告。先说结论：其吞吐提升约 40%，其中相当一部分来自硬件资源增加约 7 倍（这条路我们也能走，甚至用 7 倍硬件资源的话吞吐还能更高）；但奇怪的是，其性价比也提升约 15%。继续拆解后发现，差异点并不在软件方案本身，而在硬件计价口径：我们 2024 年是在云厂商环境测试，硬件报价相比其私有部署高出接近 10 倍。因此榜单上的“性价比优势”，更多来自硬件成本模型差异，而非软件层面的突破。

找到根因后，动作也很直接：我们将报价测试切换到线下部署。在软件方案不变、硬件成本下降一个数量级的前提下，相比新榜一，我们用更少硬件跑出了更高吞吐：吞吐提升约 50%，性价比进一步提升一倍。这次结果也再次确认了我们对软件方案本身的信心。

当时我一度得出“线下更便宜”的直觉结论。但谁能想到 2025 年年底，同款机器受内存条整体溢价影响，价格上涨接近 6 倍，几乎把这条结论拉平。站在 2026 年初再看，上云还是下云又变成一个需要随时间与供给波动不断重算的选择题。

上半年基于这些积累，我们也在继续积极推进论文投稿：一是“通用 Raft + LSM 的状态同步”。在强一致性前提下，尝试做一些类似 ECRaft 的工作，在特定场景里给出强一致性推导，并带来一定的实际性能收益。二是“异步复制 + LSM 的状态同步”。在几乎实时同步的前提下，实现三节点三副本集群性能接近单机三倍这一反直觉表现。我觉得这两个方向都很有价值。更幸运的是，其中一篇已被 SIGMOD 2026 接收，算是圆了我在 DB + Raft 领域的一个长期心愿。也期待后续能在这块有更多交流。

其实在春节期间那波 DeepSeek 带来的技术浪潮里，我就暗下决心：年后一定要去市场上拿一些“真实反馈”，验证自己过去两年的成长。由于年后工作依然很满，我的跳槽决心也没那么强；加上我也不太愿意把大量精力投入纯面试训练，所以准备和投递都相对克制：刷了二三十道 LeetCode，梳理了一遍简历与项目，然后就开面。前后两个月里，我断断续续面了六七家，主要是大厂、LLM 公司和量化，结果大致是一半挂一半过。

挂掉的那些机会，有的是薪资预期没对齐，沟通不久就结束；也有的是对 C++ 熟练度要求非常高，本质上是技术栈不匹配。刚开始因为 C++ 原因被挂时，确实会有挫败感：虽然我也能借助 Cursor 相对高效地写一些 C++ 项目，但毕竟写了 7 年 Java，缺少 C++ 系统开发经验；面试一旦深入到语言特性与工程细节，短期补课难免露出短板。

事后回想，这段经历让我更清楚地看到两类岗位的差异：一类岗位在面试中对某项具体技能要求较高，且不太接受转行。入职后通常希望你立刻产出，工作范围更聚焦，职责边界也更早确定。另一类团队更关注“你解决过什么问题、如何思考与协作”，对特定技能的硬性要求相对弱，但对综合能力要求更高。这类机会往往业务处于高速发展期，入职后更容易覆盖多个方向。这两种选择没有绝对好坏，但适配偏好和职业路径确实不同。对于跨行业跳槽的同学来说，显然后者更容易让你把既有能力迁移过去，拿到更合理的定价甚至溢价。

最后我通过的几个 offer，基本都是后者：要么需要跨语言，要么需要跨行业，但所有 offer 的薪资和发展方向都还不错。某种意义上，这也算是市场对我过去几年能力积累的一次确认——这份正反馈对我很重要，也让我踏实了不少。

到了 5 月，综合所有考虑后我选择离职，正式离开自己待了六年的环境，去探索学习 AI Infra 的挑战。在这里也想对同样在考虑跨行业跳槽但又担心面不过的朋友说一句：先准备起来面试看看，即使被拒几次也别太焦虑。面试本来就是双向选择，多尝试总会找到合适的。

回头看，这应该是我 2025 年最重要的决定。离开熟悉且擅长的领域需要勇气，但我最终还是倾向于在合适阶段主动拓宽技术与认知边界。比较幸运的是，目前入职 landing 比较顺利：新工作里既有技术挑战，也能产生业务价值；过往的技术积累和软素质依然派得上用场。方向上也不再只聚焦存储，而是更多接触计算调度、训练/推理平台等新领域，在新的问题域里从头补课并参与建设。

由于新工作不再维护开源产品，我的大部分精力投入在闭源产品上。但工作中依然深度使用了很多开源组件，因此我仍能在喜欢的开源社区里交流并贡献。比如我接着 Anyscale CTO Moritz 的遗留 issue，为 Ray 社区贡献了 K8s 下的 Ray Debug 方案，并被他合入成为 Ray 官方推荐的解决方案。同时，我业余时间持续贡献的 Ratis 社区也提名我成为 PMC，非常感谢社区的认可。

我认为工作中最理想的状态，是在一个节奏相对可持续但仍保持专注的环境里，自驱地做一些自己感兴趣、有技术挑战、对业务有价值且有成长空间的事情。这种状态可遇不可求，我也很庆幸目前正处于这样的状态。

以上是 2025 的主要经历。下面整理一些阶段性思考。

一些感悟

Alpha、Beta 与选择

今年换了赛道之后，我对 Alpha 和 Beta 这两个词有了更切身的体会。借用投资语言：Beta 是跟着大盘走拿到的收益；Alpha 是你能跑赢大盘的那部分。

回想 2021 年，国内 AI 四小龙纷纷陷入困境，数据库赛道如日中天、深受资本宠爱；短短四年后，AI 浪潮已经被称为“第四次工业革命”。身边那些做出巨大 impact 的同龄 AI 大佬们，个人实力当然重要，但很多时候真正起决定作用的，是 Alpha 与 Beta 的共振：能力是一回事，时代把天花板抬高又是另一回事。

但本质上，Beta 终究是外部变量：你能感知、能选择，但很难完全掌控。换到一个全新领域后，我最大的感受反而是：过去积累的很多东西并没有“归零”。比如入职后做性能优化、迭代流程、分布式计算框架学习时，以前沉淀的定位瓶颈和迭代效率的方法论，几乎可以直接复用。

这让我逐渐明确：真正属于自己的 Alpha，未必是某个领域的具体知识点，而是端到端解决问题的方法论、工程直觉和协作能力——它们跨领域依然成立，不会因为行业冷热就失效，也不会因为一次跳槽就消失。尤其在如今有了 LLM 之后，很多特定领域知识更容易在一段时间的投入中补上来。

所以我对 Beta 的态度不是不追求，而是不把它当成唯一变量。Beta 天然风险与收益并存：红利来得快，退潮也快。在若干个“风险与收益都能接受”的 Beta 环境里，我更愿意选一个能持续积累自己 Alpha 的方向，跟公司和团队形成双赢——对我来说这更舒服。毕竟投资自己的 Alpha，更像一笔没有回撤的复利。

职业生涯里的很多选择，大概永远无法从全局视角判断是不是最优解。我们能做的，往往只是用当下的认知做局部最优，结果好坏还夹杂不少运气。刚毕业那会我问过一位在互联网摸爬滚打十余年的前辈，他说这十年最大的感悟：乐观点叫“选择大于努力”，悲观点叫“看命”。

既然全局最优不可得，那我现在做选择时，会更关注下限而不是上限。上限当然诱人，但它很大程度取决于 Beta 的走势，不完全可控；下限反而更容易想清楚：最差情况能不能接受？不满足预期时有没有退路？把下限想清楚之后，选择就会简单很多——选那条即使结果不如上限预期，自己也不会后悔的路。

Impact 本质上与你在解决什么问题息息相关

今年经历社招，跟不少朋友和猎头深聊之后，我的一个感受越来越强：职业发展真的不是一条平滑曲线，更像爬台阶——平时看不出什么变化，但总会遇到一两个关键的坎。能不能迈过去，靠的往往不是临时抱佛脚，而是之前在做人做事上积累的那些“不起眼的复利”。

这次社招面到终面时，我能明显感觉到：老板们看的已经不只是技术能力了——更多是你做事的风格、你在意什么、你过去解决过什么问题、未来想解决什么问题。技术当然是入场券，但真正决定你能走多远的，可能是这些更贴近“人本身”的东西。

换了工作之后也更能体会到：从 junior 到 senior 的成长，不只是技术深度的精进，更重要的是视角的拓宽——从解决一个具体技术问题，到能把质量、效率、迭代这些维度串起来；再到能站在业务视角，找到技术的端到端生态位，形成闭环。这个过程其实不需要等到某个职级才开始。反过来讲，日常工作里多想一层，本身就是在练这件事。

今年换工作的过程中我也反复想过一个问题：职级、薪资和 impact 到底由什么决定？综合来看，它们大概率是对“一个人能解决问题的价值”的均值回归——短期可能有高估或低估，但拉长来看，市场总会给出相对公允的定价。想明白这一点之后，我反而没那么焦虑：与其盯着职级和薪资纠结，不如把注意力放在让自己能解决的问题越来越难、越来越有价值上。

从开源参与者到开源用户

以前在开源公司做开源产品时，我对开源的感受更多是“参与者”视角：怎么把自己负责的模块做好、怎么跟社区协作、怎么把 patch 合进去。今年换到一个以使用开源组件为主的环境后，我反而从“用户”视角重新理解了开源社区的价值。

大多数业务团队的目标很明确：用技术尽快创造业务价值。人力有限时，选对一个开源框架往往能较快做到 60–80 分；想做到 90 分以上，通常需要持续跟进社区动态，甚至参与共建。

从零到一把底层框架打磨到通用且可靠，成本极高。开源社区的价值在于：有一群人愿意长期专注，把通用能力持续打磨，并在大量不同场景中反复验证。

还记得刚毕业时，我跟好朋友苏总聊过：选工作时最好能选一个在 GitHub 上保持活跃的环境。当时我认为去开源公司做开源产品是最直接的路径。今年换了公司之后发现，即使不再全职做开源产品，只要工作中深度使用开源组件、需要跟社区交流甚至贡献 patch，再加上自己在社区承担的角色，GitHub 的活跃度依然可以保持。我对这种状态比较满意，也希望来年继续坚持。

做 SOTA 和用好 SOTA

以前我对技术价值的理解有点“理想主义”，总觉得只有在 SOTA 的基础上继续往前推，才算真正有价值。今年的感受让我意识到：SOTA 的诞生，和它真正落地之间，往往存在很大的鸿沟。

现实里，大多数团队对新技术的采用，确实会落后于 SOTA 很多。在这样的现状下，把 SOTA 结合具体业务场景真正落地，本身就能创造巨大的价值——你不一定非得站在最前沿把天花板再顶高一层；把前沿的东西用好、用对，本身也是一种稀缺能力。

比如现在 LLM 的能力已经很强，但如果每个人都能把其中哪怕一小部分能力真正用到自己的业务里，往往就会有意想不到的效果。

过去我更容易被“突破天花板”的工作吸引；但现在更能体会到，把好东西带到更多人面前并落地到真实场景里，同样很有价值。

先做到极致，再优化效率

今年用 AI Agent 越多，我越能感受到它能力进化的速度。印象很深的是：有些需求年初怎么描述都做不对；到了年末，同样的需求可能一句话就能搞定。

我观察到这个规律放到人身上也类似：能不能把事做到极致，本质上是一个 0/1 的信任问题（是否敢把这件事完全交给你）；而在“已经做到极致”的前提下，如何进一步提升效率，更像一个可以稳步迭代的工程问题（如何更快、更省心、更可持续）。

回到自己身上也是一样：很多工作都希望尽可能做到最好，但资源有限时总会不断妥协，最后容易变成“每件事都做了，但每件事都差一口气”。这时候最让人不甘心的，往往不是没做，而是明明知道理想状态是什么，却没能把它做出来。

我经常会问自己一个问题：如果不考虑历史包袱，也不考虑眼前阻力，这件事的理想状态应该是什么样？如果真给我充足时间，我会怎么做？

这几年下来，我的一个体会是：如果一开始因为阻力没做到极致，后面即便阻力消失，也很容易因为惯性而不再补齐；但如果一开始就把它做到极致并且做成了，后续“怎么优化效率”往往是可解的——可以逐步拆解、逐步迭代，总能变快。这样单位时间里的成长也会更多，长期积累下来会形成更好的工作习惯与技术复利。

希望以后自己还能在更多事情上继续保持认真，把“先做到极致”尽量坚持住。

Infra 之路：从 Disk 到 Memory 到 GPU

如果把过去二十年的数据基础设施按“主要瓶颈”粗暴分段，我大概会这么理解：Disk 时代，瓶颈更多在磁盘与跨节点 IO，很多系统走 shared-nothing 路线，Hadoop + MapReduce 先把分布式存储与分布式计算的基本盘搭起来；Memory 时代，内存更便宜、网络更快，Spark 把更多中间状态留在内存里，把分布式计算效率推到更高水平，瓶颈也更常从磁盘转移到网络与 CPU。

现在到了 GPU 时代，我观察到新一轮的数据架构都在围绕 GPU 去重新设计。原因也很直接：GPU 把单位时间内的可用算力抬得太高了，系统瓶颈更频繁地从“算不动”变成“喂不饱”——数据搬运、访存、落盘、网络、调度与资源切分都会变成主要矛盾。这个视角下，NVMe、RDMA 这些更像“算力的供给链路”；围绕 GPU 的数据布局、IO 路径、缓存策略、batch 组织、任务切分与调度，才是新的主战场。很多我最近接触到的技术栈（例如分布式计算框架、训练/推理引擎与 Kubernetes 生态），本质上也都在解决同一个问题：当计算形态变了，怎样把工程系统重新组织起来，让算力稳定、可控、可规模化地转化成业务价值。

每一段技术栈的更迭，往往会带来至少十年的技术周期。从这个尺度看，GPU 这波的 Beta 收益还有很长空间，所以我并不太担心“2025 年入场算不算晚”。种一棵树最好的时间是十年前，其次是现在。至少对我自己而言，既然决定往这个方向走，那现在开始做一些围绕 GPU 的基础设施工作从新人重新学起，长期依然值得期待。

LLM 是消除信息差的有力工具

今年我对 LLM 的感受越来越具体：它最有价值的地方，可能不是“直接写出一个完美答案”，而是帮助缩小很多原本需要靠人脉、经验和踩坑才能补齐的信息差。

比如换到新领域后，一些概念、术语和最佳实践，以前往往要在博客、论文、issue、内部文档里检索一两周，才能拼出一个大致轮廓。现在只要把问题描述清楚，让它先给出一个“地图”（有哪些选项、trade-off 是什么、该看哪些关键词/资料、怎么验证），进入状态会快很多。

当然，LLM 也不是万能的。我现在更倾向于把它当成“高级搜索 + 快速补课 + 帮你写第一版草稿”的工具，而不是最终裁判。真正关键的两件事仍然在自己手上：第一，提问要具体，最好带上下文、约束和你期望的输出形式；第二，永远要有验证意识——不管它给你的是代码、结论还是方案，都得用实验、数据或一手资料去过一遍。

总之，LLM 让我更确信一件事：在信息密度越来越高的时代，能否快速学习、快速定位关键矛盾、快速验证假设会越来越重要。而 LLM 恰好把“学习—验证—迭代”的闭环速度往上抬了一档。

总结

2025 对我来说是认知变化很大的一年：从熟悉的方向出发，切换到新的赛道，也在这个过程中重新审视了许多过去的经历与积累。回头看，我很庆幸自己在合适的节点做了一次职业发展的改变——不是因为结果有多好，而是这段经历迫使我更认真地思考了几个长期问题：什么东西是真正属于自己的？自己的追求是什么？希望怎样去过完这一生？

这些问题也许没有标准答案，但至少现在的我比一年前更坚定，更坦然。我感谢上一段工作经历里一起并肩的人，也感谢 🍊 让我在工作之余更热爱这个世界并感受到生活的很多美好。

2026 年，希望自己能在新的领域继续扎根，继续把事情做到极致。

最后，感谢一路上帮助过我的领导、同事、朋友和家人。

预祝大家新年快乐，万事如意！

#年终总结

2025 年终总结：从时序数据库到 AI Infra 的转身

https://tanxinyu.work/2025-annual-summary/

作者

谭新宇

发布于

2026年2月12日

许可协议

Ray 编译踩坑记：老版本在老系统上的编译之路下一篇