本报告基于Backblaze云存储平台上用作存储服务器引导盘的固态硬盘(SSD)的数据。在此环境中,这些SSD既用于启动存储服务器,又用于存储存储服务器生成的日志文件和临时文件。
针对本次报告,将分析这些盘的季度和终身故障率,并在此过程中提供对数据的观察和分析。此外,还将首次研究SSD盘失效的平均寿命,以及SSD盘的故障率与普遍存在的浴盆曲线的拟合情况。
2023年年中SSD季度数据回顾
截至2023年6月30日,存储服务器中共有3144个SSD。与2022年SSD年度报告中报告的2558个SSD相比,这个数字有所增加。首先呈现并探讨过去两个季度(2023年第一季度和第二季度)的季度数据。
观察与解读
季度数据:每个表格的数据都对应于特定的季度。也就是说,硬盘故障和硬盘工作日的数量包括所指定的季度,即2023年第一季度或第二季度。硬盘计数截止到每个季度的最后一天。
新增硬盘:自上一份SSD报告,即截止到2022年第四季度的报告之后,统计数据新增了238个SSD。其中,Crucial(型号:CT250MX500SSD1)以110个新增硬盘的数量领先,其次是62个新的WDC硬盘(型号:WD Blue SA510 2.5)和44个Seagate硬盘(型号:ZA250NM1000)。
年化故障率(AFR,Annualized Failure Rates)异常高:部分硬盘的AFR故障率看似异常高。Seagate型号SSDSCKKB240GZR的AFR怎么可能超过800%?在这个案例中,第一季度开始时有两个硬盘,其中一个不久后安装失败,因此导致了高AFR。而在第二季度,剩下的一个硬盘未出现故障,AFR为0%。哪个AFR是有用的呢?在这种情况下,都不适用,因为没有足够的数据来得出可靠的结果。对于任何给定的硬盘型号,在开始考虑计算出的AFR是否“合理”之前,至少有100个硬盘和10000个硬盘工作日在一个季度内。为了完整性,报告包括了所有的硬盘型号,因此在对AFR进行严格评估之前,请在关注AFR时留意硬盘数量和硬盘工作日。
季度内年化故障率的变化
在任何给定季度,数据可能会因硬盘的老化和故障的随机性等因素而波动,从而导致年化故障率(AFR)升高或降低。第一季度,AFR为0.96%,而第二季度,AFR为1.05%。下图展示了过去三年内这些季度故障率与之前季度的关系。
AFR在0.36%和1.72%之间波动,那么季度故障率有何意义呢?它们就像煤矿里的警示鸟一样重要。例如,2021年第一季度的AFR(0.58%)在2021年第二季度上升了1.51%,然后在2021年第三季度上升到1.72%。随后的调查显示,其中一个硬盘型号是上升的主要原因,而该型号已被停止使用。
有时会发生特定硬盘型号与环境不兼容,因此会调整甚至移除该型号硬盘,尽管它不如数据硬盘对于系统耐用性来说那么关键,但仍需确保引导硬盘正常运行,以便收集每天捕获的硬盘/服务器/库数据。
Backblaze内部数据应用策略
根据收集到的数据制作了季度、年度和终身统计图和表格。另外,每天都会为内部使用制作类似的图和表格。通常情况下,会为每个硬盘型号制作一个图,但在下面的示例中,将几个SSD型号合并成一个图。
在内部使用的“最近”时间段为60天。这与公开的季度性报告不同。无论哪种情况,像上面的图一样,都可以快速发现需要进一步调查的趋势。例如,在图中,Micron SSD的最近结果表明可能需要深入分析图背后的数据。
通过收集、存储和持续分析硬盘统计数据,能够主动维护系统的耐用性和可用性目标。如果没有硬盘统计数据,将倾向于过度配置系统,因为将无法看到硬盘故障的随机性,这将直接影响到这些目标。
深入了解更多SSD统计数据
多年来,在季度硬盘统计报告中,已经研究了除季度和终身故障率之外的其它指标。许多这些指标也适用于SSD。下面,将首次查看其中两个:SSD故障的平均寿命以及SSD故障与浴盆曲线的相关性。在这两种情况下,数据集都很小,但随着监控的SSD数量继续增加,这些数据集是一个很好的起步。
SSD的平均故障寿命
之前,曾计算过系统中硬盘故障的平均寿命。在初步的计算中,这个寿命约为两年零七个月。这是一个很好的基准,但需要进一步分析,因为计算中使用的许多硬盘型号仍在使用中,因此其中一些可能会失败,潜在地影响平均值。
将同样的计算应用于已经发生故障的SSD集合,并建立一个可以继续工作的基线。第一步是确定到目前为止有的63个失败的SSD的SMART_9_RAW值(开机时间或POH)。虽然这不是一个很大的数据集,但它可以作为起点。一旦收集到这些信息,计算出已经发生故障的SSD集合的平均故障寿命为14个月。考虑到整个SSD群体的平均寿命仅为25个月,那么随着仍在运行的SSD平均寿命的增加,应该预期会发生什么呢?下表查看了三个具有合理数量数据的硬盘型号。
正如在表中所看到的,随着正在运行的硬盘(正常工作的硬盘)的平均寿命增加,失败硬盘的平均寿命也在增加。换句话说,可以合理地预期,随着整个SSD群体的老化,SSD故障的平均寿命也会增加。
SSD故障是否符合浴盆曲线
此前,曾绘制硬盘故障随时间的图表,以确定它们是否符合可靠性工程中使用的经典浴盆曲线。下面,使用SSD数据来评估SSD故障是否与浴盆曲线相符。
尽管每个季度实际SSD故障曲线(蓝线)略显波动,但趋势线(二次多项式)确实呈现出明显的浴盆曲线形状。趋势线与数据的拟合度约为70%,因此对曲线的可靠性不能过分自信。然而,考虑到有限数据量,看到SSD故障逐渐与已验证的浴盆曲线相符令人感到惊讶。
SSD终身年化故障率
截至2023年6月30日,存储服务器中共有3144个SSD。以下表格基于截至2023年第二季度结束时仍在使用的驱动器型号的终身数据。
观察与解读
终身年化故障率(AFR):终身数据累积从2018年第四季度到2023年第二季度。在这个时期,所有SSD的终身AFR为0.90%。这与2022年第四季度末的0.89%相比略有上升,但较一年前的2022年第二季度的1.08%有所下降。
高故障率?:正如在季度统计中所指出的,至少有100个硬盘和超过10000个硬盘工作日,以便让对AFR数字有一定的信心。如果将这一标准应用到终身数据中,可以得到以下表格。
将简单标准应用到列表中,剔除了那些具有非常高故障率的硬盘型号。这并不是一种统计技巧;只是删除了那些没有足够数据使计算得出的AFR可靠的型号。这些被剔除的硬盘型号可能会继续具有高故障率,也同样可能它们的故障率会落入更正常的范围。如果这种技巧对您来说有点粗糙,那么置信区间可能是您要寻找的内容。
置信区间:一般来说,拥有的数据越多,而且这些数据越一致,对基于这些数据的预测就越有信心。以95%的确信度计算置信区间。
对于SSD,在计算AFR时,低值和高值之间的置信区间在1.0%或更低才能让人满意。如果将这一标准应用到终身SSD数据中,可以得到以下表格。
这并不意味着具有置信区间大于1.0%的硬盘型号的故障率是错误的;只是意味着获得更多的数据以确保准确性。
无论使用哪种技巧,都旨在帮助澄清本报告中表格中呈现的数据。