Backblazeは自社データセンターで使用するHDD(27モデル)について、2022年第2四半期の故障率と生涯故障率の統計を発表した。障害故障率が0.29%の製品がある一方、2.03%に及ぶ製品もあった。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
クラウドストレージやクラウドバックアップサービスを提供するBackblazeは2022年8月2日(米国時間)、2022年第2四半期の自社データセンターにおけるHDD使用統計レポートを発表した。
2022年第2四半期末時点で、Backblazeは世界中のデータセンターで21万9444台のHDDとSSDをモニタリングしている。そのうち4020台が起動ドライブ(2558台がSSD、1462台がHDD)、21万5424台がデータドライブ(全てHDD)だ。起動ドライブ4020台は、ストレージサーバ4020台に相当する。
レポートではこれらのデータドライブについて3点、すなわち、(1)生涯故障率、(2)2022年第2四半期の故障率、(3)第2四半期故障率に関する考察――を報告している。
Backblazeは、2022年第2四半期末時点でデータドライブとして使用していた21万5424台のHDDのうち、テスト目的で使用していたものと、同一モデルの使用台数が60台に満たないものなど413台を除外して、21万5011台のHDD(27モデル)を対象に生涯故障率を分析した。
十分なサンプル規模を確保した上で、結果を分かりやすく示すため、Backblazeは、「95%信頼区間の差が0.5%以下」「HDDの生涯正常稼働日数(Drive Days)が100万日以上」「容量が8TB以上」という条件で対象モデルを選択し、モデル別に生涯AFR(年間平均故障率)を次のようにまとめている。
Backblazeは、AFRの計算方法を次のように説明している。
ある「HDDコホート」のAFRの計算式は、次のようになる。HDDコホートとは、特定の期間(四半期や年間、生涯)について選択されたHDDのセット(通常はモデル別)を意味する。
AFR = ( drive_failures / ( drive_days / 365 )) * 100
式中の変数の定義は次の通りだ。
・AFR 選択されたHDDコホートの年間平均故障率
・drive_failures 選択されたHDDコホートにおける故障したHDDの台数
・drive_days 選択されたHDDコホートの全HDDが所定の期間(四半期、年間、生涯)において、正常に稼働した日数
例えば、上の表にあるSeagate Technology(Seagate)の16TBモデル(ST16000NM001G)では、故障したHDDの台数が117台、生涯正常稼働日数が411万7553日だ。すると、生涯AFRの計算結果は1.04%となる。
AFR = ( 117 / ( 4117553 / 365 )) * 100 = 1.04%
Backblazeは現在、HDDの故障を「リアクティブ」と「プロアクティブ」の2つのカテゴリーに分類している。リアクティブな故障とは、HDDが故障してシステムと通信しない、または通信できない状態を指す。プロアクティブな故障とは、HDDが報告するエラーに基づいて判断される、故障が差し迫っている状態を指す。これは、HDDのS.M.A.R.T.統計情報を調べることで確認できる。プロアクティブな故障が確認された場合、HDDは完全に故障する前に取り外される。
データサイエンティストはここ数年、S.M.A.R.T.統計情報を使って、さまざまな統計手法に加え、人工知能(AI)や機械学習(ML)の技術により、HDDやSDDの故障を予測できるかどうかを検証している。これらの故障を正確に予測でき、予測の誤りを最小限に抑えられれば、ストレージプラットフォームの拡張に合わせて、運用能力を最適化できる。
Backblazeは2022年第2四半期のデータのみを使用して、前述した27モデルに分類された21万5011台のHDDを対象に、故障率を集計した。その結果をまとめた表を次に示す。
Backblazeは2022年第2四半期の故障率の分析結果を、次のように要約している。
2022年第2四半期には、平均使用期間が最も長い(86.7カ月)Seagateの6TBモデル(ST6000DX000)886台のうち2台が故障した。平均使用期間から見て、このモデルがこの期間に1〜2台が故障しても不思議ではないものの、故障の発生は2021年第3四半期以来だ。将来、このモデルは廃棄の対象になるだろうが、生涯AFRがわずか0.87%であるため、真っ先に廃棄されることはない。
平均使用期間が2番目に長い(85.3カ月)東芝の4TBモデル(MD04ABA400V)97台を見ると、2022年第2四半期には故障がゼロだった。直近の故障は、1年前の2021年第2四半期に発生したものだ。このモデルの生涯AFRはわずか0.79%だが、生涯信頼区間の差は1.3ポイントだ。これは、信頼性が高いAFRを得るのに十分なデータがそろっていないことを意味する。
2022年第2四半期には、Western DigitalのHGSTブランドの8TBモデル(HUH728080ALE604)76台の他、東芝の14TBモデル(MG07ACA14TEY)501台、東芝の16TBモデル(MG08ACA16TA)2488台の3モデルでも、故障がゼロだった。ただし、2番目に古い東芝の4TBモデル(MD04ABA400V)と同様に、これらのモデルはデータポイントの数が限られているため、信頼区間の差が非常に広い。
例えば、東芝の16TBモデル(MG08ACA16TA)は、正常稼働日数が3万2064日で、これら4モデルの中で最も長い。だが、95%信頼区間を得るには、四半期で少なくとも50万日の正常稼働日数が必要になる。それでも、これらのモデルのいずれかまたは全てが、今後の四半期も素晴らしい数字を記録する可能性は十分ある。
平均使用期間が80.3カ月であるSeagateの4TBモデル(ST4000DM000)は、老朽化が目立ち始めている。AFRが四半期ごとに上昇し、2022年第2四半期には3.42%となった。Backblazeはデータ耐久性プログラムの一環として、これらのモデルについてドライブクローニングプログラムを展開しており、今後数カ月でこれらのモデルは廃棄される予定だ。
2022年第2四半期には、全HDDモデルのAFRが1.46%となり、2022年第1四半期の1.22%、2021年第2四半期の1.01%と比較して上昇した。上記の老朽化したSeagateの4TBモデルがその一因だが、東芝のモデルとHGSTブランドのモデルの故障率も、この1年間で上昇した。これはHDD全体の老朽化と関係しているようだ。Backblazeは、今後1年間で古いモデルを引退させるため、今後AFRが低下するとみている。
なお、BackblazeはHDDの使用統計を年4回、SSDの使用統計を年2回発表している。
Copyright © ITmedia, Inc. All Rights Reserved.