SSD 與 SMART 資料

SMART 代表自我監控,分析和報告技術。顧名思義,SMART 是一種記錄硬碟(HDD)或固態硬碟(SSD)健康資料的工具。SMART 資料可以成為一種寶貴的工具,在硬碟出現問題或已達到使用壽命時提供預警,因此有機會在發生故障之前更換。

容易向使用者或系統管理員回報這點很重要,因為硬碟本身無法進行資料的深入分析。只能在特定的屬性超過預設閾值,而且只有已在韌體中設定該閾值時,硬碟才能回報。

SMART 已存在很多年,比 SSD 的出現還要早。SMART 最初用在 HDD 上,而當將此新技術發明成為旋轉式硬碟的簡易替代品時,即適用於 SSD。不幸的是,不論何種儲存技術,都沒有行業標準可以告訴您哪個編號的 SMART 屬性是在描述硬碟哪一項具體的物理屬性。SSD 與 HDD 之間,甚至不同的 SSD 廠商之間,屬性描述符都會有所不同。

有多種第三方公用程式可以檢索並報告硬碟的 SMART 資料,這些程式通常是免費軟體及共享軟體。但除非第三方軟體廠商向硬碟廠商詢問正確的 SMART 屬性,否則定義和閾值(如果適用)可能會誤標屬性,並可能導致偽陽性或偽陰性的不實故障報告。

我們已發現,當「加電時間計數」屬性回報數字給公用程式時,不相容的公用程式可能會錯誤標示成「程式錯誤計數」或「已回報的無法修正錯誤數量」。更糟糕的是,第三方公用程式的故障閾值可能不適合相應的 SSD,因此 SMART 公用程式會在製造商知道應是可接受操作的情況下,回報故障。

由於存在這種潛在的混亂情況,Crucial 建議只能使用我們的Storage Executive 軟體工具,作為準確檢索並分析 Crucial SSD 上 SMART 資料的工具。Storage Executive 中永遠設定有適合所有 Crucial SSD(最舊版除外)的正確屬性描述和閾值(適用時)。

描述 Crucial 定義的 SMART 屬性

Crucial SSD 記錄多種不同的屬性,以便使用 Storage Executive 檢索。有些屬性回報與 SSD 有關的關鍵資訊,而其他的僅為參考資訊。

在此,我們將討論一些比較重要的屬性,如果 SATA 和 PCle 的屬性名稱不相同,則會顯示兩種名稱:

屬性 202:已使用壽命百分比

此屬性恰如其名。是在任意時間點硬碟已用掉多少預計壽命的指標。當 SSD 為全新時,屬性 202 回報為「0」,當已達到指定的壽命時,將顯示為「100」,回報已使用 100% 的壽命。

但重要的是要瞭解達到 100% 預計壽命的含義-這並不表示當計數器跳到 101% 時硬碟將發生故障,僅表示可能需要盡快更換您的 SSD。

NAND 快閃記憶體裝置的壽命由另一項特性定義:資料保存。資料保存指裝置可以在未通電狀態下,安全儲存並允許成功檢索使用者資料的時間。當 SSD 或其他 NAND 快閃記憶體裝置為全新時,未通電時的資料保存可長達數年。但是,幾乎就像人類的記憶一樣,會因為寫入資料經歷磨耗而變短(資料讀取不會直接導致磨耗)。

JEDEC 是為使用半導體的設備和組件建立標準及規範的行業組織。美光(Micron)是 JEDEC 的主要成員,以特定方式定義資料保存:針對客戶端應用程式(如商業或個人電腦)中的 SSD,在未通電狀態且儲存於 30 °C(86 °F)時,SSD 的資料保存應為一年。這應該能給大部分的電腦使用者足夠的時間,在有需要時,從已擱置一段時間未使用的硬碟中檢索任何資料。

您或許能從此描述中看出,隨著壽命計數器從 100% 開始計算,可預期 SSD 能正常運作。但隨著時間的流逝,資料保存將持續降低,從一年變成六個月再到三個月,以此類推。最終,在超過硬碟保固的壽命一段時間後,所有新的寫入資料都無法在斷電後保存。

但 SSD 韌體考慮到這一點。隨著 SSD 持續老化,修正錯誤記憶體(ECC)、讀取重試、彈性讀取參數、後台資料維護、以及韌體中的其他調整,可以修正因資料保存能力逐漸降低而引起的問題。隨著 NAND 資料區塊的劣化,可以用內建備援加以代替,即可繼續進行正常操作。當然,所有這些後台操作都是在通電時進行,這就是以未通電狀態定義資料保存的原因。

屬性 5:淘汰的 NAND 區塊

以 SMART 屬性 5 追蹤在持續評估 NAND 區塊品質的過程中,淘汰的區塊數量。除上述磨耗和資料保存問題外,SSD 韌體還會因多種原因淘汰 NAND 區塊。淘汰的原因之一,是未能在垃圾回收期間刪除或移動資料時,消除區塊。由於相關資料已刪除,或已成功複製到 SSD 的新位置上,因此這類故障對使用者資料的風險較低。

屬性 180:未使用的預留區塊計數(PCIe SSD 上的可用備用區塊)

再一次,顧名思義,這是在需要淘汰不良區塊時,可供使用的額外區塊計數。此數字因底層 NAND 架構、韌體架構、及硬碟的使用者容量而有所不同,但通常從數千起跳。

此數字會隨著淘汰區塊數量的增加而減少。當屬性 180 達到 0 時,韌體會將 SSD 置於唯讀模式。SSD 將無法當作正常的硬碟使用,但使用者應能檢索儲存的資料並傳輸到新的裝置。強烈建議若此數字低於 100 左右,即應該更換硬碟。

屬性 210:RAIN 成功恢復頁面計數

RAIN 非常類似於在磁碟陣列中使用 RAID 以取得資料備援。但 RAIN 備援是在硬碟內完成,對使用者而言為透明。RAIN 是 SSD 用來保護使用者資料,並且延長硬碟壽命的一種功能。

RAIN 事件很少出現,因此若數量增加,則應該要檢查上述的一些屬性,以判斷是否需要更換硬碟。頻繁的 RAIN 事件可能導致效能明顯下降。使用同位元備援恢復資料,可以讓正常的硬碟繼續操作,但會消耗一些 I/O 頻寬。如果經常發生效能下降,可能是因為 RAIN 重建,而且可能需要注意。

屬性 174:意外斷電次數(PCIe SSD 上不安全的關機次數)

在電腦系統中,正常斷電之前,會先從主機電腦向 SSD 發送訊息,表示即將斷電。此警告讓 SSD 有時間完成任何進行中的活動。完成後,SSD 會向主機發送「確認」訊息,之後主機完成關機操作。

會有許多意外斷電的情況,而這會對 SSD 造成問題。幾乎在所有情況下,SSD 都能彌補這一點,雖然下一次開機的時間可能會長一點(幾秒鐘,而不是幾百毫秒),但系統將會重新啟動。

屬性 174 通常僅供參考。但是,大量此等事件可能表示需要訓練使用者正確的完成作業系統關機,或者可能表示電源供應器或連接有問題。

屬性 194:外殼溫度(PCIe 裝置溫度)

Crucial Storage Executive 軟體會回報 SSD 上的感測器量測到的當前溫度和最高壽命溫度,以攝氏度表示。針對大部分的 Crucial SSD,規定的操作範圍為 0°C 至 70°C(或 32°F 至 158°F)。任何超過 70°C 的溫度記錄都可能使產品保固失效,因此應定期監控溫度。如果溫度經常超過 65°C,則建議採取改善通風和風扇等改正措施。

總結

就監控您的 SSD 健康而言,SMART 可能是一個非常有用的工具。但 SMART 並不是一個全面的診斷工具。從 SMART 屬性蒐集到的資訊搭配作業系統診斷,是不錯的標準故障排除作業起始點。

不正確地回報或錯誤解讀 SMART 資料,可能會導向錯誤的結論,甚至導致退回完全正常的硬碟。因此要再次重申,Crucial 強烈建議只能使用Crucial Storage Executive 軟體從 Crucial SSD 讀取 SMART 資料。

©2019 Micron Technology, Inc. 保留所有權利。資訊、產品和/或規格若有變動,恕不另行通知。Crucial 或 Micron Technology, Inc. 對於排版或影像的疏失或錯誤概不負責。Micron、Micron 標誌、Crucial 與 Crucial 標誌是美光(Micron Technology, Inc.)的商標或註冊商標。PCIE Express 與 PCIe 是 PCI-SIG 的註冊商標。其他所有商標與服務標誌皆屬其各自擁有者所有。