Formel zur Berechnung der Wahrscheinlichkeit eines nicht behebbaren Lesefehlers beim RAID-Rebuild

Question

Formel zur Berechnung der Wahrscheinlichkeit eines nicht behebbaren Lesefehlers beim RAID-Rebuild

Ich möchte die Zuverlässigkeit verschiedener RAID-Systeme entweder mit Consumer-(URE/Bit = 1e-14) oder Enterprise-Laufwerken (URE/Bit = 1e-15) vergleichen. Die Formel, um die Erfolgswahrscheinlichkeit eines Wiederaufbaus zu haben (mechanische Probleme zu ignorieren, die ich später berücksichtigen werde), ist einfach:

Error_probability = 1 - (1-per_bit_error_rate)^bit_read

Wichtig zu beachten ist, dass dies die Wahrscheinlichkeit ist, mindestens eine URE zu erhalten, nicht unbedingt nur ein.

Nehmen wir an, wir wollen 6 TB nutzbaren Speicherplatz. Wir können es bekommen mit:

RAID1 mit 1+1 Festplatten mit je 6 TB. Während des Wiederaufbaus lesen wir 1 Festplatte mit 6 TB zurück und das Risiko ist: 1-(1-1e-14)^(6e12*8)=38% für Verbraucher oder 4,7% für Unternehmenslaufwerke.
RAID10 mit 2+2 Festplatten à 3 TB. Während des Wiederaufbaus lesen wir nur 1 Festplatte mit 3 TB zurück (die mit der fehlgeschlagenen gepaart ist!) und das Risiko ist geringer: 1-(1-1e-14)^(3e12*8)=21% für Verbraucher oder 2,4% für Unternehmen Festplattenlaufwerke.
RAID5 / RAID Z1 mit 2 + 1 Festplatten zu je 3 TB. Beim Rebuild lesen wir 2 Festplatten mit jeweils 3 TB zurück und das Risiko ist: 1-(1-1e-14)^(2*3e12*8)=38% für Consumer-oder 4.7% - oder Enterprise-Laufwerke.
RAID5 / RAID Z1 mit 3 + 1 Festplatten mit jeweils 2 TB (häufig von Benutzern von SOHO-Produkten wie Synologys verwendet). Während des Wiederaufbaus lesen wir 3 Festplatten mit je 2 TB zurück und das Risiko ist: 1-(1-1e-14)^(3*2e12*8)=38% für Consumer-oder 4.7% - oder Enterprise-Laufwerke.

Berechnung der fehler für Single Disk Toleranz ist einfach, schwieriger ist die Berechnung der Wahrscheinlichkeit mit Systemen tolerant zu mehreren Festplatten Ausfälle (RAID6/Z2, RAIDZ3).

Wenn nur die erste Festplatte für den Wiederaufbau verwendet wird und die zweite für den Fall oder eine Ausnahme von Anfang an erneut gelesen wird, ist die Fehlerwahrscheinlichkeit diejenige, die über dem Quadrat Null berechnet wird (14,5% für Verbraucher RAID5 2+1, 4,5% für Verbraucher RAID1 1+2). Ich nehme jedoch an (zumindest in ZFS, das volle Prüfsummen hat!), dass die zweite parity / available Disk wird nur bei Bedarf gelesen, was bedeutet, dass nur wenige Sektoren benötigt werden: Wie viele UREs können möglicherweise auf der ersten Festplatte vorkommen? nicht viele, sonst würde die Fehlerwahrscheinlichkeit für Single-Disk-Toleranzsysteme noch mehr explodieren, als ich berechnet habe.

Wenn ich Recht habe, würde eine zweite Paritätsdiskette das Risiko praktisch auf extrem niedrige Werte senken.

Frage beiseite, es ist wichtig zu bedenken, dass Hersteller die Wahrscheinlichkeit erhöhen, dass Verbraucher-Klasse laufwerke aus Marketinggründen (verkaufen mehr Laufwerke der Enterprise-Klasse), daher wird erwartet, dass sogar Festplatten der Consumer-Klasse 1E-15 MB/Bit lesen.

Einige Daten: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

Die Werte, die ich in Klammern (Enterprise Drives) angegeben habe, gelten daher auch realistisch für Consumer Drives. Und echte enterprise-Laufwerke haben eine noch höhere Zuverlässigkeit (URE/bit=1e-16).

Bezüglich der Wahrscheinlichkeit von mechanische Ausfälle sind proportional zur Anzahl der Festplatten und proportional zur Zeit, die zum Wiederaufbau benötigt wird.

13

zfs raid rebuild

Author: FarO, 2012-12-09

Source

2 answers

Es gibt eine Reihe von Websites und Artikeln, die versuchen, diese Frage zu beantworten.

Diese [[3]] Website hat Rechner für RAID 0, 5, 10/50/60 Ebenen.

Der Wikipedia-Artikel zu [[7]}RAID-Levels enthält Abschnitte zu RAID 0-und RAID 1-Ausfallraten.

RAZZIA 0:

Zuverlässigkeit eines gegebenen RAID 0-Satzes ist gleich der durchschnittlichen Zuverlässigkeit von jeder Platte geteilt durch die Anzahl der Platten in der Menge:

Das heißt, Zuverlässigkeit (als gemessen mean time to failure (MTTF) oder mittlere Zeit zwischen Ausfällen (MTBF)) ist ungefähr umgekehrt proportional um die Anzahl der Mitglieder – so ein Satz von zwei Platten ist etwa halb so zuverlässig als einzelne Festplatte. Wenn es eine Wahrscheinlichkeit von 5% gäbe, dass die disk würde innerhalb von drei Jahren in einem Zwei-Platten-Array fehlschlagen, das die Wahrscheinlichkeit würde auf {P} erhöht(mindestens einer schlägt fehl) = 1 - {P}(keiner schlägt fehl) = 1 - (1 - 0.05)^2 = 0.0975 = 9.75%.

RAZZIA 1:

Betrachten Sie als vereinfachtes Beispiel ein RAID 1 mit zwei identischen Modellen eines Festplattenlaufwerks mit einer Wahrscheinlichkeit von jeweils 5%, dass die Festplatte ausfällt innerhalb von drei Jahren. Vorausgesetzt, dass die Fehler statistisch sind unabhängig, dann die Wahrscheinlichkeit, dass beide Festplatten während der die Lebensdauer von drei Jahren beträgt 0,25%. Somit ist die Wahrscheinlichkeit, alle Daten zu verlieren ist 0,25% über einen Zeitraum von drei Jahren, wenn dem Array nichts angetan wird.

Außerdem habe ich mehrere Blog-Artikel über gefunden dieses Thema einschließlich dies eine erinnert uns die unabhängige Antriebe in einem system (die ich im RAID) kann nicht sein, dass unabhängig nach allen:

Die naive Theorie ist, dass, wenn Festplatte 1 Ausfallwahrscheinlichkeit hat 1/1000 und so auch Disk 2, dann ist die Wahrscheinlichkeit, dass beide fehlschlagen 1/1,000,000. Das setzt voraus, dass Fehler statistisch unabhängig sind, aber Sie sind es nicht. Sie können solche Wahrscheinlichkeiten nicht einfach multiplizieren, es sei denn die Fehler sind unkorreliert. Falsch angenommen unabhängigkeit ist ein häufiger Fehler bei der Anwendung der Wahrscheinlichkeit, vielleicht der häufigste Fehler.

Joel Spolsky kommentierte dieses Problem im neuesten StackOverflow Podcasts. Wenn ein Unternehmen einen RAID baut, können sie vier oder fünf greifen scheiben, die zusammen vom Fließband kamen. Wenn eine dieser Festplatten hat einen leichten Fehler, der dazu führt, dass es nach etwa 10.000 Stunden ausfällt verwenden, es ist wahrscheinlich, dass sie alle tun. Dies ist nicht nur eine theoretische Möglichkeit. Unternehmen haben Chargen von Festplatten beobachtet alle scheitern ungefähr zur gleichen Zeit.

2

Author: Brad Patton,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2013-03-12 14:19:53

score 3 · Accepted Answer

Dies ist die beste Antwort, auch mit Wahrscheinlichkeitstheorie:

Http://evadman.blogspot.com/2010/08/raid-array-failure-probabilities.html?showComment=1337533818123#c7465506102422346169

3

Author: FarO,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2014-04-28 19:16:56