Sui enthüllt Ursache für drei Mainnet-Ausfälle nach dem Upgrade von v1.72

Sui enthüllt Ursache für drei Mainnet-Ausfälle nach dem Upgrade von v1.72

Last Updated:
Sui enthüllt Ursache für drei Mainnet-Ausfälle nach dem Upgrade von v1.72
  • Das Upgrade von Sui v1.72 führte zwei separate Fehler ein, die drei Mainnet-Ausfälle verursachten.
  • Die ersten beiden Stopps resultierten aus einem Mangel bei der Gasbeladung, der mit den neuen Adresssalden zusammenhängt.
  • Ein separater Zufallsfehler löste den dritten Ausfall aus, nachdem die Validatoren neu gestartet wurden.

Die Sui Foundation hat eine detaillierte Obduktion veröffentlicht, die die drei separaten Ausfälle erklärt, die das Netzwerk am 28. und 29. Mai zum Stillstand brachten.

Laut der Stiftung verursachten zwei Fehler, die durch die Version 1.72 eingeführt wurden, die Störungen. Die Vorfälle lahmten die Layer-1-Blockchain innerhalb von weniger als zwei Tagen dreimal lahmzulegen und führten zu einem starken Rückgang des SUI-Token-Preises.

SUI fiel während der Ausfallsequenz um etwa 8 % auf ein Tief von etwa 0,90 US-Dollar. Der Token wurde am Montag bei etwa 0,90 $ gehandelt und war in der Woche um etwa 19 % gefallen.

Die Stiftung erklärte, dass während der Ausfälle keine Nutzermittel gefährdet seien und keine abgeschlossenen Transaktionen rückgängig gemacht wurden.

Neue Funktion löste einen Gasladefehler aus

Die ersten beiden Ausfälle wurden mit einem Defekt im Gasladesystem des Netzes in Verbindung gebracht. Version 1.72 führte „Adresssalden“ ein, eine Funktion, die es den Nutzern ermöglicht, Transaktionsgebühren direkt von den Kontosalden zu bezahlen, anstatt sich ausschließlich auf Coin-Objekte zu verlassen.

Das Update führte außerdem neue Zahlungspfade ein, die Adresssalden mit traditionellen münzbasierten Zahlungen kombinieren. Das Problem trat auf, wenn mehrere Transaktionen versuchten, denselben Saldo gleichzeitig auszugeben.

In bestimmten Fällen konnte eine Transaktion storniert werden, weil nicht genügend Mittel zur Verfügung standen. Ein Teil des Gasaufbereitungssystems versuchte jedoch trotzdem, diese Mittel auch nach der Stornierung zu berechnen. Das führte zu einem negativen Saldo während der Abwicklung, wodurch Validatoren abstürzten.

Der erste Ausfall begann gegen 7 Uhr PT am 28. Mai und dauerte bis etwa 13:30 Uhr PT. Um das Netzwerk schnell wiederherzustellen, setzten die Entwickler eine Zwischenlösung ein. Das Team räumte damals ein, dass der Patch ein bekanntes Risiko mit geringer Wahrscheinlichkeit enthielt, das das Netzwerk dennoch zum Stillstand bringen könnte. Doch das Risiko trat am nächsten Morgen ein.

Notfallpatch führte zum zweiten Halt

Der zweite Ausfall begann am 29. Mai gegen 5 Uhr morgens PT. Sui sagte, dass manche Transaktionen aus mehreren Gründen gleichzeitig scheitern können. In einem Szenario wurde der Fehler mit unzureichenden Mitteln, den der Patch auffangen sollte, durch einen weiteren Abbruchfehler überdeckt.

Da der ursprüngliche Fehler verdeckt wurde, konnte die temporäre Lösung nicht verhindern, dass derselbe negative Balance-Zustand erneut auftritt.

Validatoren stürzten ein zweites Mal mit demselben zugrundeliegenden Unterlaufproblem ab. Die Entwickler haben eine umfassendere Reparatur abgeschlossen, und genügend Validatoren wurden aufgerüstet, um das Netzwerk bis etwa 9:40 Uhr PT wiederherzustellen.

Zufallsfehler verursachte den dritten Ausfall

Der dritte Stromausfall hatte nichts mit dem Gas-Virus selbst zu tun. Nachdem die Validatoren die zweite Lösung neu gestartet hatten, fiel die Teilnahme am Zufallsaufbauprozess des Netzwerks unter die erforderliche Schwelle.

Das Zufallssystem deaktivierte sich automatisch wie vorgesehen. Ein anderer Fehler verhinderte jedoch, dass Validatoren diesen deaktivierten Zustand auf der Festplatte speichern konnten. Als die Validatoren erneut starteten, nahmen sie fälschlicherweise an, dass der Zufallsprozess noch aktiv war.

Anwendungen, die auf On-Chain-Zufälligkeit angewiesen waren, konnten weder ausgeführt noch ausfallen, was dazu führte, dass sich Transaktionen in einer pausierten Warteschlange ansammelten. Das Netzwerk blieb während des nächsten Epochenwechsels stecken, weil es diese Warteschlange nicht vollständig freistellen konnte.

Der dritte Halt begann gegen 13:30 Uhr PT und dauerte bis etwa 19:20 Uhr PT. Die Entwickler beheben den Persistenzfehler und fügten einen neuen Mechanismus hinzu, der es Validatoren ermöglicht, eine blockierte Epoche bei Bedarf zwangsweise zu schließen.

Die Stiftung zeigte außerdem, dass KI-gestützte interne Tools Ingenieuren halfen, die Vorfälle schneller zu diagnostizieren, indem sie Validator-Logs abfragten, Produktionsdaten analysierten und operative Kennzahlen während der Wiederherstellung zusammenstellten.

Verwandt: Sui Mainnet friert erneut ein, was Zuverlässigkeitsprobleme aufwirft

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.