- La actualización de Sui v1.72 introdujo dos bugs separados que provocaron tres cortes en la red principal.
- Las dos primeras paradas se debieron a un fallo en el cobro de la gasolina relacionado con los nuevos saldos de direcciones.
- Un error separado en el estado de aleatoriedad desencadenó la tercera interrupción tras reiniciar los validadores.
La Fundación Sui ha publicado una autopsia detallada explicando las tres interrupciones separadas que detuvieron la red el 28 y el 29 de mayo.
Según la fundación, dos errores introducidos a través del lanzamiento del software v1.72 causaron las interrupciones. Los incidentes apagaron la blockchain de Capa 1 tres veces en menos de dos días y provocaron una fuerte caída en el precio del token SII.
SUI cayó alrededor de un 8% durante la secuencia de cortes hasta un mínimo cercano a 0,90 dólares. El token cotizaba alrededor de 0,90 $ el lunes y bajó aproximadamente un 19% durante la semana.
La fundación indicó que no hubo fondos de usuario en riesgo durante ninguna de las interrupciones y que ninguna transacción completada fue revertida.
Nueva función provocó un fallo en la carga de gas
Los dos primeros cortes estuvieron relacionados con un fallo en el sistema de carga de gas de la red. La versión 1.72 introdujo los «saldos de direcciones», una función diseñada para permitir a los usuarios pagar comisiones de transacción directamente desde los saldos de las cuentas en lugar de depender únicamente de objetos de monedas.
La actualización también introdujo nuevas vías de pago que combinan saldos de direcciones con pagos tradicionales basados en monedas. El problema surgió cuando varias transacciones intentaron gastar el mismo saldo al mismo tiempo.
En ciertos casos, una transacción podía cancelarse porque no había fondos suficientes disponibles. Sin embargo, parte del sistema de procesamiento de gas aún intentó cobrar esos fondos tras la cancelación. Eso creó un saldo negativo durante la liquidación, provocando que los validadores se bloquearan.
El primer corte comenzó alrededor de las 7 a.m. PT del 28 de mayo y duró hasta aproximadamente la 1:30 p.m. PT. Para restaurar la red rápidamente, los desarrolladores implementaron una solución provisional. El equipo reconoció en ese momento que el parche contenía un riesgo de baja probabilidad conocido que aún podía detener la red. Sin embargo, el riesgo se materializó a la mañana siguiente.
Parche de emergencia llevó a la segunda parada
El segundo corte comenzó alrededor de las 5 a.m. PT del 29 de mayo. Sui dijo que algunas transacciones pueden fallar por múltiples razones simultáneamente. En un escenario, el error de fondos insuficientes que el parche estaba diseñado para detectar quedó oculto por otro error de cancelación.
Como el error original estaba enmascarado, la solución temporal no logró evitar que se repitiera la misma condición de saldo negativo.
Los validadores se bloquearon una segunda vez con el mismo problema subyacente de subflujo de submersión. Los desarrolladores completaron una reparación más completa y actualizaron suficientes validadores para restaurar la red alrededor de las 9:40 a.m. PT.
Error de aleatoriedad que causó el tercer apagado
La tercera interrupción no tuvo relación con el virus del gas en sí. Después de que los validadores reiniciaran para instalar la segunda corrección, la participación en el proceso de configuración de aleatoriedad de la red cayó por debajo del umbral requerido.
El sistema de aleatoriedad se desactivó automáticamente tal y como estaba diseñado. Sin embargo, un error separado impedía que los validadores guardaran ese estado desactivado en el disco. Cuando los validadores se reiniciaron, asumieron erróneamente que el proceso de aleatoriedad seguía activo.
Las aplicaciones que dependían de la aleatoriedad en cadena no podían ni ejecutarse ni fallar, lo que provocaba que las transacciones se acumularan en una cola pausada. La red se quedó atascada durante la siguiente transición de época porque no pudo limpiar completamente esa cola.
La tercera parada comenzó alrededor de la 1:30 p.m. PT y duró hasta aproximadamente las 7:20 p.m. PT. Los desarrolladores corrigieron el error de persistencia y añadieron un nuevo mecanismo que permitía a los validadores cerrar forzadamente una época estancada cuando fuera necesario.
La fundación también reveló que las herramientas internas impulsadas por IA ayudaban a los ingenieros a diagnosticar los incidentes más rápido mediante consultas en los registros de validadores, análisis de datos de producción y ensamblando métricas operativas durante los esfuerzos de recuperación.
Relacionado: Sui mainnet se congela de nuevo, lo que genera preocupaciones sobre la fiabilidad
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.