Verificación de software: La devastadora prueba matemática

Reading mode

Los bugs de software están en todas partes. Hacen colapsar aplicaciones, corrompen datos y, en ocasiones, matan personas. Un informe de 2022 del Consortium for Information and Software Quality^[s] estimó el costo de la baja calidad del software en Estados Unidos en 2,41 billones de dólares. No es un error tipográfico. Billones, con B.

La reacción natural es preguntar: ¿por qué no construimos mejores herramientas para detectar los bugs antes de que el software llegue al mercado? La respuesta no tiene que ver con la pereza ni con restricciones presupuestarias. Tiene que ver con las matemáticas. Tres resultados de la lógica del siglo XX demuestran que la verificación de software imposible de perfeccionar no es una falla de ingeniería, sino una ley fundamental del universo, tan inevitable como la velocidad de la luz. Ninguna herramienta, ninguna técnica, ninguna cantidad de financiamiento puede garantizar jamás que un programa esté libre de bugs. Aquí está el porqué.

El sueño que murió: el programa de Hilbert

En 1928, el matemático alemán David Hilbert lanzó un audaz desafío al mundo: encontrar un único procedimiento mecánico capaz de determinar, para cualquier enunciado matemático, si era verdadero o falso. Si tal procedimiento existiera, resolvería todas las preguntas de las matemáticas y, por extensión, todas las preguntas sobre si un programa informático se comporta correctamente, dado que los programas son objetos matemáticos.

Tres años después, un lógico austriaco de 25 años llamado Kurt Gödel destruyó ese sueño. Sus teoremas de incompletitud de 1931^[s] probaron que cualquier sistema formal suficientemente poderoso para describir la aritmética básica contendrá siempre enunciados verdaderos que no puede demostrar. Sin importar cuántas reglas se añadan, siempre habrá verdades que se escapen por las grietas. El sistema ni siquiera puede probar su propia consistencia.

Ese fue el primer dominó. Si las propias matemáticas tienen puntos ciegos, cualquier herramienta construida sobre ellas los hereda.

La imposibilidad de verificar software: Turing y el problema de la detención

En 1936, Alan Turing tomó la intuición de Gödel y la aplicó directamente a la computación. Planteó una pregunta aparentemente simple: ¿se puede escribir un programa que examine cualquier otro programa y determine correctamente si eventualmente dejará de ejecutarse o seguirá en un bucle infinito?

Turing demostró que la respuesta es no^[s]. Su argumento es elegante. Supongamos que tal programa existe. Llamémoslo H. Alimentamos H con un programa especialmente construido para hacer lo contrario de lo que H predice. Si H dice «este programa se detiene», el programa entra en bucle. Si H dice «este programa entra en bucle», el programa se detiene. En ambos casos, H se equivoca. Esta contradicción demuestra que H no puede existir.

Este resultado, conocido como el problema de la detención, tiene una consecuencia directa para la detección de bugs. Si no se puede siquiera determinar si un programa terminará de ejecutarse, ciertamente no se puede determinar si producirá la respuesta correcta. La pregunta más básica sobre el comportamiento del software es demostrablemente incontestable.

El teorema de Rice: el clavo final

Si el problema de la detención suena como un caso límite estrecho y artificial, Henry Gordon Rice cerró esa salida de emergencia. En un artículo de 1953 basado en su tesis doctoral en la Universidad de Syracuse^[s], Rice demostró algo mucho más abarcador: toda pregunta no trivial sobre lo que hace un programa es indecidible.

«No trivial» tiene aquí un significado preciso. Una propiedad trivial es aquella que es verdadera para todos los programas o falsa para todos los programas. Todo lo demás es no trivial. Como establece el teorema de Rice^[s], ningún algoritmo puede responder correctamente ninguna pregunta no trivial sobre el comportamiento de un programa para todos los programas posibles. ¿El programa produce alguna vez el número 42? Indecidible. ¿Accede alguna vez a memoria que no debería? Indecidible. ¿Está libre de vulnerabilidades de seguridad? Indecidible.

Como resumió un investigador de confiabilidad de software^[s]: «No podemos saber con certeza si el software estará libre de incidentes. Es posible que lo esté, pero nunca podremos probarlo.»

Cuando los bugs matan: el costo real

Estas no son preocupaciones abstractas. La máquina de radioterapia Therac-25^[s] mató al menos a tres pacientes entre 1985 y 1987 debido a condiciones de carrera en su software. Los modelos anteriores tenían bloqueos de hardware para prevenir sobredosis, pero el Therac-25 los reemplazó exclusivamente con verificaciones de software. El software falló. Los pacientes recibieron dosis de radiación cientos de veces superiores a las previstas.

En 1996, el vuelo inaugural del cohete Ariane 5^[s] se desvió de su curso 37 segundos después del lanzamiento y se autodestruyó. La causa: un número de punto flotante de 64 bits fue convertido a un entero de 16 bits, y el valor desbordó. El código había sido reutilizado del cohete Ariane 4, donde los valores eran menores. Nadie lo probó contra la trayectoria de vuelo real del Ariane 5. El fallo costó más de 370 millones de dólares^[s].

Un estudio de 2002 encargado por el NIST^[s] estimó que los bugs de software costaban a la economía estadounidense 59.500 millones de dólares anuales. Para 2022, esa cifra se había disparado a 2,41 billones. Como señaló el NIST: «Los desarrolladores de software ya dedican aproximadamente el 80 por ciento de los costos de desarrollo a identificar y corregir defectos, y sin embargo pocos productos de cualquier tipo, que no sea software, se envían con niveles de errores tan elevados.»

Si no podemos probarlo, ¿qué podemos hacer?

Los resultados de imposibilidad no significan que todo esté perdido. Significan que debemos ser honestos sobre lo que «probado» y «verificado» realmente quieren decir. Varias estrategias funcionan dentro de los límites de las matemáticas:

Los sistemas de tipos detectan ciertas categorías de bugs al restringir lo que los programas pueden expresar. Lenguajes como Rust previenen clases enteras de errores de memoria en tiempo de compilación. Esto funciona porque la verificación de tipos examina la sintaxis del programa, no su comportamiento, sorteando así el teorema de Rice.
Las pruebas encuentran bugs, pero nunca pueden probar su ausencia. Como señaló el informático Edsger Dijkstra, las pruebas pueden mostrar la presencia de bugs, nunca su ausencia.
La verificación de modelos, que les valió a Clarke, Emerson y Sifakis el Premio Turing 2007^[s], verifica exhaustivamente las propiedades de sistemas de estados finitos. Los verificadores de modelos han analizado sistemas con espacios de estados de 10¹²⁰, muchas más configuraciones que átomos en el universo observable. Pero solo funcionan en sistemas con estados acotados, no en programas arbitrarios.
Los asistentes de prueba formal como Coq y Lean permiten a los programadores escribir pruebas matemáticas de que su código es correcto. Esto desplaza la carga: en lugar de verificar automáticamente cualquier programa, se le exige al programador que aporte la prueba. Funciona, pero es costoso y se limita a sistemas críticos.

Cada uno de estos enfoques intercambia generalidad por potencia. Ninguno contradice el teorema de Rice. Todos aceptan la imposibilidad y delimitan territorio útil dentro de ella.

La incómoda verdad

Cada vez que una empresa promete «seguridad de grado militar» o «software sin bugs», está haciendo una afirmación que las matemáticas han demostrado imposible de garantizar. Los tres resultados de Gödel, Turing y Rice forman una cadena de imposibilidad: los sistemas formales tienen puntos ciegos, la computación tiene preguntas indecidibles, y toda propiedad interesante de los programas cae en la categoría indecidible.

Esto no excusa la ingeniería descuidada. Las muertes del Therac-25 eran evitables con prácticas básicas de seguridad. La explosión del Ariane 5 era evitable con pruebas adecuadas. Lo que nos dice la matemática es que ningún nivel de buena ingeniería llevará jamás el conteo de bugs a cero. El objetivo no es la perfección. Es la resiliencia: construir sistemas que fallen de forma segura, detecten errores temprano y degraden con gracia cuando lo inevitable ocurra.

Los bugs no son un fracaso de la industria del software. Son una consecuencia de las leyes de las matemáticas. Cuanto antes lo aceptemos, mejor podremos prepararnos.

Los defectos de software le costaron a la economía estadounidense un estimado de 2,41 billones de dólares en 2022^[s], según el informe bianual de CISQ. La persistencia de los bugs a pesar de décadas de mejoras en las herramientas suele enmarcarse como un problema de ingeniería. No lo es. Es un problema matemático. Tres resultados fundamentales de la teoría de la computabilidad establecen que la verificación de software imposible de perfeccionar es una restricción demostrable y permanente sobre lo que cualquier herramienta puede lograr.

La incompletitud de Gödel: los cimientos se agrietan

En 1931, Kurt Gödel publicó dos teoremas^[s] que demolieron el programa de David Hilbert de colocar todas las matemáticas sobre una base completa, consistente y decidible.

El primer teorema de incompletitud establece que cualquier sistema formal consistente F capaz de expresar aritmética básica contiene enunciados que son verdaderos pero no demostrables en F. La demostración construye una oración de Gödel G_F que dice efectivamente «este enunciado no es demostrable en F». Si G_F fuera demostrable, el sistema sería inconsistente. Si G_F es indemostrable, el sistema es incompleto. En cualquier caso, completitud y consistencia no pueden coexistir.

El segundo teorema extiende esto: F no puede probar su propia consistencia. Se puede demostrar la consistencia de F dentro de un sistema más fuerte F’, pero F’ tampoco puede demostrar su propia consistencia, y así sucesivamente ad infinitum.

Para la verificación de software, la implicación es estructural. Cualquier sistema formal suficientemente poderoso para razonar sobre programas (lo que requiere al menos aritmética básica) contendrá enunciados verdaderos sobre esos programas que no puede demostrar. A medida que la cadena de teoremas continuó^[s], los resultados de Gödel llevaron directamente a la prueba de Church de que el Entscheidungsproblem es irresoluble, y a la prueba de Turing de que no existe algoritmo para resolver el problema de la detención.

El problema de la detención: indecidibilidad de la pregunta más simple

En su artículo de 1936 «On Computable Numbers»^[s], Alan Turing formalizó la computación mediante máquinas de Turing y demostró que el problema de la detención es indecidible.

La demostración es un argumento diagonal.^[s] Se supone que existe una función total computable h(i, x) que devuelve 1 si el programa i se detiene con la entrada x, y 0 en caso contrario. Se construye el programa g que, con la entrada i, llama a h(i, i): si h devuelve 1, g entra en bucle infinito; si h devuelve 0, g se detiene. Ahora se evalúa h(g, g). Si h dice que g se detiene, entonces g entra en bucle (contradicción). Si h dice que g entra en bucle, entonces g se detiene (contradicción). Por lo tanto, h no puede existir.

Esto no es una limitación del hardware o los algoritmos actuales. Es una demostración por contradicción que se aplica a cualquier modelo computacional equivalente a una máquina de Turing, incluyendo todos los lenguajes de programación de propósito general que existen.

La consecuencia práctica: las herramientas de análisis estático que escanean código en busca de bugs chocan constantemente con el problema de la detención^[s]. Herramientas como ESLint, SonarQube o los escáneres de seguridad necesariamente producen falsos positivos o pasan por alto problemas reales, porque el análisis perfecto es matemáticamente imposible.

La imposibilidad de verificar software: el teorema de Rice

El problema de la detención puede parecer estrecho: solo concierne a la terminación. La generalización de 1953 de Henry Gordon Rice^[s] cierra cada brecha restante.

El teorema de Rice^[s] establece: sea P un subconjunto de los números naturales que es (1) no trivial (ni vacío ni igual a N) y (2) extensional (si los programas m y n computan la misma función, entonces m está en P si y solo si n está en P). Entonces P es indecidible.

En términos simples: toda propiedad semántica no trivial de los programas es indecidible. «Semántica» significa relativa al comportamiento, no a la sintaxis. «No trivial» significa verdadera para algunos programas y falsa para otros. Las siguientes preguntas son todas indecidibles:

¿El programa P termina con la entrada n?
¿P devuelve 0 para toda entrada?
¿P accede alguna vez a memoria no asignada?
¿P es equivalente a una especificación dada Q?
¿P contiene una vulnerabilidad de seguridad?

Como señaló un ingeniero de confiabilidad de software al aplicar el teorema de Rice al análisis de incidentes^[s]: «No podemos saber con certeza si el software estará libre de incidentes. Es posible que lo esté, pero nunca podremos probarlo.» La implicación es que cualquier modelo mental que trate el software como «estable salvo que actúe una fuerza externa» es matemáticamente indefendible.

Lo que el teorema de Rice no dice

El teorema de Rice no prohíbe todo análisis de programas. Se dirige específicamente a las propiedades semánticas y a los lenguajes de propósito general (Turing-completos). Las propiedades sintácticas, como «¿el código fuente contiene un bucle while?», son decidibles. La verificación de tipos es decidible porque examina la estructura del texto del programa, no el comportamiento en tiempo de ejecución. Los sistemas de tipos estáticos en lenguajes como Haskell, Rust u OCaml explotan esta distinción: imponen restricciones sintácticas que garantizan ciertas propiedades de comportamiento (como la seguridad de memoria) sin necesidad de resolver el caso general indecidible.

Casos de estudio: la teoría encuentra la práctica

Therac-25 (1985-1987)

La máquina de radioterapia Therac-25^[s] causó al menos seis incidentes de sobredosis entre 1985 y 1987, con pacientes que recibieron dosis de radiación cientos de veces superiores a la cantidad prevista. La causa raíz fueron errores de programación concurrente (condiciones de carrera). El predecesor de la máquina, el Therac-20, tenía bloqueos de hardware que físicamente impedían las sobredosis. El Therac-25 eliminó esos bloqueos y confió enteramente en las verificaciones de seguridad del software. La investigación de referencia de Leveson y Turner de 1993^[s] atribuyó los fallos a «prácticas generalmente deficientes de diseño y desarrollo de software» y a una confianza excesiva en la capacidad del software para garantizar la seguridad.

La condición de carrera que mató pacientes es exactamente el tipo de propiedad de comportamiento que el teorema de Rice declara indecidible: «¿Entra alguna vez este programa concurrente en un estado donde el haz se dispara sin que el objetivo esté en posición?» Ningún algoritmo general puede responder esto para programas arbitrarios.

Vuelo 501 del Ariane 5 (1996)

El 4 de junio de 1996, el vuelo inaugural del cohete Ariane 5 se desvió de su curso 37 segundos después del lanzamiento y se autodestruyó^[s]. El sistema de referencia inercial falló porque un valor de punto flotante de 64 bits (sesgo horizontal, BH) fue convertido a un entero con signo de 16 bits, y el valor excedió el rango de 16 bits. El código había sido reutilizado del Ariane 4, donde el perfil de vuelo producía valores de velocidad más bajos^[s]. Los programadores solo habían protegido cuatro de las siete variables críticas contra el desbordamiento, apoyándose en suposiciones válidas para la trayectoria del Ariane 4, pero no para la del Ariane 5.

La comisión de investigación Lions señaló^[s] que «la especificación del sistema de referencia inercial y las pruebas realizadas a nivel de equipo no incluían específicamente los datos de trayectoria del Ariane 5. En consecuencia, la función de realineación no fue probada bajo condiciones de vuelo simuladas del Ariane 5, y el error de diseño no fue descubierto.» El fallo costó más de 370 millones de dólares^[s].

La explosión del espacio de estados

Incluso para los sistemas de estados finitos donde el teorema de Rice no aplica directamente, la verificación se enfrenta a una pared práctica: la explosión del espacio de estados^[s]. Un sistema con n variables binarias tiene 2ⁿ estados posibles. Edmund Clarke, cuyo trabajo en la verificación de modelos le valió el Premio Turing ACM 2007^[s] (compartido con E. Allen Emerson y Joseph Sifakis), describió el desafío central: «Un sistema informático ejecuta operaciones simples, pero esas operaciones pueden ocurrir en una cantidad asombrosa de órdenes distintos. Esto hace imposible que el diseñador visualice cada secuencia posible y prediga sus consecuencias.»

El avance de Clarke y McMillan fue la verificación simbólica de modelos mediante diagramas de decisión binaria (BDD), que codifican múltiples estados de forma compacta. Esto permitió a los verificadores de modelos verificar sistemas con espacios de estados de 10¹²⁰. Pero la verificación simbólica de modelos solo funciona en sistemas de estados finitos. El software real, con recursión no acotada, asignación dinámica de memoria y entradas de longitud arbitraria, permanece fuera de su alcance para la verificación completa del comportamiento.

Trabajar dentro de los límites

Los resultados de imposibilidad definen un techo, no un piso. Es posible lograr avances sustanciales dentro de ellos:

La interpretación abstracta (Cousot & Cousot, 1977) calcula sobre-aproximaciones correctas del comportamiento de los programas. Puede probar la ausencia de ciertas clases de bugs al costo de falsos positivos. Este es precisamente el compromiso que el teorema de Rice permite^[s]: «es posible implementar una herramienta que siempre sobreestime o siempre subestime, por lo que en la práctica hay que decidir cuál de los dos es el menor problema.»
Los sistemas de tipos dependientes (Coq, Agda, Lean, Idris) permiten codificar especificaciones como tipos y pruebas como programas. Los programas se restringen a funciones totales (con terminación garantizada), sacrificando deliberadamente la completitud de Turing para recuperar la decidibilidad.
La verificación de modelos verifica exhaustivamente propiedades de lógica temporal en modelos de estados finitos. Se usa ampliamente en verificación de hardware y análisis de protocolos.
La verificación acotada de modelos y los solucionadores SAT/SMT verifican propiedades hasta una profundidad acotada, transformando el problema en satisfacibilidad booleana. No pueden probar la corrección no acotada, pero son eficaces para encontrar bugs.
La verificación y monitoreo en tiempo de ejecución comprueba propiedades durante la ejecución en lugar de de forma estática, detectando violaciones a medida que ocurren. Este enfoque acepta que la verificación previa al despliegue es incompleta y añade una red de seguridad.

El hilo común: cada técnica eficaz o bien restringe el lenguaje (haciéndolo sub-Turing), o bien restringe la propiedad (verificando sintaxis o comportamiento acotado en lugar de semántica completa), o bien acepta la incompletitud (correcto pero no completo, o completo pero no correcto).

La incómoda verdad

Un estudio del NIST de 2002^[s] reveló que los desarrolladores de software ya dedicaban aproximadamente el 80 % de los costos de desarrollo a identificar y corregir defectos. Para 2022, el costo total de la baja calidad del software en EE. UU. había alcanzado 2,41 billones de dólares^[s], con una deuda técnica acumulada de 1,52 billones por sí sola.

Estas cifras no convergerán hacia cero. La cadena de imposibilidad de Gödel (1931) a Turing (1936) y Rice (1953) establece un techo permanente sobre lo que la verificación puede lograr. Cualquier lenguaje de programación suficientemente expresivo producirá programas cuyo comportamiento ninguna herramienta podrá predecir completamente. El problema de la detención es apenas el ejemplo más simple; el teorema de Rice garantiza que toda pregunta de comportamiento interesante comparte el mismo destino.

La respuesta ingenieril debe ser la resiliencia, no la perfección. Defensa en profundidad. Redundancia. Bloqueos de hardware que no confíen en el software. Pruebas que acepten que solo pueden encontrar bugs, nunca probar su ausencia. Sistemas de tipos que previenen categorías enteras de errores por construcción. Y el reconocimiento honesto de que el sueño de software de propósito general demostrativamente correcto no es un problema sin resolver. Es un problema resuelto. La respuesta es: es imposible.

Por qué el software tiene bugs: la prueba matemática de que la verificación perfecta es imposible

El sueño que murió: el programa de Hilbert

La imposibilidad de verificar software: Turing y el problema de la detención

El teorema de Rice: el clavo final

Cuando los bugs matan: el costo real

Si no podemos probarlo, ¿qué podemos hacer?

La incómoda verdad

La incompletitud de Gödel: los cimientos se agrietan

El problema de la detención: indecidibilidad de la pregunta más simple