¿Se puede aplicar la Inteligencia Artificial al razonamiento jurídico?
Notario de Madrid
CONFERENCIA DICTADA EN EL COLEGIO NOTARIAL DE MADRID, SALÓN ACADÉMICO, EL 13 DE ABRIL DE 2023
Manuel González-Meneses en su conferencia en la Academia Matritense argumentó con solvencia de las dificultades técnicas para la aplicación de la I.A. al Derecho, que puede conllevar la sustitución del raciocinio por la estadística en la toma de decisiones jurídicas
El objeto de esta conferencia es plantear la cuestión de si el extraordinario desarrollo de la tecnología de procesamiento del lenguaje natural al que estamos asistiendo, y de la que es un buen ejemplo el programa ChatGPT, nos sitúa ya en el umbral de la instauración del juez cibernético. ¿Se podrá encomendar pronto la tarea de aplicación del derecho y la decisión de cuestiones jurídicas a una inteligencia artificial (en adelante, IA), con lo esto conllevaría en términos de velocidad, precisión y reducción de costes?
“El presupuesto clave de este proyecto es la posibilidad de “formalizar” el pensamiento humano, para convertirlo en una especie de cálculo formal susceptible de algoritmización (manipulación de cadenas de símbolos entendidos “tipográficamente” siguiendo unas reglas) y, como consecuencia de ello, de mecanización”
No pretendo ocuparme al respecto de si resulta ética o moralmente aceptable que nos juzgue una máquina, sino de si es técnicamente posible que una máquina sea capaz de juzgar de una forma homologable a como lo hace un juez humano.
Lo primero que debemos saber es que en materia de IA se han seguido dos programas o líneas de investigación diferentes, que han dado lugar, de un lado, a lo que se conoce como IA simbólica, y de otro lado, a la IA subsimbólica, conexionista o de las redes neuronales artificiales.
La IA simbólica, que fue la primera línea que se exploró, lo que pretende es replicar con una máquina nuestros procesos mentales y, más en concreto, nuestras operaciones mentales conscientes, cuando pensamos o razonamos mediante representaciones lingüísticas o simbólicas de la realidad. Es propio de este enfoque lo que se conoce como la “metáfora computacional”: la idea de que la propia mente humana opera como un programa informático, ejecutado en nuestro caso mediante un hardware biológico. Siendo así, si nuestro cerebro es una especie de ordenador, sería lo más normal del mundo que las operaciones de nuestra mente se pudieran replicar mediante un programa informático ejecutado por un equipo electrónico.
“¿Cómo conseguir que un programa informático disponga de una información procesable simbólicamente sobre cómo funciona el mundo en general? Esto se conoce como el problema del marco o del contexto: la dificultad, para algunos incluso imposibilidad, de formalizar el contexto, de formalizar para que resulte computable toda la compleja realidad del mundo”
El presupuesto clave de este proyecto es la posibilidad de “formalizar” el pensamiento humano, para convertirlo en una especie de cálculo formal susceptible de algoritmización (manipulación de cadenas de símbolos entendidos “tipográficamente” siguiendo unas reglas) y, como consecuencia de ello, de mecanización. De hecho, el primer programa informático de IA fue el Logic Theorist, presentado por Newell y Simon en la célebre conferencia de Dartmouth en el año 1956 en la que John McCarthy acuñó el término IA, y que era capaz de ejecutar operaciones de lógica formal o simbólica.
No obstante, este comienzo exitoso de la mecanización de operaciones de cómputo propias de “sistemas formales” cerrados como la aritmética, la lógica formal o el ajedrez, plantea el problema de que la inteligencia de verdad -y por supuesto, la inteligencia jurídica- requiere habérselas con el mundo y con otro tipo de problemas, y también requiere manejarse con el lenguaje natural y no sólo con lenguajes formalizados. Pronto, además, se hizo evidente que una IA razonadora pero sin ningún conocimiento del mundo, era bastante inútil. Surge así la idea de lo que se conocerá como “sistemas expertos”. De lo que se trata es de proporcionar al programa todo el conocimiento específico propio de una determinada parcela de la actividad humana para que pueda resolver cuestiones con la misma competencia que un experto humano, pero con las ventajas en velocidad, rigor y precisión que conlleva la automatización. Aparecen así sistemas expertos en diferentes ramas profesionales o empresariales: en el análisis químico, en el diagnóstico de determinadas enfermedades, en la ingeniería, en los negocios, y por supuesto, en el derecho. Esto supuso a su vez la creación de una nueva disciplina: la ingeniería del conocimiento. Porque no se trata de darle acceso a la máquina a una masa de datos en bruto, sino que esos datos deben estar ordenados y estructurados, de manera que se facilite su consulta y manejo, y también que haya árboles de decisiones que orienten al programa según los resultados que se vayan obteniendo. Se habla incluso de una “ingeniería ontológica”, porque toda la realidad de un determinado dominio tiene que ser catalogada, etiquetada, formalizada, para que pueda ser procesada por el programa correspondiente.
“Este tipo de estructuras virtuales -que, aunque se hable de neuronas, no constituyen ningún objeto físico, sino más bien una peculiar estructura algorítmica para la computación de valores numéricos- son idóneas para detectar patrones o regularidades y se asemejan a la forma en que funciona nuestra percepción y cognición, que no opera de forma secuencial en una sola línea como la ejecución de un programa clásico de ordenador, sino en paralelo”
No obstante, la inteligencia de este tipo de sistemas no es más que la inteligencia de sus autores, de la información que se le ha suministrado al programa. Y, sobre todo, se plantea la siguiente cuestión: ¿cómo conseguir que un programa informático disponga de una información procesable simbólicamente sobre cómo funciona el mundo en general? Esto se conoce como el problema del marco o del contexto: la dificultad, para algunos incluso imposibilidad, de formalizar el contexto, de formalizar para que resulte computable toda la compleja realidad del mundo. A lo que se añade el problema de cómo someter a reglas el proceso de la innovación cognitiva, el proceso mediante el que se le ocurren a uno buenas ideas.
Estas dificultades intrínsecas al programa de la IA simbólica son las que se intentan superar con la IA subsimbólica, conexionista, o de la simulación de redes neuronales, que es la tecnología relacionada con el machine learning y el deep learning.
En este otro planteamiento están presentes tres ideas claves:
i) Se trata de replicar la estructura y funcionamiento del cerebro, tal y como este es descrito como órgano físico por los neurobiólogos. Lo que se intenta es simular -siempre mediante ordenadores- el funcionamiento de una red de neuronas físicas, creando, por supuesto, un modelo simplificado con dos o tres capas de neuronas. Cada una de las neuronas o nodos tiene asignado un valor numérico como su umbral de activación y puede estar inactiva o activa según la suma del valor de los estímulos recibidos supere o no ese umbral. A su vez, cada una de las conexiones tiene asignado un valor numérico de intensidad. Sobre una estructura como esta se genera una entrada activando determinadas neuronas de la primera capa, que se va transmitiendo a las neuronas de las capas siguientes según las indicadas variables del valor asignado a cada conexión y al umbral de activación de cada neurona, dando lugar a una determinada salida en la última capa. Si la salida no es la esperada, el programador o el propio sistema realiza los oportunos ajustes en los valores de las conexiones y umbrales hasta que el resultado se va aproximando al deseado.
Parece ser que este tipo de estructuras virtuales -que, aunque se hable de neuronas, no constituyen ningún objeto físico, sino más bien una peculiar estructura algorítmica para la computación de valores numéricos- son idóneas para detectar patrones o regularidades y se asemejan a la forma en que funciona nuestra percepción y cognición, que no opera de forma secuencial en una sola línea como la ejecución de un programa clásico de ordenador, sino en paralelo. Y este tipo de procesamiento distribuido en paralelo es lo que está permitiendo los extraordinarios avances que estamos presenciando en los últimos tiempos en campos tan complejos como el reconocimiento visual de objetos o el reconocimiento y generación del lenguaje natural (como es el caso del célebre ChatGPT).
“Lo más característico de este modelo desde el punto de vista epistemológico o de teoría del conocimiento es el tratamiento estadístico y probabilístico de los problemas. No se trata de la aplicación de reglas, sino del descubrimiento de regularidades estadísticas que son la base de predicciones respecto de comportamientos futuros”
ii) No se trata de incorporar de una vez a un dispositivo toda la inteligencia y el conocimiento de un ser humano adulto, en su caso, de un experto en una determinada materia como puede ser un jurista, sino más bien que un programa vaya evolucionando como un niño que desarrolla paulatinamente su conocimiento del mundo y su inteligencia. Por eso aquí ya no se habla de formalización del conocimiento, sino de “entrenamiento” de la máquina. Y este entrenamiento puede ser más o menos dirigido por un humano que, a la vista de las salidas que se van obteniendo, condiciona el proceso ajustando los umbrales y la potencia de las conexiones de activación o de inhibición en busca de una determinada respuesta.
iii) Frente a la lógica de aplicación de normas o instrucciones generales a los datos nuevos que recibe el sistema, lo que es propio de un programa o “código” informático, aquí propiamente no hay programa ni instrucciones: la forma de procesar la información reside en la propia estructura de la red, en las conexiones existentes entre los nodos, en los pesos o fuerzas relativas de los impulsos que transmite cada uno y en los umbrales específicos de activación de los diferentes nodos.
Pero, sobre todo, lo más característico de este modelo desde el punto de vista epistemológico o de teoría del conocimiento es el tratamiento estadístico y probabilístico de los problemas. No se trata de la aplicación de reglas, sino del descubrimiento de regularidades estadísticas que son la base de predicciones respecto de comportamientos futuros. Por eso precisamente, el desarrollo de esta modalidad de IA es algo vinculado al Big Data. Lo que alimenta estos sistemas es esa información ingente sobre todo lo que hacemos y nos pasa que estamos continuamente generando en forma de datos digitalizados.
“La propia máquina no puede dar razón de por qué decide una cosa y no otra. Este rasgo es consustancial a esta tecnología, precisamente porque no funciona ejecutando un programa o código escrito de antemano, que pueda ser interpretado por otro dispositivo o por un operario humano, sino que la información relativa a su forma de procesar los datos se encuentra implícita en la misma estructura de la red”
Así, la posible aplicación de este nuevo paradigma de IA al derecho viene de la mano, por un lado, de la aparición de un específico Big Data jurídico en forma de inmensas bases de datos digitales (leyes, reglamentos, resoluciones judiciales y administrativas); y por otro lado, de los avances en la tecnología de procesamiento del lenguaje natural. En la medida en que ese Big Data jurídico se compone casi en su totalidad de textos redactados en lenguaje natural, la capacidad de reconocer y “comprender” este lenguaje abre el campo para una IA específicamente jurídica basada en esta explosiva tecnología del machine learning y del deep learning, y suscita en muchos la idea de atribuir funciones no sólo instrumentales o auxiliares sino propiamente decisorias a estos sistemas de IA.
En relación con la posible aplicación de esta tecnología al ámbito de las decisiones jurídicas, se suele decir que estos sistemas no son tan objetivos como se pretende, sino que reflejan los sesgos cognitivos propios de sus programadores o entrenadores, así como los que puedan estar presentes en esa masa de datos que se les ha suministrado para su entrenamiento. También se dice que es inherente a estos sistemas la idea de “caja negra”, el resultar completamente opaco e inescrutable para nosotros lo que sucede realmente en su interior. Y es que cuando se incrementa el número de neuronas, y sobre todo el número de capas, la complejidad del sistema crece exponencialmente. Y la propia máquina no puede dar razón de por qué decide una cosa y no otra. Este rasgo es consustancial a esta tecnología, precisamente porque no funciona ejecutando un programa o código escrito de antemano, que pueda ser interpretado por otro dispositivo o por un operario humano, sino que la información relativa a su forma de procesar los datos se encuentra implícita en la misma estructura de la red. Esto evidentemente supone un problema desde el punto de vista de la transparencia, de la accountability o auditabilidad de los procesos jurídicos y en último término para la legitimidad de las decisiones jurídicas en el marco de un régimen democrático y de un Estado de Derecho.
“Si atribuimos la facultad de decidir las cuestiones jurídicas a un sistema basado en este tipo de tecnología, lo que sucede es que sustituimos el derecho por la estadística”
Pero el problema desde el punto de vista jurídico aún es más profundo, tiene que ver con el propio concepto y naturaleza del derecho. Si atribuimos la facultad de decidir las cuestiones jurídicas a un sistema basado en este tipo de tecnología, lo que sucede es que sustituimos el derecho por la estadística. Este enfoque estadístico puede ser admisible en el ámbito de las ciencias de la naturaleza, donde un incremento de la capacidad predictiva con ayuda de herramientas tecnológicas siempre ha de ser bienvenido. Pero en el ámbito de las relaciones humanas y sociales, este enfoque estadístico nos lleva al conductismo y a vaciar de sentido la empresa jurídica. Confunde el derecho con la sociología jurídica, que es lo propio de lo que se conoce como “realismo jurídico”, una concepción del derecho como ciencia de la predicción de la conducta de los jueces. Para la actuación puramente estratégica de un abogado o de los asesores legales de una empresa puede ser muy útil el auxilio de este tipo de herramientas que, partiendo del análisis de una masa de antecedentes judiciales, pueden hacer predicciones fiables sobre la decisión que puede llegar a tomar un determinado tribunal. Pero este enfoque -una predicción sobre la probabilidad de su decisión- no le sirve al propio juez que, comprometido con la causa del derecho, busca en conciencia la solución más correcta para el concreto caso que tiene planteado, lo que podría exigirle incluso apartarse de todos los antecedentes anteriores. Precisamente, lo que hace una red neuronal artificial es proyectar sobre el futuro las mismas regularidades observadas en el pasado, lo que supone en el fondo una forma de involución intelectual, un repetir siempre lo ya decidido. ¿Es esta la concepción y la práctica del derecho a la que aspiramos?