El 31 de enero de 2023, el juez Juan Manuel Padilla emitió un fallo de siete páginas donde se pronunció sobre un caso en el que estaba en juego el derecho fundamental a la salud de un niño diagnosticado con trastorno de espectro autista. 

Se trataba de un caso relativamente sencillo, resuelto en segunda instancia por un juez de Cartagena, Colombia, en el que la cuestión jurídica clave era si la solicitud de una compañía de seguros de salud de cuota moderadora, para autorizar un procedimiento médico, vulneraba los derechos fundamentales a la salud y a la vida digna del niño. El juez Padilla confirmó el fallo de primera instancia que favorecía al niño. 

La sentencia habría sido una más de los miles de decisiones judiciales relacionadas con la salud que se adoptan en Colombia cada año, de no ser porque el juez decidió transcribir sus interacciones con ChatGPT para motivar su veredicto. 

En cuestión de horas, la sentencia saltó a los medios de comunicación nacionales, e incluso ha sido registrada por medios de todo el mundo.

Tan sólo 10 días después la magistrada María Victoria Quiñones, del Tribunal Administrativo del Magdalena, Colombia, emitió un auto en el cual también fueron transcritas interacciones con ChatGPT. 

Las interacciones de la magistrada Quiñones con el chatbot tenían como objetivo responder a preguntas técnicas que le ayudaron a decidir cómo llevar a cabo una audiencia judicial en el metaverso. 

El proceso judicial se refiere a una demanda de reparación directa solicitada por un contratista de la Alcaldía de Santa Marta. El 15 de febrero, la audiencia se celebró a través de las Horizon Workrooms de Meta y se retransmitió en directo a través de YouTube.

Este artículo examina, por un lado, los retos de usar herramientas basadas en Large Language Models (LLM), como ChatGPT, para redactar sentencias judiciales, y, por otro, trata en general sobre el uso de tecnologías emergentes en actividades judiciales en Colombia. 

Mi argumento principal es que los LLM actualmente disponibles no son fuentes de información fiables y solo deberían utilizarse –con el máximo cuidado– cuando no se disponga de otras opciones más eficaces y seguras. 

Además, sostengo que el poder judicial debe promover la alfabetización digital y un uso informado, transparente, ético y responsable de las herramientas de inteligencia artificial (IA), con el fin de aprovechar sus beneficios potenciales y prevenir los riesgos.

Qué son los LLM, cómo funcionan y cuáles son sus limitaciones

Los LLM son modelos de lenguaje que son entrenados a partir de grandes volúmenes de datos (en el caso de ChatGPT, trillones de datos), cuyo principal objetivo es predecir “las probabilidades de que las palabras aparezcan en contextos particulares en ese corpus” (Sánchez García y Gasser). 

De manera consciente o inconscientemente, prácticamente todos usamos en nuestra vida diaria plataformas que ofrecen herramientas basadas en LLM. Por ejemplo, cuando estamos escribiendo un mensaje de texto o un correo electrónico y la herramienta de “autocompletar” nos sugiere cómo terminar de escribir la oración; cuando buscamos información a través de motores de búsqueda en Internet que recomienda palabras clave para la búsqueda; cuando usamos software de procesamiento de texto que sugiere correcciones gramaticales; y, cuando usamos herramientas de automatizadas de traducción, entre otros.

El chatbot ChatGPT fue lanzado al público en noviembre de 2022 por OpenAI, una empresa basada en California. El modelo fue entrenado a través de trillones de datos “raspados” de Internet y su entrenamiento involucró técnicas de aprendizaje por reforzamiento humano.

Hay muchos usos adecuados de dichas tecnologías, que no solo pueden resultar útiles para aprender, enseñar en la universidad, y en otros planos profesionales. Por ejemplo, diferentes herramientas de IA hoy en día contribuyen en las actividades de todas las etapas de los procesos de política pública. Además, en Colombia, la justicia, algunos entes de control y algunas superintendencias utilizan sistemas de decisión automatizados o semiautomatizados desde hace años.

Sin embargo, las herramientas de IA no son idóneas para realizar cualquier tipo de actividad y algunos usos de la IA pueden generar riesgos tanto para los usuarios como para terceros. A continuación, explico tres motivos por los cuales los LLM, como ChatGPT, deben ser usados con cautela.

En primer lugar, porque sus respuestas no siempre son confiables a pesar de que, por ejemplo, una IA generadora produce textos que tienen apariencia de ser convincentes. Los sistemas basados en LLM como ChatGPT no funcionan con la precisión de otras herramientas usadas en ambientes de aprendizaje como las calculadoras. 

De hecho, ChatGPT tiende a incluir en sus respuestas información falsa o fantasiosa. El chatbot incorporado por Microsoft a su explorador de Internet, Bing, y las demostraciones del chatbot de Google, Bard, también han presentado los mismos tipos de problemas. Estos sistemas no distinguen lo verdadero de lo falso. 

¿Por qué ocurre esto? Los LLM hilan palabras a partir de inferencias probabilísticas de los datos con los cuales fueron entrenados, pero no tienen la capacidad de entender lo que producen ni asocian significados a las palabras que emiten (son “loros estocásticos”). 

Recientemente un medio de comunicación que usó una herramienta tipo ChatGPT para escribir textos tuvo que publicar correcciones a múltiples artículos debido a las graves imprecisiones que contenían.

En segundo lugar, por el riesgo de que los usuarios, consciente o inconscientemente, traten la conducta de la IA como si fuera humana (efecto Eliza). Por ejemplo, las herramientas basadas en LLM no “entienden” los textos que producen, simplemente imitan patrones de lenguaje a partir de la síntesis de grandes volúmenes de datos a partir de los cuales generan las secuencias de palabras.

Este problema de antropomorfizar las máquinas puede exacerbarse dado que algunos chatbots han producido respuestas violentas o acosadoras y sus recomendaciones podrían llevar a las personas a realizar conductas dañinas.

En tercer lugar, por las implicaciones de éticas y de derechos humanos asociadas al uso de ciertos sistemas de IA dado que: algunas herramientas tienden a reproducir o amplificar estereotipos derogatorios y discriminatorios asociados al género, raza, etnia o discapacidad; las tecnologías podrían haber sido desarrolladas a partir de la violación masiva de derechos de autor; nuevas formas de colonialismo a través de la extracción no consentida de información de comunidades históricamente marginalizadas; algunas herramientas habrían sido desarrolladas en contextos de explotación laboral; el desarrollo y operación de dichos sistemas genera una huella de carbono considerable; y, la potencial violación a los derechos de privacidad y de protección de datos personales de quienes las usan.

Finalmente, quienes quieran leer una introducción breve en Castellano sobre cómo funcionan los LLM y cuáles son sus principales riesgos les recomiendo el texto “El riesgo de los grandes modelos lingüísticos: convertirse en loros estocásticos“, por Esther Sánchez García y Michael Gasser, que resume el artículo “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” de Emily M. Bender, Timnit Gebru, Angelina McMillan-Major y Shmargaret Shmitchell.

Los jueces no utilizaron ChatGPT de manera informada o responsable

Los textos de la sentencia y el auto emitidos por los jueces colombianos no fueron un simple “copiar y pegar” de las consultas introducidas a ChatGPT y las respuestas del chatbot. Por un lado, la decisión del juez Padilla explicaba sucintamente los hechos del caso, describía el sentido de la decisión de primera instancia, enunciaba las principales cuestiones constitucionales en juego, enumeraba los artículos pertinentes de la Constitución colombiana y citaba una sentencia de la Corte Constitucional que abordaba un caso muy similar (para una descripción más exhaustiva de los hechos y de la acción constitucional de tutela, véase el post de la profesora Lorena Flórez).

Por otro lado, el auto de la magistrada Quiñones explicaba que las partes acordaron realizar la audiencia inicial del procedimiento administrativo en el metaverso, citaba disposiciones legales y jurisprudenciales que justificaban el uso de las tecnologías de la información en los procedimientos judiciales, y explicaba qué es el metaverso y cómo se desarrollaría la audiencia. 

Si las respuestas del chatbot eran solo una parte de la motivación de las decisiones judiciales, ¿por qué debería importarnos o siquiera preocuparnos la forma en que los jueces colombianos utilizaron ChatGPT?

La respuesta corta es que los dos jueces utilizaron ChatGPT como si fuera un oráculo: una fuente fiable de conocimiento que no requería ningún tipo de verificación. Aunque los jueces fueron transparentes sobre el hecho de que utilizaron la herramienta e incluyeron comillas para distinguir el contenido producido por ChatGPT, su uso no fue informado ni responsable.

Hay tres razones principales por las que la forma en que ChatGPT fue utilizado por el poder judicial en estos casos es muy preocupante no solo para los colombianos.

En primer lugar, en las decisiones judiciales lo que está en juego es demasiado importante –especialmente cuando se trata de los derechos fundamentales– como para validar el uso de tecnologías poco confiables e insuficientemente probadas. 

Debido a la forma en que se desarrollan y operan las LLM como ChatGPT, estas herramientas tienden a producir respuestas incorrectas e imprecisas, y a confundir la realidad con la ficción.

Incluso el director ejecutivo de OpenAI reconoció en diciembre de 2022 que “ChatGPT es increíblemente limitado […] es un error confiar en este para algo importante ahora mismo”. Además, debido a razones estructurales, es poco probable que estos problemas de los LLM se resuelvan pronto.

En los dos casos colombianos las respuestas de ChatGPT no fueron incidentales sino determinantes para las decisiones adoptadas por los tribunales. En el caso de la sentencia del juez Padilla, dos de las siete páginas consistían en la transcripción de cuatro de las preguntas que se le hicieron a ChatGPT. 

Esto significa que alrededor del 29% de la sentencia es un texto generado por ChatGPT. Por lo tanto, aunque las respuestas de este algoritmo no fueron la única base jurídica de la sentencia, son un componente clave de esta. Adicionalmente, las cuatro preguntas formuladas por el juez a ChatGPT se referían a cuestiones jurídicas claves necesarias para decidir el caso.

  1. ¿Un menor autista está exento del pago de cuotas moderadoras por sus terapias?
  2. ¿Las acciones de tutelas en estos casos se deben conceder?
  3. ¿Exigir en estos casos la cuota moderadora es una barrera de acceso al servicio de salud?
  4. ¿La jurisprudencia de la Corte Constitucional ha tomado decisiones favorables en casos similares?

Por lo tanto, el juez Padilla formuló preguntas a ChatGPT sobre asuntos legales fundamentales que son muy específicos del sistema jurídico colombiano.

En el caso del auto de la magistrada Quiñones, las preguntas trataban cuestiones que no eran sustanciales. Las tres preguntas buscaban sustentar las decisiones procesales necesarias para llevar a cabo la audiencia en el metaverso.

  1. ¿Qué es un avatar?
  2. ¿Cuál es el método más eficaz para verificar la autenticidad de quienes se conectan a una reunión y/o audiencia virtual?
  3. ¿Método para verificar la autenticidad del avatar en el metaverso?

Aunque estas preguntas parezcan meramente técnicas, tratan de cómo la magistrada se asegura de que las personas que participan en la audiencia representan legítimamente a las partes, una cuestión esencial para garantizar el acceso a la justicia y el debido proceso. 

Esta es la declaración incluida en la orden judicial que ilustra el punto: “Así las cosas, para una mayor comprensión de algunos conceptos sobre el metaverso y la realización de la audiencia en este entorno, esta agencia judicial se apoyará en la IA, haciendo uso del ChatGPT”.

En aras de la brevedad, no abordaré en esta columna las implicaciones legales y de equidad del uso del metaverso para realizar una audiencia judicial, pero recomiendo el reciente post de la profesora Lorena Flórez en el cual se reflexiona sobre la necesidad de evaluar si es menester utilizar la herramienta y si en “la construcción conjunta de la gobernanza tecnológica dentro del sistema judicial colombiano” se pueden implementar enfoques centrados en el usuario (como, por ejemplo, design thinking) para decidir cómo conducir las actividades judiciales.

En resumen, el primer argumento no es que los jueces –y, en general, los funcionarios públicos– no deban innovar o utilizar nuevas tecnologías. Más bien, las herramientas experimentales no deberían desplegarse en determinadas actividades relacionadas con el Estado y, si en la actualidad los jueces tienen acceso a herramientas más eficaces y seguras, deberían preferirse estas últimas a las no probadas.

En segundo lugar, las respuestas de ChatGPT no deberían haber sido aceptadas y tomadas al pie de la letra, sino contrastadas con otras fuentes más fiables. Por ejemplo, en el caso de la sentencia del juez Padilla, las respuestas proporcionadas por ChatGPT carecían de matices y eran imprecisas en cuanto a su sustento jurídico. 

En una de las respuestas el chatbot citaba una ley concreta, que es tangencialmente pertinente al caso, mientras que en otra ChatGPT aludía a la jurisprudencia de la Corte Constitucional, pero sin citar casos concretos.

En la sentencia se afirma que la información ofrecida por ChatGPT había sido “corroborada”. Sin embargo, no hay ningún rastro explícito que en el texto que permita concluir que el juez Padilla y su equipo comprobaron efectivamente si las indicaciones de ChatGPT eran precisas y fundadas.

Hice el ejercicio de replicar en ChatGPT las cuatro consultas planteadas por el juez Padilla y el chatbot respondió de forma ligeramente diferente, un resultado que no es sorprendente dado el funcionamiento de la herramienta. 

Además, cuando pedí que aportara ejemplos de jurisprudencia de la Corte Constitucional que justificaran sus respuestas, el chatbot se inventó los hechos y la ratio decidendi de una sentencia y citó una sentencia que no existía (en otras palabras, se inventó los hechos y la sentencia).

Por lo tanto, el argumento no es que ChatGPT u otros LLM no deban utilizarse para apoyar la labor judicial, la cuestión es que cualquier contenido producido por estos sistemas, que se considere que puede utilizarse directa o indirectamente para redactar sentencias, debe someterse a un examen riguroso y exhaustivo.

Este último punto introduce la tercera razón por la que los dos casos colombianos son preocupantes. Tanto en la sentencia como en el auto se afirma explícitamente que las tecnologías emergentes pueden ayudar a agilizar los procesos judiciales. 

Por ejemplo, el auto del juez Padilla afirmaba que: “El propósito de incluir estos textos producto de la IA no es en manera alguna reemplazar la decisión del Juez. Lo que realmente buscamos es optimizar los tiempos empleados en redacción de sentencias”. 

Además, en una entrevista en radio el juez Padilla manifestó que: “mi única preocupación es mejorar los tiempos de respuesta en la justicia […] esa cadena de texto que me la suministró la inteligencia artificial y que también me la pudo haber suministrado un escribiente o un secretario cuando me pasa un proyecto para mi firma, ahora me la está suministrando una inteligencia artificial”.

Es cierto que la ley 2213 de 2022, el Código General del Proceso (artículo 103, ley 1564 de 2012), e incluso la Ley Estatutaria de la Administración de Justicia de 1996 (artículo 95), entre otros, admiten el uso de las tecnologías de la información y las comunicaciones para gestionar y realizar cualquier actividad judicial. 

El artículo 2 de la ley 2213, que fue citado por las dos providencias judiciales, establece que “[s]e podrán utilizar las tecnologías de la información y de las comunicaciones, cuando se disponga de los mismos de manera idónea en la gestión y trámite de los procesos judiciales y asuntos en curso, con el fin de facilitar y agilizar el acceso a la justicia.”

Si ChatGPT y otros LLM actualmente disponibles son totalmente poco fiables, ya que sus resultados tienden a incluir información incorrecta y falsa, entonces los jueces tendrían que emplear un tiempo considerable en comprobar la validez del contenido generado por la IA, disipando así cualquier “ahorro de tiempo” significativo. Como ocurre con las IAs en otros ámbitos, bajo la narrativa de supuestas “eficiencias”, se pueden poner en riesgo derechos fundamentales.

Por último, existe el riesgo de que los jueces y sus secretarios o asistentes confíen excesivamente en las recomendaciones de la IA, incurriendo en lo que se conoce como “sesgo de automatización” (automation bias). 

Como explica la profesora Flórez, “debido a un exceso de confianza en la imparcialidad o certeza del sistema de IA, como ChatGPT, los jueces pueden ver obstaculizada su capacidad para emitir juicios exactos y comprender su entorno. Esto podría llevar a una dependencia excesiva de los resultados de los sistemas automatizados”.

Retos para los sistemas judiciales en la era de la IA generativa

Es preocupante que dos jueces colombianos transcribieran las respuestas de ChatGPT para motivar sus decisiones sin examinar a fondo si la información era correcta. En efecto, existe un alto riesgo de que los jueces y sus secretarios en todo el país empiecen a transcribir las respuestas de ChatGPT como si provinieran de una fuente fiable. 

De hecho, el juez Padilla declaró en una entrevista radial que los jueces de todo el país estaban “muy contentos” porque el sistema les ahorraría “muchas horas transcribiendo cosas que ya están en Internet”. 

El juez Padilla también afirmó que “lo que hace ChatGPT es ayudarnos a escoger lo mejor de estos textos de Internet y traerlo de una manera muy lógica, muy corta y concreta a lo que necesitamos.”

Esta falta de comprensión de cómo funcionan los LLM ilustra por qué garantizar la alfabetización digital del poder judicial es fundamental en tiempos de IA generativa disponible para cualquiera que tenga acceso a internet.

Existe una tendencia hacia un mayor acceso a las herramientas de IA generativa, ofrecidas gratuitamente por distintas empresas a través de plataformas web y basadas en aplicaciones. 

Por lo tanto, el tipo de uso desinformado de la IA que vimos en Colombia puede expandirse más allá del país. Por otra parte, demandantes y demandados también pueden utilizar los LLM –como ChatGPT– como un oráculo, en detrimento de los intereses de sus clientes. 

Las herramientas de IA solo deberían utilizarse en asuntos judiciales cuando estén suficientemente probadas y cuando no se disponga de otras herramientas más eficaces, menos costosas y más accesibles.

Para promover un buen uso de este tipo de herramientas, el Consejo Superior de la Judicatura debería diseñar directrices y políticas sobre cómo y cuándo ciertas herramientas de IA, incluyendo LLMs como ChatGPT, pueden ser implementadas en los procesos judiciales. Las directrices podrían establecer ciertas normas y buenas prácticas para los jueces, secretarios judiciales y abogados que deseen utilizar herramientas de IA.

En ese sentido, propongo que el uso informado, transparente, ético y responsable de las herramientas de IA por parte de los jueces, secretarios y abogados cumpla con los siguientes principios. 

  1. Que el usuario entienda cómo funciona la tecnología, reconozca sus limitaciones y riesgos, y se asegure de que la herramienta es adecuada para la tarea requerida (uso informado).
  2. Que el usuario sea transparente sobre el uso de la tecnología en sus procedimientos (uso transparente).
  3. Que el usuario distinga claramente que secciones de la decisión judicial o documento legal son texto generado por la IA (uso ético).
  4. Que el usuario verifique rigurosamente la información recuperada por el sistema de IA con fuentes confiables e informe explícitamente sobre dicho examen (uso responsable).

Los casos de los jueces colombianos que transcribieron respuestas de ChatGPT podrían contribuir para que iniciemos un diálogo nacional sobre la importancia de la alfabetización digital de los jueces y sus asistentes, así como la necesidad de contar con directrices claras sobre cuándo y cómo utilizar sistemas de IA en el sistema judicial.

Nota: Agradezco a Sarah Muñoz-Cadena quien me ayudó en la traducción al Castellano de este artículo. Una versión anterior de este artículo, en inglés, fue publicada en Verfassungsblog.

Soy doctor (PhD) en políticas públicas de la Escuela de Gobierno de la Universidad de Oxford. Mis áreas de investigación en Oxford giran entorno a la administración de los recursos naturales no renovables, la inversión pública y la descentralización en Colombia. Específicamente, estoy investigando...