El sistema de inteligencia artificial de ChatGPT desconoce el 20% del léxico español

Una aplicación desarrollada por investigadores de la Universidad Politécnica de Madrid desvela que el sistema de inteligencia artificial de ChatGPT desconoce el 20% del léxico español, y que del 80% restante ofrece significados erróneos en algunos casos, en torno al 5%.

Los investigadores subrayan en un comunicado la importancia de esta cifra, teniendo en cuenta que el popular ChatGPT ha registrado “un desarrollo exponencial” en los últimos meses y que hay millones de personas que las utilizan diariamente para las tareas más diversas. Investigadores de la UPM, junto a colegas de la Universidad Carlos III de Madrid y la Universidad de Valladolid, se propusieron responder a la pregunta de cuántas palabras conoce esta tecnología, para lo que han desarrollado una aplicación, bautizada como ChatWords, que permite evaluar el conocimiento léxico que el sistema de inteligencia artificial tiene de diferentes idiomas.

Su estudio inicial de las más de 90.000 palabras contenidas en el diccionario de la Real Academia de la Lengua muestra que el modelo ChatGPT3.5turbo desconoce aproximadamente el 20%; y del 80% restante ofrece significados erróneos en algunos casos, en torno al 5%, detallan en su trabajo. Para entender mejor los resultados, conviene tener en cuenta que un hispanohablante reconoce 30.000 palabras de media, es decir, casi un tercio del léxico español. Puede parecer un dato pobre frente a la máquina. Y sostienen que esto es importante porque las herramientas basadas en inteligencia artificial no utilizarán palabras que desconocen, de forma que “resulta muy factible un escenario en que el contenido recién generado tenga un número cada vez menor de palabras distintas”. También agregan que “es fundamental garantizar la riqueza léxica en el texto creado por inteligencia artificial”.

La aplicación ChatWords es de código abierto y está diseñada para ser fácil de usar y ampliar, agregan los autores, cuyo siguiente paso es evaluar otros idiomas para comprender mejor el conocimiento léxico que tienen las herramientas de inteligencia artificial y cómo evoluciona a medida que aparecen nuevas versiones y herramientas. El trabajo se enmarca en el proyecto Redes del Futuro para Centros de Procesados de Datos y Operadores, financiado por la Agencia Estatal de Investigación, y cuenta con el apoyo de OpenAI, laboratorio estadounidense responsable de ChatGPT, a través de su programa de acceso a investigadores.

Fuente: Magisnet

OUTRAS PUBLICACIÓNS