El 10 de junio tuvo lugar la V edición de los Coloquios PALABRIA, con la conferencia titulada La (r)evolución de los corpus en la inteligencia artificial. La sesión corrió a cargo de Mar Capilla, doctora en Lengua Española por la Universidad Autónoma de Madrid (UAM) y filóloga del CORPES XXI de la RAE. La ponencia se centró en el análisis crítico del papel que desempeñan los distintos tipos de corpus en el estudio de la lengua y en el perfeccionamiento de las nuevas inteligencias artificiales.
Durante el coloquio, Mar Capilla abordó varios temas fundamentales que permiten comprender la estrecha relación entre la Lingüística y la inteligencia artificial en la actualidad. Entre ellos se encuentran: la diferenciación entre corpus lingüísticos y corpus de entrenamiento, los distintos usos y aplicaciones de los corpus, los procesos de filtrado de información lingüística y creación de datasets, o la demanda de grandes volúmenes de datos para el desarrollo de sistemas de inteligencia artificial.
Asimismo, también se plantearon algunas preguntas o desafíos con respecto al uso de los corpus, tanto en el ámbito filológico como en el de la IA. ¿Qué sucede cuando los modelos de inteligencia artificial son entrenados con textos creados por ChatGPT? ¿Puede una herramienta de IA reflejar fielmente la lengua en uso? ¿Cómo se detecta si un texto de internet ha sido generado con IA? ¿Cuál es el papel de los lingüistas ante la proliferación de LLM que procesan millones de datos en segundos?
Como conclusión, la ponente destacó que el desarrollo de la inteligencia artificial ha puesto de relieve la importancia de disponer de datos lingüísticos de calidad. En su opinión, el principal reto no consiste en generar una mayor cantidad de datos, sino en seleccionar aquellos que resulten representativos y útiles para los objetivos que se persigan. En este sentido, abogó por recuperar métodos clásicos de la Lingüística de corpus, como la selección, codificación y control de la información lingüística.