logo móvil
logo tablet

Cookies y Privacidad

Usamos cookies propias y de terceros para mejorar la experiencia de nuestros usuarios, analizar el tráfico del sitio y personalizar contenido. Si continúas navegando, asumimos que aceptas su uso. Para más información, consulta nuestra Política de Cookies

Portada

Imagen. / Engage AI

2024-05-06

Modelos de lenguaje grande (LLM) en los papers académicos: estudio devela las palabras más comunes que usa la IA.


El reciente estudio realizado por Library Services y University College London (UCL), dirigido por Andrew Gray, ha analizado la literatura académica para identificar las palabras más frecuentes que usan los modelos de lenguaje grande (LLM). Se ha observado que términos que anteriormente tenían un uso menos común han ganado popularidad en los últimos años, gracias al uso cada vez más extendido de diferentes LLM en la escritura. Esto sugiere que, a medida que las herramientas de Inteligencia Artificial (IA) se utilizan con mayor regularidad, los textos comienzan a adquirir un estilo que nos empieza a resultar familiar, por ello muchos escritos ahora nos “suenan” como ChatGPT. 

El entusiasmo por los modelos de lenguaje grande ha crecido significativamente desde finales del 2022, en gran parte gracias a interfaces más accesibles que permitieron un uso más cotidiano. Tanto investigadores como editores han adoptado la IA para mejorar los procesos de escritura y corrección. Andrew Gray analizó cinco millones de artículos académicos publicados en 2023 e inicios de 2024 y detectó un gran aumento en el uso de términos como “meticulosamente” (137 %), “intrincado” (117 %), “loable” ( 83 %) e “innovadoramente” ( 26 %). Según Gray, estos cambios pueden atribuirse principalmente al uso de apps como Chat GPT o herramientas LLM similares tanto en la redacción como en la revisión de los trabajos académicos. 

En el artículo, el autor señala que aproximadamente las cifras se encuentren entre 85.761 y 65.772 de papers que se escribieron con ayuda de LLM (el 1.63 % y el 1.25 % del número total de artículos publicados en 2023). Es difícil determinar si la mayoría de estos trabajos son escritos completamente por la IA o si los autores han utilizado los programas para pulir la gramática o para sintetizar tablas y resultados. Sin embargo, los casos aumentan en las revistas especializadas en las ciencias de la salud e ingenierías, donde es más común encontrar artículos totalmente generados por estos programas. Los modelos de lenguaje grande en estos casos se usan para crear textos donde la IA analiza o comprueba resultados, lo que complica la evaluación precisa del grado de participación de herramientas como ChatGPT en la investigación. Además, las revistas académicas, en su mayoría, aún no tienen como requisito que los autores declaren el uso de programas de IA en sus trabajos.

Imagen / Lista de palabras más comunes en inglés. 

Es por ello que la aparición exagerada de estas palabras no se puede atribuir únicamente a pequeños ajustes estilísticos. Algunos de las argumentos que Gray menciona indica un posible uso incorrecto de los LLM. Por ejemplo, en un estudio de Lang, citado por el autor,  se observa una correlación entre el uso excedido de estas palabras y “factores que indican un autor menos involucrado (por ejemplo, envió poco antes de la fecha límite, menor confianza en las conclusiones y menos citas de otros trabajos” (Gray, 2024). Asimismo, también se puede asociar con revisiones de pares de baja calidad. 

El análisis revela que la palabra “intricando” apareció 86.988 en 2022 y 159.655 en 2023, lo que representa un aumento del 83.5 %. La expresión “digno de mención” pasó de 70.375 a aparecer 115.560 en el transcurso de un año. Estos fenómenos, destacados por el investigador, señalan la necesidad de abordar esta problemática de manera más exhaustiva. Un compromiso por parte de editores y correctores es necesario para regular los aspectos del uso y divulgación de los LLM. 

Nos enfrentamos a un futuro de artículos meticulosamente innovadores, loables e intrincados. Gray sobre todo advierte del “círculo vicioso” que se empieza a formar en las publicaciones científicas. Cuantos más textos se generan con LLM para investigación, mayor es el grado de colapso y dependencia. Si la IA recibe más textos generados de manera artificial, los resultados podrían tener una calidad más baja y respuestas muy repetitivas. El autor espera con probabilidad más trabajos en el 2024 que utilicen estas palabras, por lo que considera importante que los autores comiencen a revelar o utilizar las coautorías de los LLM en sus trabajos. 


Laura Valentina González Pardo

Editorial Assistant
Virtualpro

laura.gonzalez@ingco.co
 


Referencias: 

Gray, A. (2024). ChatGPT "contamination": estimating the prevalence of LLMs in the scholarly literature. arXiv (Cornell University).
Disponible aquí
 

Autor
Imagen Revista Virtualpro

Revista Virtualpro

Publicación virtual académico-científica, indexada a nivel Latinoamérica. Presenta la información de una forma innovadora a través de documentos hipertexto, multimedia e interactivos que complementan el proceso de enseñanza-aprendizaje en diferentes programas académicos relacionados con procesos industriales. Cuenta con un comité editorial y científico internacional ad honorem presente en diferentes países de Latinoamérica.

Noticias más leídas

Temas Virtualpro