Un enfoque sistemático para evaluar la capacidad de generación de casos de prueba de modelos de lenguaje grandes
Autores: Chang, Hung-Fu; Shokrolah Shirazi, Mohammad
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La prueba de software garantiza la calidad y fiabilidad de los productos de software, pero la creación manual de casos de prueba es laboriosa. Con el auge de los Modelos de Lenguaje Grande (LLMs), hay un creciente interés en la creación de pruebas unitarias con LLMs. Sin embargo, la evaluación efectiva de los casos de prueba generados por LLM está limitada por la falta de estándares de referencia que cubran de manera integral diversos escenarios de programación. Para abordar la evaluación de la capacidad de generación de casos de prueba de un LLM y ante la falta de un conjunto de datos para la evaluación, proponemos el enfoque Generado Benchmark a partir de la Estructura de Control de Flujo y Composición de Uso de Variables (GBCV), que genera sistemáticamente programas utilizados para evaluar las capacidades de generación de pruebas de los LLM. Al aprovechar estructuras básicas de control de flujo y uso de variables, GBCV proporciona un marco flexible para crear un espectro de programas que van desde simples hasta complejos. Dado que GPT-4o y GPT-3.5-Turbo son modelos de acceso público, para presentar casos de uso de usuarios regulares del mundo real, utilizamos GBCV para evaluar el rendimiento de los LLM en ellos. Nuestros hallazgos indican que GPT-4o se desempeña mejor en estructuras de programas compuestas, mientras que todos los modelos detectan eficazmente los valores límite en condiciones simples, pero enfrentan desafíos con los cálculos aritméticos. Este estudio destaca las fortalezas y limitaciones de los LLM en la generación de pruebas, proporciona un marco de referencia y sugiere direcciones para futuras mejoras.
Descripción
La prueba de software garantiza la calidad y fiabilidad de los productos de software, pero la creación manual de casos de prueba es laboriosa. Con el auge de los Modelos de Lenguaje Grande (LLMs), hay un creciente interés en la creación de pruebas unitarias con LLMs. Sin embargo, la evaluación efectiva de los casos de prueba generados por LLM está limitada por la falta de estándares de referencia que cubran de manera integral diversos escenarios de programación. Para abordar la evaluación de la capacidad de generación de casos de prueba de un LLM y ante la falta de un conjunto de datos para la evaluación, proponemos el enfoque Generado Benchmark a partir de la Estructura de Control de Flujo y Composición de Uso de Variables (GBCV), que genera sistemáticamente programas utilizados para evaluar las capacidades de generación de pruebas de los LLM. Al aprovechar estructuras básicas de control de flujo y uso de variables, GBCV proporciona un marco flexible para crear un espectro de programas que van desde simples hasta complejos. Dado que GPT-4o y GPT-3.5-Turbo son modelos de acceso público, para presentar casos de uso de usuarios regulares del mundo real, utilizamos GBCV para evaluar el rendimiento de los LLM en ellos. Nuestros hallazgos indican que GPT-4o se desempeña mejor en estructuras de programas compuestas, mientras que todos los modelos detectan eficazmente los valores límite en condiciones simples, pero enfrentan desafíos con los cálculos aritméticos. Este estudio destaca las fortalezas y limitaciones de los LLM en la generación de pruebas, proporciona un marco de referencia y sugiere direcciones para futuras mejoras.