logo móvil
Contáctanos

Un enfoque sistemático para evaluar la capacidad de generación de casos de prueba de modelos de lenguaje grandes

Autores: Chang, Hung-Fu; Shokrolah Shirazi, Mohammad

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Pruebas de software
Fiabilidad
Modelos de lenguaje grandes
Casos de prueba
Evaluación
Referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 47

Citaciones: Sin citaciones


Descripción
La prueba de software garantiza la calidad y fiabilidad de los productos de software, pero la creación manual de casos de prueba es laboriosa. Con el auge de los Modelos de Lenguaje Grande (LLMs), hay un creciente interés en la creación de pruebas unitarias con LLMs. Sin embargo, la evaluación efectiva de los casos de prueba generados por LLM está limitada por la falta de estándares de referencia que cubran de manera integral diversos escenarios de programación. Para abordar la evaluación de la capacidad de generación de casos de prueba de un LLM y ante la falta de un conjunto de datos para la evaluación, proponemos el enfoque Generado Benchmark a partir de la Estructura de Control de Flujo y Composición de Uso de Variables (GBCV), que genera sistemáticamente programas utilizados para evaluar las capacidades de generación de pruebas de los LLM. Al aprovechar estructuras básicas de control de flujo y uso de variables, GBCV proporciona un marco flexible para crear un espectro de programas que van desde simples hasta complejos. Dado que GPT-4o y GPT-3.5-Turbo son modelos de acceso público, para presentar casos de uso de usuarios regulares del mundo real, utilizamos GBCV para evaluar el rendimiento de los LLM en ellos. Nuestros hallazgos indican que GPT-4o se desempeña mejor en estructuras de programas compuestas, mientras que todos los modelos detectan eficazmente los valores límite en condiciones simples, pero enfrentan desafíos con los cálculos aritméticos. Este estudio destaca las fortalezas y limitaciones de los LLM en la generación de pruebas, proporciona un marco de referencia y sugiere direcciones para futuras mejoras.

Documentos Relacionados

Temas Virtualpro