Un enfoque sistemático para evaluar la capacidad de generación de casos de prueba de modelos de lenguaje grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque sistemático para evaluar la capacidad de generación de casos de prueba de modelos de lenguaje grandes

Autores: Chang, Hung-Fu; Shokrolah Shirazi, Mohammad

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un enfoque sistemático para evaluar la capacidad de generación de casos de prueba de modelos de lenguaje grandes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Pruebas de software

Fiabilidad

Modelos de lenguaje grandes

Casos de prueba

Evaluación

Referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 47

Citaciones: Sin citaciones

La prueba de software garantiza la calidad y fiabilidad de los productos de software, pero la creación manual de casos de prueba es laboriosa. Con el auge de los Modelos de Lenguaje Grande (LLMs), hay un creciente interés en la creación de pruebas unitarias con LLMs. Sin embargo, la evaluación efectiva de los casos de prueba generados por LLM está limitada por la falta de estándares de referencia que cubran de manera integral diversos escenarios de programación. Para abordar la evaluación de la capacidad de generación de casos de prueba de un LLM y ante la falta de un conjunto de datos para la evaluación, proponemos el enfoque Generado Benchmark a partir de la Estructura de Control de Flujo y Composición de Uso de Variables (GBCV), que genera sistemáticamente programas utilizados para evaluar las capacidades de generación de pruebas de los LLM. Al aprovechar estructuras básicas de control de flujo y uso de variables, GBCV proporciona un marco flexible para crear un espectro de programas que van desde simples hasta complejos. Dado que GPT-4o y GPT-3.5-Turbo son modelos de acceso público, para presentar casos de uso de usuarios regulares del mundo real, utilizamos GBCV para evaluar el rendimiento de los LLM en ellos. Nuestros hallazgos indican que GPT-4o se desempeña mejor en estructuras de programas compuestas, mientras que todos los modelos detectan eficazmente los valores límite en condiciones simples, pero enfrentan desafíos con los cálculos aritméticos. Este estudio destaca las fortalezas y limitaciones de los LLM en la generación de pruebas, proporciona un marco de referencia y sugiere direcciones para futuras mejoras.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro