Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2023-03-22GPT-4 saca notazas en los exámenes. Es más demérito de los exámenes que mérito de la IA

Xataca |Si GPT-4 fuera un estudiante, sería uno de los más brillantes. La propia OpenAI evaluó su capacidad con una serie de exámenes que fueron creados para seres humanos y en los sacó notas espectaculares. Conseguiría estar de hecho entre el 10% de los que obtienen mejores calificaciones, pero hay quien dice que en realidad eso no significa demasiado.

Si GPT-4 fuera un estudiante, sería uno de los más brillantes. La propia OpenAI evaluó su capacidad con una serie de exámenes que fueron creados para seres humanos y en los sacó notas espectaculares. Conseguiría estar de hecho entre el 10% de los que obtienen mejores calificaciones, pero hay quien dice que en realidad eso no significa demasiado.

Qué ha pasado. OpenAI sometió a GPT-4 a exámanes académicos de diversos tipos, como el Uniform Bar Exam, el test más popular en EEUU para convertirse en abogado, o el LSAT, la prueba que da la posibilidad de acceder a la Columbia Law School. También se sometió a la prueba GRE Quantitative, que mide la capacidad de razonar y de entender conceptos matemáticos. En casi todas ellas su puntuación fue excepcional, y eso parecía hacer a GPT-4 superior a la mayoría de estudiantes humanos. Un reciente estudio de dos investigadores revela que hay problemas con esa percepción.

Contaminación de datos. Para empezar, los investigadores comprobaron que GPT-4 se sabía respuestas de memoria... cuando su memoria llegaba hasta ahí. Se sabe que los datos con los que se entrenó al modelo son de antes de septiembre de 2021. Cuando se le sometió a pruebas con preguntas de programación antes de esa fecha, respondió bien, pero no pudo responder ninguna con test basados en pruebas posteriores incluso cuando los problemas eran simples.

Se califica a ese problema como de "contaminación de datos", e incluso cambiar pequeños detalles en la forma de enunciar el problema puede confundir a ChatGPT —que era un alumno mediocre— y probablemente a GPT-4, apuntan mientras que no lo haría en el caso de un humano. 



Estos exámenes son para humanos, no para máquinas. "La memorización es un espectro", explicaban los autores. Aunque un modelo como GPT-4 no tenga en su entrenamiento un problema exacto al que se le pide, "es inevitable que haya visto ejemplos bastante parecidos, simplemente por el tamaño del corpus de entrenamiento". Eso le permite al modelo "utilizar un nivel de razonamiento mucho menos profundo". Para estos expertos, estos modelos lingüísticos no tienen por tanto la capacidad de razonamiento que necesitan los humanos que se examinan y que luego aplican en el mundo real.

Las comparaciones son odiosas. Exámenes como el de acceso a la abogacía "ponen demasiado énfasis en el conocimiento de la mateira y poco en las habilidades del mundo real, que son mucho más difíciles de medir de forma estandarizada". O lo que es lo mismo: estos exámenes no solo no hacen hincapié en lo incorrecto, sino que precisamente "hacen demasiado hincapié precisamente en lo que hacen bien los modelos lingüísticos". Para los autores del estudio, la elección de estaos exámenes para evaluar GPT-4 es "desafortunada".

Calidad, no cantidad. Para los investigadores se necesitan estudios cualitativos, no cuantitativos. Aunque reconocen que GPT-4 "es realmente apasionante y puede resolver muchos problemas de los profesionales" como automatizar tareas rutinarias, este tipo de evaluaciones con exámenes como los utilizados por OpenAI pueden llevar a confusión.

Xataka
Autor
Xataka

Publicación de noticias sobre gadgets y tecnología. Últimas tecnologías en electrónica de consumo y novedades tecnológicas en móviles, tablets, informática...


2023-06-01
Inteligencia artificial en las urgencias hospitalarias para mejorar la atención al paciente

La Inteligencia Artificial ha llegado para quedarse y el ámbito de la sanidad ha encontrado una aliada en esta tecnología. En las urgencias hospitalarias, donde la IA ha llegado para agilizar sus rutinas, automatizar procesos y anticipar flujos de pacientes.

2023-05-31
Nueva herramienta ayuda a las personas a elegir el método correcto para evaluar modelos de IA

Seleccionar el método adecuado ofrece a los usuarios una imagen más precisa de cómo se comporta su modelo, por lo que están mejor equipados para interpretar correctamente sus predicciones.

2023-05-29
El CSIC crea un mapa interactivo que muestra cómo se organiza el ADN del rodaballo para darle forma aplanada

Esta herramienta ayuda a entender cómo un único genoma puede crear dos diseños corporales completamente distintos en un único animal.

2023-05-29
Un sistema robótico para salvar a las abejas

Un nuevo sistema robótico de modulación de la temperatura revela comportamientos colectivos de las abejas melíferas desconocidas hasta ahora, lo que abre la puerta a nuevas posibilidades para ayudarlas a sobrevivir en un clima cambiante.

2023-05-26
Chinmo, “el gen de la juventud”

Científicos de los institutos de Biología Evolutiva e Investigación Biomédica de Barcelona han identificado el gen responsable del estadio juvenil en insectos, además de otros dos que intervienen en su madurez. Estos genes también están presentes en los mamíferos y podrían tener un papel clave en procesos cancerosos.

2023-05-25
Novedades acerca de LAMPAS: mantener los electrodomésticos impecables con tecnología láser

El proyecto LAMPAS finalizó en 2022 con la creación de un sistema de alta velocidad por polígonos, el primero de su clase, que produce superficies texturizadas por láser con un alto rendimiento. Repasamos los avances tecnológicos que han permitido a la industria europea fabricar una amplia gama de superficies funcionales.