Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2023-01-28¿Cuándo deberían los científicos de datos probar una nueva técnica?

MIT |Una nueva medida puede ayudar a los científicos a decidir qué método de estimación usar al modelar un problema de datos en particular.

Si un científico quisiera pronosticar las corrientes oceánicas para comprender cómo viaja la contaminación después de un derrame de petróleo, podría usar un enfoque común que analiza las corrientes que viajan entre 10 y 200 kilómetros. O bien, podría elegir un modelo más nuevo que también incluya corrientes más cortas. Esto podría ser más preciso, pero también podría requerir aprender un nuevo software o ejecutar nuevos experimentos computacionales. ¿Cómo saber si valdrá la pena el tiempo, el costo y el esfuerzo de usar el nuevo método?

Un nuevo enfoque desarrollado por investigadores del MIT podría ayudar a los científicos de datos a responder esta pregunta, ya sea que busquen estadísticas sobre corrientes oceánicas, delitos violentos, la capacidad de lectura de los niños o cualquier otro tipo de conjuntos de datos.

El equipo creó una nueva medida, conocida como "valor c", que ayuda a los usuarios a elegir entre técnicas en función de la posibilidad de que un nuevo método sea más preciso para un conjunto de datos específico. Esta medida responde a la pregunta "¿es probable que el nuevo método sea más preciso para estos datos que el enfoque común?"

Tradicionalmente, los estadísticos comparan métodos promediando la precisión de un método en todos los conjuntos de datos posibles. Pero el hecho de que un nuevo método sea mejor para todos los conjuntos de datos en promedio no significa que en realidad proporcionará una mejor estimación utilizando un conjunto de datos en particular. Los promedios no son específicos de la aplicación.

Entonces, los investigadores del MIT y de otros lugares crearon el valor c, que es una herramienta específica del conjunto de datos. Un valor c alto significa que es poco probable que un método nuevo sea menos preciso que el método original en un problema de datos específico.

En su documento de prueba de concepto, los investigadores describen y evalúan el valor c utilizando problemas de análisis de datos del mundo real: modelado de corrientes oceánicas, estimación de delitos violentos en vecindarios y aproximación a la capacidad de lectura de los estudiantes en las escuelas. Muestran cómo el valor c podría ayudar a los estadísticos y analistas de datos a lograr resultados más precisos al indicar cuándo usar métodos de estimación alternativos que de otro modo podrían haber ignorado.

“Lo que estamos tratando de hacer con este trabajo en particular es generar algo que sea específico de datos. La noción clásica de riesgo es realmente natural para alguien que está desarrollando un nuevo método. Esa persona quiere que su método funcione bien para todos sus usuarios en promedio. Pero un usuario de un método quiere algo que funcione en su problema individual. Hemos demostrado que el valor c es una prueba de concepto muy práctica en esa dirección”, dice la autora principal Tamara Broderick, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Laboratorio de Sistemas de Información y Decisión y el Instituto de Datos, Sistemas y Sociedad.

Se unió a ella en el artículo Brian Trippe PhD ´22, un ex estudiante de posgrado en el grupo de Broderick que ahora es un posdoctorado en la Universidad de Columbia; y Sameer Deshpande ´13, ex postdoctorado en el grupo de Broderick que ahora es profesor asistente en la Universidad de Wisconsin en Madison. Una versión aceptada del documento se publica en línea en el Journal of the American Statistical Association .

Evaluación de estimadores

El valor c está diseñado para ayudar con problemas de datos en los que los investigadores buscan estimar un parámetro desconocido utilizando un conjunto de datos, como estimar la capacidad de lectura promedio de los estudiantes a partir de un conjunto de datos de resultados de evaluaciones y respuestas de encuestas de estudiantes. Un investigador tiene dos métodos de estimación y debe decidir cuál usar para este problema en particular.

El mejor método de estimación es el que da como resultado menos "pérdida", lo que significa que la estimación estará más cerca de la verdad del terreno. Considere nuevamente el pronóstico de las corrientes oceánicas: tal vez estar desviado por unos pocos metros por hora no sea tan malo, pero estar desviado por muchos kilómetros por hora hace que la estimación sea inútil. Sin embargo, se desconoce la verdad básica; el científico está tratando de estimarlo. Por lo tanto, nunca se puede calcular la pérdida de una estimación para sus datos específicos. Eso es lo que hace que comparar estimaciones sea un desafío. El valor c ayuda a un científico a superar este desafío.

La ecuación del valor c utiliza un conjunto de datos específico para calcular la estimación con cada método y luego, una vez más, para calcular el valor c entre los métodos. Si el valor c es grande, es poco probable que el método alternativo sea peor y produzca estimaciones menos precisas que el método original.

“En nuestro caso, asumimos que, de manera conservadora, desea quedarse con el estimador predeterminado y solo quiere ir al nuevo estimador si se siente muy seguro al respecto. Con un valor c alto, es probable que la nueva estimación sea más precisa. Si obtiene un valor c bajo, no puede decir nada concluyente. Es posible que lo hayas hecho mejor, pero simplemente no lo sabes”, explica Broderick.

Probando la teoría

Los investigadores pusieron a prueba esa teoría al evaluar tres problemas de análisis de datos del mundo real.

Por un lado, usaron el valor c para ayudar a determinar qué enfoque es mejor para modelar las corrientes oceánicas, un problema que Trippe ha estado abordando. Los modelos precisos son importantes para predecir la dispersión de contaminantes, como la contaminación de un derrame de petróleo. El equipo descubrió que estimar las corrientes oceánicas utilizando múltiples escalas, una más grande y otra más pequeña, probablemente produzca una mayor precisión que usar solo mediciones a mayor escala.

“Los investigadores de Oceans están estudiando esto, y el valor c puede proporcionar algún empuje estadístico para respaldar el modelado a menor escala”, dice Broderick.

En otro ejemplo, los investigadores buscaron predecir los delitos violentos en las zonas censales de Filadelfia, una aplicación que Deshpande ha estado estudiando. Usando el valor c, descubrieron que se podían obtener mejores estimaciones sobre las tasas de delitos violentos al incorporar información sobre delitos no violentos a nivel de distrito censal en el análisis. También usaron el valor c para mostrar que no es probable que el aprovechamiento adicional de los datos de delitos violentos de las secciones censales vecinas en el análisis brinde más mejoras en la precisión.

“Eso no significa que no haya una mejora, solo significa que no nos sentimos seguros al decir que lo logrará”, dice ella.

Ahora que han probado el valor c en teoría y han demostrado cómo podría usarse para abordar problemas de datos del mundo real, los investigadores quieren expandir la medida a más tipos de datos y un conjunto más amplio de clases de modelos.

El objetivo final es crear una medida que sea lo suficientemente general para muchos más problemas de análisis de datos, y aunque todavía queda mucho trabajo por hacer para lograr ese objetivo, Broderick dice que este es un primer paso importante y emocionante en la dirección correcta.

Esta investigación fue apoyada, en parte, por una subvención de Energía de la Agencia de Proyectos de Investigación Avanzada, un Premio CARRERA de la Fundación Nacional de Ciencias, la Oficina de Investigación Naval y la Fundación de Investigación de Antiguos Alumnos de Wisconsin.

MIT
Autor
MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...


2024-04-17
La NASA refina las prioridades nacionales de desarrollo de tecnología espacial

Mientras la NASA se centra en explorar la Luna, Marte y el sistema solar en beneficio de la humanidad, la Dirección de Misiones de Tecnología Espacial (STMD) de la agencia está cambiando la forma en que prioriza el desarrollo tecnológico. Como parte de este esfuerzo de refinamiento, la NASA está pidiendo a la comunidad aeroespacial estadounidense comentarios sobre casi 190 necesidades (o deficiencias) de tecnología espacial nacional que ha identificado para futuros esfuerzos científicos y de exploración espacial.

2024-04-17
La ciencia de los grandes descubrimientos científicos es cada vez más elitista e interdisciplinaria

Un trabajo del Instituto de Análisis Económico (IAE-CSIC) analiza la edad, género, formación y procedencia de los autores de más de 700 grandes hallazgos científicos desde 1600 hasta la actualidad

2024-04-17
8 principios para la publicación científica según el International Science Council

El International Science Council (ISC), organización no gubernamental creada en 2018, promueve la ciencia como bien público global, respaldando la universalidad del conocimiento científico. A través de una política científica, busca mejorar la publicación académica en la era digital, basándose en 8 principios para la publicación científica, que incluyen acceso abierto, revisión rigurosa y garantía de acceso para futuras generaciones.

2024-04-16
Cristales antibacterianos de cobre y níquel aportarían a la prevención de futuras pandemias

Después de exponerlos a un proceso químico se encontró que el cobre y el níquel inhibieron con éxito el crecimiento de "Bacillus cereus" y "Staphylococcus aureus", bacterias con cepas resistentes a los antibióticos y relacionadas con enfermedades de transmisión alimentaria (toxiinfecciones). El hallazgo permitiría pensar en nuevos tratamientos farmacológicos o en la elaboración de empaques especiales que protejan productos como carnes y verduras.

2024-04-15
El CERN no decepciona. ATLAS nos recuerda a golpe de exitazo por qué es importante invertir en física de partículas

El bosón W es, junto al Z, una de las partículas responsables de la mediación que tiene lugar en la interacción nuclear débil, que es una de las cuatro fuerzas fundamentales de la naturaleza junto a la interacción electromagnética, la gravedad y la interacción nuclear fuerte. Los físicos suelen colocar a este mismo nivel el campo de Higgs, que es otra interacción fundamental que explica cómo las partículas adquieren su masa, pero para facilitar su comprensión los textos suelen recoger como fuerzas fundamentales las cuatro que acabo de mencionar.

2024-04-12
GPT-5: qué es, qué novedades traerá y cuándo estará disponible

No es ningún secreto que GPT-5, la nueva versión de la inteligencia artificial de OpenAI, está en desarrollo y que podría ver la luz en los próximos meses. De hecho, Sam Altman, CEO de la compañía, ha confirmado esto en diferentes ocasiones, y si bien intenta evitar dar detalles sobre qué ventajas tendrá la nueva IA frente a GPT-4, hay muchos rumores procedentes de fuentes fiables, así como declaraciones de otros ejecutivos, que ya han revelado algunas mejoras que tendría el modelo de lenguaje que alimenta a ChatGPT.