Si un científico quisiera pronosticar las corrientes oceánicas para comprender cómo viaja la contaminación después de un derrame de petróleo, podría usar un enfoque común que analiza las corrientes que viajan entre 10 y 200 kilómetros. O bien, podría elegir un modelo más nuevo que también incluya corrientes más cortas. Esto podría ser más preciso, pero también podría requerir aprender un nuevo software o ejecutar nuevos experimentos computacionales. ¿Cómo saber si valdrá la pena el tiempo, el costo y el esfuerzo de usar el nuevo método?
Un nuevo enfoque desarrollado por investigadores del MIT podría ayudar a los científicos de datos a responder esta pregunta, ya sea que busquen estadísticas sobre corrientes oceánicas, delitos violentos, la capacidad de lectura de los niños o cualquier otro tipo de conjuntos de datos.
El equipo creó una nueva medida, conocida como "valor c", que ayuda a los usuarios a elegir entre técnicas en función de la posibilidad de que un nuevo método sea más preciso para un conjunto de datos específico. Esta medida responde a la pregunta "¿es probable que el nuevo método sea más preciso para estos datos que el enfoque común?"
Tradicionalmente, los estadísticos comparan métodos promediando la precisión de un método en todos los conjuntos de datos posibles. Pero el hecho de que un nuevo método sea mejor para todos los conjuntos de datos en promedio no significa que en realidad proporcionará una mejor estimación utilizando un conjunto de datos en particular. Los promedios no son específicos de la aplicación.
Entonces, los investigadores del MIT y de otros lugares crearon el valor c, que es una herramienta específica del conjunto de datos. Un valor c alto significa que es poco probable que un método nuevo sea menos preciso que el método original en un problema de datos específico.
En su documento de prueba de concepto, los investigadores describen y evalúan el valor c utilizando problemas de análisis de datos del mundo real: modelado de corrientes oceánicas, estimación de delitos violentos en vecindarios y aproximación a la capacidad de lectura de los estudiantes en las escuelas. Muestran cómo el valor c podría ayudar a los estadísticos y analistas de datos a lograr resultados más precisos al indicar cuándo usar métodos de estimación alternativos que de otro modo podrían haber ignorado.
“Lo que estamos tratando de hacer con este trabajo en particular es generar algo que sea específico de datos. La noción clásica de riesgo es realmente natural para alguien que está desarrollando un nuevo método. Esa persona quiere que su método funcione bien para todos sus usuarios en promedio. Pero un usuario de un método quiere algo que funcione en su problema individual. Hemos demostrado que el valor c es una prueba de concepto muy práctica en esa dirección”, dice la autora principal Tamara Broderick, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Laboratorio de Sistemas de Información y Decisión y el Instituto de Datos, Sistemas y Sociedad.
Se unió a ella en el artículo Brian Trippe PhD ´22, un ex estudiante de posgrado en el grupo de Broderick que ahora es un posdoctorado en la Universidad de Columbia; y Sameer Deshpande ´13, ex postdoctorado en el grupo de Broderick que ahora es profesor asistente en la Universidad de Wisconsin en Madison. Una versión aceptada del documento se publica en línea en el Journal of the American Statistical Association .
Evaluación de estimadores
El valor c está diseñado para ayudar con problemas de datos en los que los investigadores buscan estimar un parámetro desconocido utilizando un conjunto de datos, como estimar la capacidad de lectura promedio de los estudiantes a partir de un conjunto de datos de resultados de evaluaciones y respuestas de encuestas de estudiantes. Un investigador tiene dos métodos de estimación y debe decidir cuál usar para este problema en particular.
El mejor método de estimación es el que da como resultado menos "pérdida", lo que significa que la estimación estará más cerca de la verdad del terreno. Considere nuevamente el pronóstico de las corrientes oceánicas: tal vez estar desviado por unos pocos metros por hora no sea tan malo, pero estar desviado por muchos kilómetros por hora hace que la estimación sea inútil. Sin embargo, se desconoce la verdad básica; el científico está tratando de estimarlo. Por lo tanto, nunca se puede calcular la pérdida de una estimación para sus datos específicos. Eso es lo que hace que comparar estimaciones sea un desafío. El valor c ayuda a un científico a superar este desafío.
La ecuación del valor c utiliza un conjunto de datos específico para calcular la estimación con cada método y luego, una vez más, para calcular el valor c entre los métodos. Si el valor c es grande, es poco probable que el método alternativo sea peor y produzca estimaciones menos precisas que el método original.
“En nuestro caso, asumimos que, de manera conservadora, desea quedarse con el estimador predeterminado y solo quiere ir al nuevo estimador si se siente muy seguro al respecto. Con un valor c alto, es probable que la nueva estimación sea más precisa. Si obtiene un valor c bajo, no puede decir nada concluyente. Es posible que lo hayas hecho mejor, pero simplemente no lo sabes”, explica Broderick.
Probando la teoría
Los investigadores pusieron a prueba esa teoría al evaluar tres problemas de análisis de datos del mundo real.
Por un lado, usaron el valor c para ayudar a determinar qué enfoque es mejor para modelar las corrientes oceánicas, un problema que Trippe ha estado abordando. Los modelos precisos son importantes para predecir la dispersión de contaminantes, como la contaminación de un derrame de petróleo. El equipo descubrió que estimar las corrientes oceánicas utilizando múltiples escalas, una más grande y otra más pequeña, probablemente produzca una mayor precisión que usar solo mediciones a mayor escala.
“Los investigadores de Oceans están estudiando esto, y el valor c puede proporcionar algún empuje estadístico para respaldar el modelado a menor escala”, dice Broderick.
En otro ejemplo, los investigadores buscaron predecir los delitos violentos en las zonas censales de Filadelfia, una aplicación que Deshpande ha estado estudiando. Usando el valor c, descubrieron que se podían obtener mejores estimaciones sobre las tasas de delitos violentos al incorporar información sobre delitos no violentos a nivel de distrito censal en el análisis. También usaron el valor c para mostrar que no es probable que el aprovechamiento adicional de los datos de delitos violentos de las secciones censales vecinas en el análisis brinde más mejoras en la precisión.
“Eso no significa que no haya una mejora, solo significa que no nos sentimos seguros al decir que lo logrará”, dice ella.
Ahora que han probado el valor c en teoría y han demostrado cómo podría usarse para abordar problemas de datos del mundo real, los investigadores quieren expandir la medida a más tipos de datos y un conjunto más amplio de clases de modelos.
El objetivo final es crear una medida que sea lo suficientemente general para muchos más problemas de análisis de datos, y aunque todavía queda mucho trabajo por hacer para lograr ese objetivo, Broderick dice que este es un primer paso importante y emocionante en la dirección correcta.
Esta investigación fue apoyada, en parte, por una subvención de Energía de la Agencia de Proyectos de Investigación Avanzada, un Premio CARRERA de la Fundación Nacional de Ciencias, la Oficina de Investigación Naval y la Fundación de Investigación de Antiguos Alumnos de Wisconsin.
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...
Los dispositivos de realidad extendida (XR) cada vez son un elemento más común en los hogares. Los analistas estiman que entre 2022 y 2023 se pueden llegar a vender más de 40 millones de dispositivos XR en todo el mundo, una cifra que mencionó Dani Hernández en su ponencia del MWC23 y que demuestra el gran potencial de este mercado.
La inteligencia artificial (IA) hoy en día brinda confort a las personas y sostenibilidad a las ciudades. Forma parte de casas y ciudades inteligentes, coches, ciberseguridad, entre otros. En esta ocasión queremos mostrarte la utilidad de la IA para encontrar trabajo.
La última edición del Mobile World Congress – 4YFN ha servido para que el principal exchange de criptoactivos en España explique su caso de éxito. Asimismo, ha participado en múltiples mesas redondas y charlas de la mano de Wayra, Caixabank y otras startups y fondos de capital riesgo de referencia del sector. Principalmente se habló sobre cómo Web3 puede ayudar a corporaciones, emprendedores e instituciones a crear valor para sus negocios.
Un proyecto en el marco de los Planes Complementarios del Ministerio de Ciencia e Innovación, coordinado desde la UAB, desarrollará antibióticos para eliminar las infecciones sin producir efectos secundarios en el paciente y dejando intactas las bacterias beneficiosas.
Los investigadores proponen nuevos biomateriales para el tratamiento del cáncer y terapias contra enfermedades cardiovasculares, renales y hepáticas
Investigadores japoneses han encontrado uracilo, un componente esencial del ARN, en las muestras que la sonda Hayabusa2 tomó de un asteroide y trajo a la Tierra. El hallazgo sugiere que nucleobases como esta tienen un origen extraterrestre y pudieron llegar a nuestro planeta a bordo de meteoritos ricos en carbono.