Fusión de Modelos de Lenguaje de Geociencia de Gran Tamaño y RAG Ligero para una Mejora en la Respuesta a Preguntas Geológicas
Autores: Zhou, Bo; Li, Ke
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 7
Citaciones: Sin citaciones
La prospección mineral a partir de vastos corpus textuales geológicos se ve obstaculizada por desafíos en la interpretación semántica específica del dominio y la síntesis del conocimiento. Los Modelos de Lenguaje de Propósito General (LLMs) tienen dificultades para analizar el léxico complejo y la semántica relacional de los textos geológicos, lo que limita su utilidad para construir gráficos de conocimiento precisos (KGs). Nuestro nuevo marco aborda esta brecha al integrar un LLM específico del dominio, GeoGPT, con una arquitectura de generación aumentada por recuperación ligera, LightRAG. Dentro de este marco, GeoGPT automatiza la construcción de un KG de prospección mineral de alta calidad mediante la definición de ontologías, el reconocimiento de entidades y la extracción de relaciones. El componente LightRAG luego aprovecha este KG para impulsar un sistema de preguntas y respuestas (Q&A) geológico especializado que presenta un mecanismo de recuperación de doble capa para una mayor precisión y una capacidad de actualización incremental para la incorporación dinámica de conocimiento. Los resultados indican que el método propuesto logra una puntuación media F1 de 0.835 para la extracción de entidades, lo que representa una mejora del 17% al 25% en el rendimiento en comparación con modelos grandes de propósito general utilizando indicaciones genéricas. Además, el modelo de Q&A geológico, construido sobre el marco LightRAG con GeoGPT como núcleo, demuestra una tasa de éxito superior frente a los modelos grandes de propósito general DeepSeek-V3 y Qwen2.5-72B, con un aumento del 8% al 29% en el dominio de la geoquímica y del 53% al 78% en el dominio de la geología de teledetección. Este estudio establece una metodología efectiva y escalable para el análisis inteligente de textos geológicos, permitiendo sistemas de Q&A ligeros y de alto rendimiento que aceleran el descubrimiento de conocimiento en la exploración mineral.
Descripción
La prospección mineral a partir de vastos corpus textuales geológicos se ve obstaculizada por desafíos en la interpretación semántica específica del dominio y la síntesis del conocimiento. Los Modelos de Lenguaje de Propósito General (LLMs) tienen dificultades para analizar el léxico complejo y la semántica relacional de los textos geológicos, lo que limita su utilidad para construir gráficos de conocimiento precisos (KGs). Nuestro nuevo marco aborda esta brecha al integrar un LLM específico del dominio, GeoGPT, con una arquitectura de generación aumentada por recuperación ligera, LightRAG. Dentro de este marco, GeoGPT automatiza la construcción de un KG de prospección mineral de alta calidad mediante la definición de ontologías, el reconocimiento de entidades y la extracción de relaciones. El componente LightRAG luego aprovecha este KG para impulsar un sistema de preguntas y respuestas (Q&A) geológico especializado que presenta un mecanismo de recuperación de doble capa para una mayor precisión y una capacidad de actualización incremental para la incorporación dinámica de conocimiento. Los resultados indican que el método propuesto logra una puntuación media F1 de 0.835 para la extracción de entidades, lo que representa una mejora del 17% al 25% en el rendimiento en comparación con modelos grandes de propósito general utilizando indicaciones genéricas. Además, el modelo de Q&A geológico, construido sobre el marco LightRAG con GeoGPT como núcleo, demuestra una tasa de éxito superior frente a los modelos grandes de propósito general DeepSeek-V3 y Qwen2.5-72B, con un aumento del 8% al 29% en el dominio de la geoquímica y del 53% al 78% en el dominio de la geología de teledetección. Este estudio establece una metodología efectiva y escalable para el análisis inteligente de textos geológicos, permitiendo sistemas de Q&A ligeros y de alto rendimiento que aceleran el descubrimiento de conocimiento en la exploración mineral.