Proyectos libres de IA – Open Medical-LLM Leaderboard

Continuamos con la publicación de artículos sobre proyectos libres relacionados con la Inteligencia Artificial. En este artículo haremos un repaso del Open Medical-LLM Leaderboard.

A lo largo de los años, los Modelos de Lenguaje Grande (LLMs) han emergido como una tecnología revolucionaria con un potencial inmenso para transformar diversos aspectos de la salud. Estos modelos, como GPT-3, GPT-4 y Med-PaLM 2, han demostrado capacidades notables en la comprensión y generación de texto similar al humano, convirtiéndose en herramientas valiosas para afrontar tareas médicas complejas y mejorar la atención al paciente. Han mostrado un gran potencial en varias aplicaciones médicas, como preguntas y respuestas médicas (QA), sistemas de diálogo y generación de texto.

Además, con el crecimiento exponencial de los registros electrónicos de salud (EHRs), la literatura médica y los datos generados por los pacientes, los LLMs podrían ayudar a los profesionales de la salud a extraer información valiosa y tomar decisiones informadas.

Sin embargo, a pesar del inmenso potencial de los Modelos de Lenguaje Grande (LLMs) en la salud, hay retos significativos y específicos que necesitan ser abordados.

Cuando los modelos se usan para aspectos conversacionales recreativos, los errores tienen pocas repercusiones; esto no es el caso para usos en el ámbito médico, donde una explicación o respuesta incorrecta puede tener consecuencias graves para el cuidado y los resultados del paciente. La precisión y la fiabilidad de la información proporcionada por los modelos de lenguaje pueden ser una cuestión de vida o muerte, ya que podrían afectar potencialmente las decisiones de salud, el diagnóstico y los planes de tratamiento.

Para aprovechar plenamente el poder de los LLMs en la atención sanitaria, es crucial desarrollar y comparar modelos utilizando un conjunto específico diseñado para el dominio médico. Este conjunto debe tener en cuenta las características y requisitos únicos de los datos y aplicaciones sanitarias. El desarrollo de métodos para evaluar el Medical-LLM no es sólo de interés académico sino también de importancia práctica, dados los riesgos reales que suponen en el sector sanitario.

Open Medical-LLM Leaderboard

Logos de Open Life Science AI, Edinburgh NLP y Huggingface

El Tablero de Clasificación Open Medical-LLM tiene como objetivo rastrear, clasificar y evaluar el rendimiento de los grandes modelos de lenguaje (LLMs) en tareas de respuesta a preguntas médicas.

Evalúa los LLMs a través de una amplia variedad de conjuntos de datos médicos, incluyendo MedQA (USMLE), PubMedQA, MedMCQA y subconjuntos de MMLU relacionados con la medicina y la biología. El tablero ofrece una evaluación comprensiva del conocimiento médico y de las capacidades de respuesta a preguntas de cada modelo.

Los conjuntos de datos cubren varios aspectos de la medicina, como el conocimiento médico general, el conocimiento clínico, la anatomía, la genética y más. Contiene preguntas de opción múltiple y preguntas abiertas que requieren razonamiento y comprensión médica.

Al ofrecer una evaluación comprensiva del conocimiento médico y de las capacidades de respuesta a preguntas de cada modelo, el tablero pretende fomentar el desarrollo de LLMs médicos más efectivos y fiables.

Esta plataforma permite a los investigadores y profesionales identificar las fortalezas y debilidades de diferentes enfoques, impulsar nuevos avances en el campo y, en última instancia, contribuir a una mejor atención y resultados para los pacientes.

Conjuntos de Datos, Tareas y Configuración de Evaluación

MedQA

El conjunto de datos MedQA consiste en preguntas de opción múltiple del Examen de Licencia Médica de los Estados Unidos (USMLE). Cubre conocimientos médicos generales e incluye 11,450 preguntas en el conjunto de desarrollo y 1,273 preguntas en el conjunto de pruebas. Cada pregunta tiene 4 o 5 opciones de respuesta, y el conjunto de datos está diseñado para evaluar los conocimientos médicos y las habilidades de razonamiento necesarias para la licencia médica en los Estados Unidos.

MedMCQA

MedMCQA es un conjunto de datos de QA de opción múltiple a gran escala derivado de los exámenes de ingreso médico indios (AIIMS/NEET). Cubre 2.4k temas de salud y 21 materias médicas, con más de 187,000 preguntas en el conjunto de desarrollo y 6,100 preguntas en el conjunto de pruebas. Cada pregunta tiene 4 opciones de respuesta y va acompañada de una explicación. MedMCQA evalúa los conocimientos médicos generales y las capacidades de razonamiento de un modelo.

PubMedQA

PubMedQA es un conjunto de datos de QA de dominio cerrado, en el que cada pregunta puede ser respondida mirando un contexto asociado (resumen de PubMed). Consta de 1,000 pares de preguntas-respuestas etiquetadas por expertos. Cada pregunta va acompañada de un resumen de PubMed como contexto, y la tarea es proporcionar una respuesta sí/no/tal vez basada en la información en el resumen. El conjunto de datos se divide en 500 preguntas para desarrollo y 500 para pruebas. PubMedQA evalúa la capacidad de un modelo para comprender y razonar sobre literatura biomédica científica.

Subconjuntos de MMLU (Medicina y Biología)

El benchmark MMLU (Medición de Comprensión Multitarea Masiva) incluye preguntas de opción múltiple de varios dominios. Para el Tablero de Clasificación Abierto de Medical-LLM, nos centramos en los subconjuntos más relevantes para el conocimiento médico:

Conclusiones

El Open Medical-LLM Leaderboard evalúa el rendimiento de varios modelos de lenguaje grande (LLMs) en un conjunto diverso de tareas de preguntas y respuestas médicas. Principales conclusiones:

– Modelos comerciales como GPT-4-base y Med-PaLM-2 alcanzan consistentemente altas puntuaciones de precisión en varios conjuntos de datos médicos, demostrando un fuerte rendimiento en diferentes dominios médicos.

– Los modelos de código abierto, como Starling-LM-7B, gemma-7b, Mistral-7B-v0.1 y Hermes-2-Pro-Mistral-7B, muestran un rendimiento competitivo en ciertos conjuntos de datos y tareas, a pesar de tener tamaños más pequeños de alrededor de 7 mil millones de parámetros.

– Tanto los modelos comerciales como los de código abierto tienen un buen rendimiento en tareas como la comprensión y el razonamiento sobre literatura biomédica científica (PubMedQA) y la aplicación de conocimientos clínicos y habilidades de toma de decisiones (subconjunto de conocimientos clínicos de MMLU).

Tabla con los diferentes valores de precisión en las respuestas de las diferentes disciplinas médicas

El modelo de Google, Gemini Pro, demuestra un fuerte rendimiento en varios dominios médicos, destacando especialmente en tareas intensivas en datos y procedimientos como Bioestadística, Biología Celular y Obstetricia y Ginecología. No obstante, muestra un rendimiento moderado a bajo en áreas críticas como Anatomía, Cardiología y Dermatología, revelando lagunas que requieren un mayor refinamiento para una aplicación médica integral.

Open Life Science AI

Open Life Science AI es un proyecto que tiene como objetivo revolucionar la aplicación de la inteligencia artificial en los ámbitos de las ciencias de la vida y la salud.

Sirve como un punto central para una lista de modelos médicos, conjuntos de datos, referencias y seguimiento de fechas límite de conferencias, fomentando la colaboración, la innovación y el progreso en el campo de la salud asistida por IA.

Nos esforzamos por establecer Open Life Science AI como el destino principal para cualquier interesado en la intersección entre la IA y la salud. Proporcionamos una plataforma para que investigadores, clínicos, formuladores de políticas y expertos de la industria puedan participar en diálogos, compartir conocimientos y explorar los últimos avances en el campo.

Más información:
https://huggingface.co/blog/leaderboard-medicalllm

Compartir:

Open Medical-LLM Leaderboard

Conjuntos de Datos, Tareas y Configuración de Evaluación

MedQA

MedMCQA

PubMedQA

Subconjuntos de MMLU (Medicina y Biología)

Conclusiones

Open Life Science AI

Vídeo sobre el Open Medical-LLM Leaderboard