Proxectos libres de IA – Open Medical-LLM Leaderboard

Continuamos coa publicación de artigos sobre proxectos libres relacionados coa Intelixencia Articial. Neste artigo faremos un repaso do Open Medical-LLM Leaderboard.

Ao longo dos anos, os Modelos de Linguaxe Grande (LLMs) emerxeron como unha tecnoloxía revolucionaria con un potencial inmenso para transformar diversos aspectos da saúde. Estes modelos, como GPT-3, GPT-4 e Med-PaLM 2, demostraron capacidades notables na comprensión e xeración de texto similar ao humano, converténdose en ferramentas valiosas para afrontar tarefas médicas complexas e mellorar a atención ao paciente. Mostraron un gran potencial en varias aplicacións médicas, como preguntas-respostas médicas (QA) , sistemas de diálogo e xeración de texto.

Ademais, co crecemento exponencial dos rexistros electrónicos de saúde (EHRs), a literatura médica e os datos xerados polos pacientes, os LLMs poderían axudar aos profesionais da saúde a extraer información valiosa e tomar decisións informadas.

Non obstante, a pesar do inmenso potencial dos Modelos de Linguaxe Grande (LLMs) na saúde, hai retos significativos e específicos que precisan ser abordados.

Cando os modelos se usan para aspectos conversacionais recreativos, os erros teñen poucas repercusións; isto non é o caso para usos no ámbito médico, onde unha explicación ou resposta incorrecta pode ter consecuencias graves para o coidado e os resultados do paciente. A precisión e a fiabilidade da información proporcionada polos modelos de linguaxe poden ser unha cuestión de vida ou morte, xa que poderían afectar potencialmente as decisións de saúde, o diagnóstico e os plans de tratamento.

Para aproveitar plenamente o poder dos LLMs na atención sanitaria, é crucial desenvolver e comparar modelos utilizando un conxunto específico deseñado para o dominio médico. Este conxunto debe ter en conta as características e requisitos únicos dos datos e aplicacións sanitarias. O desenvolvemento de métodos para avaliar o Medical-LLM non é só de interese académico senón tamén de importancia práctica, dados os riscos reais que supoñen no sector sanitario.

Open Medical-LLM Leaderboard

Logos de Open Life Science AI, Edinburgh NLP e Huggingface

O Taboleiro de Clasificación Open Medical-LLM ten como obxectivo rastrexar, clasificar e avaliar o rendemento dos grandes modelos de linguaxe (LLMs) en tarefas de resposta a preguntas médicas.

Avalía os LLMs a través dunha ampla variedade de conxuntos de datos médicos, incluíndo MedQA (USMLE), PubMedQA, MedMCQA e subconxuntos de MMLU relacionados coa medicina e a bioloxía. O taboleiro ofrece unha avaliación comprensiva do coñecemento médico e das capacidades de resposta a preguntas de cada modelo.

Os conxuntos de datos cobren varios aspectos da medicina, como o coñecemento médico xeral, o coñecemento clínico, a anatomía, a xenética e máis. Contén preguntas de opción múltiple e preguntas abertas que requiren razoamento e comprensión médica.

Ao ofrecer unha avaliación comprensiva do coñecemento médico e das capacidades de resposta a preguntas de cada modelo, o taboleiro pretende fomentar o desenvolvemento de LLMs médicos máis efectivos e fiables.

Esta plataforma permite aos investigadores e profesionais identificar as fortalezas e debilidades de diferentes enfoques, impulsar novos avances no campo e, en última instancia, contribuír a unha mellor atención e resultados para os pacientes.

Conxuntos de Datos, Tarefas e Configuración de Avaliación

MedQA

O conxunto de datos MedQA consiste en preguntas de opción múltiple do Exame de Licenza Médica dos Estados Unidos (USMLE). Cobre coñecementos médicos xerais e inclúe 11,450 preguntas no conxunto de desenvolvemento e 1,273 preguntas no conxunto de probas. Cada pregunta ten 4 ou 5 opcións de resposta, e o conxunto de datos está deseñado para avaliar os coñecementos médicos e as habilidades de razoamento necesarias para a licenza médica nos Estados Unidos.

MedMCQA

MedMCQA é un conxunto de datos de QA de opción múltiple a gran escala derivado dos exames de ingreso médico indios (AIIMS/NEET). Cobre 2.4k temas de saúde e 21 materias médicas, con máis de 187,000 preguntas no conxunto de desenvolvemento e 6,100 preguntas no conxunto de probas. Cada pregunta ten 4 opcións de resposta e vai acompañada dunha explicación. MedMCQA avalía os coñecementos médicos xerais e as capacidades de razoamento dun modelo.

PubMedQA

PubMedQA é un conxunto de datos de QA de dominio pechado, no que cada pregunta pode ser respondida mirando un contexto asociado (resumo de PubMed). Consta de 1,000 pares de preguntas-respostas etiquetadas por expertos. Cada pregunta vai acompañada dun resumo de PubMed como contexto, e a tarefa é proporcionar unha resposta si/non/talvez baseada na información no resumo. O conxunto de datos divídese en 500 preguntas para desenvolvemento e 500 para probas. PubMedQA avalía a capacidade dun modelo para comprender e razoar sobre literatura biomédica científica.

Subconxuntos de MMLU (Medicina e Bioloxía)

O benchmark MMLU (Medición de Comprensión Multitarefa Masiva) inclúe preguntas de opción múltiple de varios dominios. Para o Taboleiro de Clasificación Aberto de Medical-LLM, centrámonos nos subconxuntos máis relevantes para o coñecemento médico:

– Coñecemento Clínico: 265 preguntas que avalían as habilidades de coñecemento clínico e toma de decisións.

– Xenética Médica: 100 preguntas que cobren temas relacionados coa xenética médica.

– Anatomía: 135 preguntas que avalían o coñecemento da anatomía humana.

– Medicina Profesional: 272 preguntas que avalían o coñecemento necesario para profesionais médicos.

– Bioloxía Universitaria: 144 preguntas que cobren conceptos de bioloxía a nivel universitario.

– Medicina Universitaria: 173 preguntas que avalían o coñecemento médico a nivel universitario.

Conclusións

O Open Medical-LLM Leaderboard avalía o rendemento de varios modelos de linguaxe grande (LLMs) nun conxunto diverso de tarefas de preguntas e respostas médicas. Principais conclusións:

– Modelos comerciais como GPT-4-base e Med-PaLM-2 alcanzan consistentemente altas puntuacións de precisión en varios conxuntos de datos médicos, demostrando un forte rendemento en diferentes dominios médicos.

– Os modelos de código aberto, como Starling-LM-7B, gemma-7b, Mistral-7B-v0.1 e Hermes-2-Pro-Mistral-7B, mostran un rendemento competitivo en certos conxuntos de datos e tarefas, a pesar de ter tamaños máis pequenos de arredor de 7 mil millóns de parámetros.

– Tanto os modelos comerciais como os de código aberto teñen un bo rendemento en tarefas como a comprensión e o razoamento sobre literatura biomédica científica (PubMedQA) e a aplicación de coñecementos clínicos e habilidades de toma de decisións (subconxunto de coñecementos clínicos de MMLU).

Táboa cos diferentes valores de precisión nas respostas das diferentes disciplinas médicas

O modelo de Google, Gemini Pro, demostra un forte rendemento en varios dominios médicos, destacando especialmente en tarefas intensivas en datos e procedementos como Bioestatística, Bioloxía Celular e Obstetricia e Xinecoloxía. Non obstante, mostra un rendemento moderado a baixo en áreas críticas como Anatomía, Cardioloxía e Dermatoloxía, revelando lagoas que requiren un maior refinamento para unha aplicación médica integral.

Open Life Science AI

Open Life Science AI é un proxecto que ten como obxectivo revolucionar a aplicación da intelixencia artificial nos ámbitos das ciencias da vida e a saúde.

Serve como un punto central para unha lista de modelos médicos, conxuntos de datos, referencias e seguimento de datas límite de conferencias, fomentando a colaboración, a innovación e o progreso no campo da saúde asistida por IA.

Esforzámonos por establecer Open Life Science AI como o destino principal para calquera interesado na intersección entre a IA e a saúde. Proporcionamos unha plataforma para que investigadores, clínicos, formuladores de políticas e expertos da industria poidan participar en diálogos, compartir coñecementos e explorar os últimos avances no campo.

Máis información:
https://huggingface.co/blog/leaderboard-medicalllm

Compartir:

Open Medical-LLM Leaderboard

Conxuntos de Datos, Tarefas e Configuración de Avaliación

MedQA

MedMCQA

PubMedQA

Subconxuntos de MMLU (Medicina e Bioloxía)

Conclusións

Open Life Science AI

Vídeo sobre o Open Medical-LLM Leaderboard