{"id":61058,"date":"2024-06-12T07:00:00","date_gmt":"2024-06-12T05:00:00","guid":{"rendered":"https:\/\/mancomun.gal\/?post_type=ficha&#038;p=61058"},"modified":"2024-06-11T11:00:38","modified_gmt":"2024-06-11T09:00:38","slug":"proxectos-libres-de-ia-open-medical-llm-leaderboard","status":"publish","type":"ficha","link":"https:\/\/mancomun.gal\/es\/ficha\/proxectos-libres-de-ia-open-medical-llm-leaderboard\/","title":{"rendered":"Proyectos libres de IA \u2013 Open Medical-LLM Leaderboard"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Continuamos con la publicaci\u00f3n de art\u00edculos sobre proyectos libres relacionados con la Inteligencia Artificial. En este art\u00edculo haremos un repaso del Open Medical-LLM Leaderboard.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"500\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/intelixencia-artificial.jpg\" alt=\"Inteligencia artificial\" class=\"wp-image-61044\" style=\"width:300px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/intelixencia-artificial.jpg 500w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/intelixencia-artificial-300x300.jpg 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/intelixencia-artificial-150x150.jpg 150w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">A lo largo de los a\u00f1os, los Modelos de Lenguaje Grande (LLMs) han emergido como una tecnolog\u00eda revolucionaria con un potencial inmenso para transformar diversos aspectos de la salud. Estos modelos, como GPT-3, GPT-4 y Med-PaLM 2, han demostrado capacidades notables en la comprensi\u00f3n y generaci\u00f3n de texto similar al humano, convirti\u00e9ndose en <strong>herramientas valiosas para afrontar tareas m\u00e9dicas complejas y mejorar la atenci\u00f3n al paciente<\/strong>. Han mostrado un gran potencial en varias aplicaciones m\u00e9dicas, como preguntas y respuestas m\u00e9dicas (QA), sistemas de di\u00e1logo y generaci\u00f3n de texto.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Adem\u00e1s, con el crecimiento exponencial de los registros electr\u00f3nicos de salud (EHRs), la literatura m\u00e9dica y los datos generados por los pacientes, <strong>los LLMs podr\u00edan ayudar a los profesionales de la salud a extraer informaci\u00f3n valiosa y tomar decisiones informadas<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sin embargo, a pesar del inmenso potencial de los Modelos de Lenguaje Grande (LLMs) en la salud, <strong>hay retos significativos y espec\u00edficos que necesitan ser abordados<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"422\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-1024x422.png\" alt=\"Gr\u00e1fica clasificando los LLM\" class=\"wp-image-61046\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-1024x422.png 1024w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-300x123.png 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-768x316.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-1536x632.png 1536w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/medical_llms-2048x843.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Cuando los modelos se usan para aspectos conversacionales recreativos, los errores tienen pocas repercusiones; esto no es el caso para usos en el \u00e1mbito m\u00e9dico, donde una explicaci\u00f3n o respuesta incorrecta puede tener consecuencias graves para el cuidado y los resultados del paciente. <strong>La precisi\u00f3n y la fiabilidad de la informaci\u00f3n proporcionada por los modelos de lenguaje pueden ser una cuesti\u00f3n de vida o muerte<\/strong>, ya que podr\u00edan afectar potencialmente las decisiones de salud, el diagn\u00f3stico y los planes de tratamiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Para aprovechar plenamente el poder de los LLMs en la atenci\u00f3n sanitaria, <strong>es crucial desarrollar y comparar modelos utilizando un conjunto espec\u00edfico dise\u00f1ado para el dominio m\u00e9dico<\/strong>. Este conjunto debe tener en cuenta las caracter\u00edsticas y requisitos \u00fanicos de los datos y aplicaciones sanitarias. El desarrollo de m\u00e9todos para evaluar el Medical-LLM no es s\u00f3lo de inter\u00e9s acad\u00e9mico sino tambi\u00e9n de importancia pr\u00e1ctica, dados los riesgos reales que suponen en el sector sanitario.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"open-medical-llm-leaderboard\">Open Medical-LLM Leaderboard<\/h2>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"423\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open-1024x423.png\" alt=\"Logos de Open Life Science AI, Edinburgh NLP y Huggingface\" class=\"wp-image-61048\" style=\"width:600px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open-1024x423.png 1024w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open-300x124.png 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open-768x317.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open-1536x635.png 1536w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/open.png 1728w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>El <\/strong><a href=\"file:\/\/\/Volumes\/Mac-externo\/VIDEO-MAC-EXT\/Proxectos%20libres%20de%20IA\/03%20-%20Proxectos%20libres%20de%20IA%20\u2013%20Open%20Medical-LLM%20Leaderboard\/Open%20Medical-LLM%20Leaderboard\">Tablero de Clasificaci\u00f3n Open Medical-LLM<\/a><strong> tiene como objetivo rastrear, clasificar y evaluar el rendimiento de los grandes modelos de lenguaje (LLMs) en tareas de respuesta a preguntas m\u00e9dicas<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eval\u00faa los LLMs a trav\u00e9s de una amplia variedad de conjuntos de datos m\u00e9dicos, incluyendo MedQA (USMLE), PubMedQA, MedMCQA y subconjuntos de MMLU relacionados con la medicina y la biolog\u00eda. El tablero <strong>ofrece una evaluaci\u00f3n comprensiva del conocimiento m\u00e9dico y de las capacidades de respuesta a preguntas de cada modelo.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los conjuntos de datos cubren varios aspectos de la medicina, como el conocimiento m\u00e9dico general, el conocimiento cl\u00ednico, la anatom\u00eda, la gen\u00e9tica y m\u00e1s. Contiene preguntas de opci\u00f3n m\u00faltiple y preguntas abiertas que requieren razonamiento y comprensi\u00f3n m\u00e9dica.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Al ofrecer una evaluaci\u00f3n comprensiva del conocimiento m\u00e9dico y de las capacidades de respuesta a preguntas de cada modelo, el tablero pretende fomentar el desarrollo de LLMs m\u00e9dicos m\u00e1s efectivos y fiables.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Esta plataforma permite a los investigadores y profesionales identificar las fortalezas y debilidades de diferentes enfoques<\/strong>, impulsar nuevos avances en el campo y, en \u00faltima instancia, contribuir a una mejor atenci\u00f3n y resultados para los pacientes.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"conxuntos-de-datos-tarefas-e-configuraci\u00f3n-de-avaliaci\u00f3n\">Conjuntos de Datos, Tareas y Configuraci\u00f3n de Evaluaci\u00f3n<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"medqa\">MedQA<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">El conjunto de datos MedQA consiste en preguntas de opci\u00f3n m\u00faltiple del Examen de Licencia M\u00e9dica de los Estados Unidos (USMLE). Cubre conocimientos m\u00e9dicos generales e incluye 11,450 preguntas en el conjunto de desarrollo y 1,273 preguntas en el conjunto de pruebas. Cada pregunta tiene 4 o 5 opciones de respuesta, y el conjunto de datos est\u00e1 dise\u00f1ado para evaluar los conocimientos m\u00e9dicos y las habilidades de razonamiento necesarias para la licencia m\u00e9dica en los Estados Unidos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"medmcqa\">MedMCQA<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">MedMCQA es un conjunto de datos de QA de opci\u00f3n m\u00faltiple a gran escala derivado de los ex\u00e1menes de ingreso m\u00e9dico indios (AIIMS\/NEET). Cubre 2.4k temas de salud y 21 materias m\u00e9dicas, con m\u00e1s de 187,000 preguntas en el conjunto de desarrollo y 6,100 preguntas en el conjunto de pruebas. Cada pregunta tiene 4 opciones de respuesta y va acompa\u00f1ada de una explicaci\u00f3n. MedMCQA eval\u00faa los conocimientos m\u00e9dicos generales y las capacidades de razonamiento de un modelo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"pubmedqa\">PubMedQA<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">PubMedQA es un conjunto de datos de QA de dominio cerrado, en el que cada pregunta puede ser respondida mirando un contexto asociado (resumen de PubMed). Consta de 1,000 pares de preguntas-respuestas etiquetadas por expertos. Cada pregunta va acompa\u00f1ada de un resumen de PubMed como contexto, y la tarea es proporcionar una respuesta s\u00ed\/no\/tal vez basada en la informaci\u00f3n en el resumen. El conjunto de datos se divide en 500 preguntas para desarrollo y 500 para pruebas. PubMedQA eval\u00faa la capacidad de un modelo para comprender y razonar sobre literatura biom\u00e9dica cient\u00edfica.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"subconxuntos-de-mmlu-medicina-e-biolox\u00eda\">Subconjuntos de MMLU (Medicina y Biolog\u00eda)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">El benchmark MMLU (Medici\u00f3n de Comprensi\u00f3n Multitarea Masiva) incluye preguntas de opci\u00f3n m\u00faltiple de varios dominios. Para el Tablero de Clasificaci\u00f3n Abierto de Medical-LLM, nos centramos en los subconjuntos m\u00e1s relevantes para el conocimiento m\u00e9dico:<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"conclusi\u00f3ns\">Conclusi<strong>ones<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El <a href=\"file:\/\/\/Volumes\/Mac-externo\/VIDEO-MAC-EXT\/Proxectos%20libres%20de%20IA\/03%20-%20Proxectos%20libres%20de%20IA%20\u2013%20Open%20Medical-LLM%20Leaderboard\/Open%20Medical-LLM%20Leaderboard\">Open Medical-LLM Leaderboard<\/a> eval\u00faa el rendimiento de varios modelos de lenguaje grande (LLMs) en un conjunto diverso de tareas de preguntas y respuestas m\u00e9dicas. Principales conclusiones:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8211; Modelos comerciales como GPT-4-base y Med-PaLM-2 alcanzan consistentemente altas puntuaciones de precisi\u00f3n en varios conjuntos de datos m\u00e9dicos, demostrando un fuerte rendimiento en diferentes dominios m\u00e9dicos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8211; Los modelos de c\u00f3digo abierto, como Starling-LM-7B, gemma-7b, Mistral-7B-v0.1 y Hermes-2-Pro-Mistral-7B, muestran un rendimiento competitivo en ciertos conjuntos de datos y tareas, a pesar de tener tama\u00f1os m\u00e1s peque\u00f1os de alrededor de 7 mil millones de par\u00e1metros.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8211; Tanto los modelos comerciales como los de c\u00f3digo abierto tienen un buen rendimiento en tareas como la comprensi\u00f3n y el razonamiento sobre literatura biom\u00e9dica cient\u00edfica (PubMedQA) y la aplicaci\u00f3n de conocimientos cl\u00ednicos y habilidades de toma de decisiones (subconjunto de conocimientos cl\u00ednicos de MMLU).<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"722\" height=\"1024\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/subjectwise_eval-722x1024.png\" alt=\"Tabla con los diferentes valores de precisi\u00f3n en las respuestas de las diferentes disciplinas m\u00e9dicas\" class=\"wp-image-61050\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/subjectwise_eval-722x1024.png 722w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/subjectwise_eval-212x300.png 212w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/subjectwise_eval-768x1089.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/subjectwise_eval.png 992w\" sizes=\"auto, (max-width: 722px) 100vw, 722px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">El modelo de Google, Gemini Pro, demuestra un fuerte rendimiento en varios dominios m\u00e9dicos, destacando especialmente en tareas intensivas en datos y procedimientos como Bioestad\u00edstica, Biolog\u00eda Celular y Obstetricia y Ginecolog\u00eda. No obstante, muestra un rendimiento moderado a bajo en \u00e1reas cr\u00edticas como Anatom\u00eda, Cardiolog\u00eda y Dermatolog\u00eda, revelando lagunas que requieren un mayor refinamiento para una aplicaci\u00f3n m\u00e9dica integral.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"open-life-science-ai\">Open Life Science AI<\/h2>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"416\" height=\"362\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/olsa.png\" alt=\"Logo de Open life science AI\" class=\"wp-image-61052\" style=\"width:300px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/olsa.png 416w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/olsa-300x261.png 300w\" sizes=\"auto, (max-width: 416px) 100vw, 416px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Open Life Science AI es un proyecto que tiene como objetivo revolucionar la aplicaci\u00f3n de la inteligencia artificial en los \u00e1mbitos de las ciencias de la vida y la salud.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sirve como un punto central para una lista de modelos m\u00e9dicos, conjuntos de datos, referencias y seguimiento de fechas l\u00edmite de conferencias, fomentando la colaboraci\u00f3n, la innovaci\u00f3n y el progreso en el campo de la salud asistida por IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nos esforzamos por establecer Open Life Science AI como el destino principal para cualquier interesado en la intersecci\u00f3n entre la IA y la salud. Proporcionamos una plataforma para que investigadores, cl\u00ednicos, formuladores de pol\u00edticas y expertos de la industria puedan participar en di\u00e1logos, compartir conocimientos y explorar los \u00faltimos avances en el campo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e1s informaci\u00f3n:<br><a href=\"https:\/\/huggingface.co\/blog\/leaderboard-medicalllm\">https:\/\/huggingface.co\/blog\/leaderboard-medicalllm<\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">V\u00eddeo sobre el Open Medical-LLM Leaderboard<\/h2>\n\n\n\n<figure class=\"wp-block-video aligncenter\"><video height=\"1080\" style=\"aspect-ratio: 1920 \/ 1080;\" width=\"1920\" controls src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/06\/03-Proxectos-libres-de-IA-\u2013-Open-Medical-LLM-Leaderboard.mp4\"><\/video><\/figure>\n","protected":false},"featured_media":61055,"template":"","categories":[46],"tags":[283],"area":[707],"class_list":["post-61058","ficha","type-ficha","status-publish","has-post-thumbnail","hentry","category-empresa-es","tag-ia-es","area-pildoras-es"],"acf":[],"_links":{"self":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/ficha\/61058","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/ficha"}],"about":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/types\/ficha"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/media\/61055"}],"wp:attachment":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/media?parent=61058"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/categories?post=61058"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/tags?post=61058"},{"taxonomy":"area","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/area?post=61058"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}