{"id":44414,"date":"2024-04-12T07:00:00","date_gmt":"2024-04-12T05:00:00","guid":{"rendered":"https:\/\/mancomun.gal\/?post_type=ficha&#038;p=44414"},"modified":"2024-04-11T09:13:52","modified_gmt":"2024-04-11T07:13:52","slug":"proxectos-libres-de-ia-moes-mestura-de-expertos","status":"publish","type":"ficha","link":"https:\/\/mancomun.gal\/es\/ficha\/proxectos-libres-de-ia-moes-mestura-de-expertos\/","title":{"rendered":"Proyectos libres de IA \u2013 MoEs, Mezcla de Expertos"},"content":{"rendered":"\n<p>Continuamos con la publicaci\u00f3n de art\u00edculos sobre proyectos libres relacionados con la Inteligencia Artificial. En este segundo art\u00edculo haremos un repaso a los MoEs (siglas en ingl\u00e9s de Mezcla de Expertos).<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1920\" height=\"1080\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1.png\" alt=\"Portada\nProxectos libres de ia\nMoE, mestura de Expertos\" class=\"wp-image-44422\" style=\"width:800px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1.png 1920w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1-300x169.png 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1-1024x576.png 1024w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1-768x432.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/portada-video-1-1536x864.png 1536w\" sizes=\"auto, (max-width: 1920px) 100vw, 1920px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"que-\u00e9-unha-mistura-de-expertos-moe\">\u00bfQu\u00e9 es una Mezcla de Expertos (MoE)?<\/h2>\n\n\n\n<p>La Mezcla de Expertos en la Inteligencia Artificial es una t\u00e9cnica que distribuye tareas espec\u00edficas entre m\u00faltiples submodelos llamados \u00abexpertos\u00bb, cada uno entrenado en un dominio particular de conocimiento.<\/p>\n\n\n\n<p>La clave de esta arquitectura radica en su capacidad para decidir din\u00e1micamente qu\u00e9 experto o combinaci\u00f3n de expertos es m\u00e1s adecuado para una tarea determinada, lo que <strong>permite una gesti\u00f3n de recursos m\u00e1s eficiente y una mejora en la precisi\u00f3n de las predicciones<\/strong>.<\/p>\n\n\n\n<p>La escala de un modelo es uno de los ejes m\u00e1s importantes para una mejor calidad del modelo. Dado un presupuesto de computaci\u00f3n fijo, el entrenamiento de un modelo m\u00e1s grande durante menos pasos es mejor que el entrenamiento de un modelo m\u00e1s peque\u00f1o durante m\u00e1s pasos.<\/p>\n\n\n\n<p><strong>La Mezcla de Expertos permite preentrenar modelos con mucho menos c\u00e1lculo<\/strong>, lo que significa que puedes escalar dram\u00e1ticamente el tama\u00f1o del modelo o del conjunto de datos con el mismo presupuesto de c\u00e1lculo que un modelo denso. En particular, un modelo MoE deber\u00eda alcanzar la misma calidad que su hom\u00f3logo denso mucho m\u00e1s r\u00e1pido durante el preentrenamiento.<\/p>\n\n\n\n<p>Un MoE consta de dos elementos principales:<\/p>\n\n\n\n<p>&#8211; <strong>Capas MoE<\/strong>, que tienen un cierto n\u00famero de \u00ab<strong>expertos<\/strong>\u00bb (normalmente 8), donde cada experto es una red neuronal. Los expertos pueden ser redes m\u00e1s complejas o incluso un MoE en s\u00ed mismo.<\/p>\n\n\n\n<p>&#8211; <strong>Una red de compuertas o enrutador<\/strong>, determina qu\u00e9 tokens se env\u00edan a qu\u00e9 experto. Por ejemplo, en la imagen de abajo, el token \u00abMore\u00bb se env\u00eda al segundo experto, y el token \u00abParameters\u00bb se env\u00eda a la primera red. Podemos enviar un token a m\u00e1s de un experto.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"556\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/00_switch_transformer-1024x556.png\" alt=\"Esquema del funcionamiento de un MoE\" class=\"wp-image-44408\" style=\"width:800px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/00_switch_transformer-1024x556.png 1024w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/00_switch_transformer-300x163.png 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/00_switch_transformer-768x417.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/00_switch_transformer.png 1116w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Algunas de las caracter\u00edsticas de los MoEs son:<\/p>\n\n\n\n<p>&#8211; Preentrenan mucho m\u00e1s r\u00e1pido en comparaci\u00f3n con los modelos densos<\/p>\n\n\n\n<p>&#8211; Tienen una inferencia m\u00e1s r\u00e1pida en comparaci\u00f3n con un modelo con el mismo n\u00famero de par\u00e1metros<\/p>\n\n\n\n<p>&#8211; Se requiere alta VRAM ya que todos los expertos est\u00e1n cargados en memoria<\/p>\n\n\n\n<p>&#8211; Enfrentan muchos desaf\u00edos en el ajuste fino<\/p>\n\n\n\n<p>En resumen, <strong>la Mezcla de Expertos en la IA ofrece varias ventajas sobre otros m\u00e9todos de aprendizaje autom\u00e1tico<\/strong>. Es m\u00e1s <strong>eficiente<\/strong>, ya que solo necesita ejecutar un experto o una combinaci\u00f3n de expertos para cada entrada. Adem\u00e1s, es <strong>escalable<\/strong>, ya que se puede aumentar el n\u00famero de expertos para mejorar el rendimiento en problemas complejos. Tambi\u00e9n es <strong>vers\u00e1til<\/strong>, ya que se puede aplicar a una amplia gama de problemas de aprendizaje autom\u00e1tico.<\/p>\n\n\n\n<p><strong>Esta arquitectura ha demostrado su eficacia en aplicaciones reales<\/strong> y ofrece numerosas ventajas sobre otros m\u00e9todos de aprendizaje autom\u00e1tico.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"proxectos-de-c\u00f3digo-aberto-relacionados-cos-modelos-moe\">Proyectos de c\u00f3digo abierto relacionados con los modelos MoE<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"moes-de-acceso-aberto-liberados\">MoEs de acceso abierto liberados<\/h3>\n\n\n\n<p>&#8211; Switch Transformers (Google): Colecci\u00f3n de MoEs basados en T5, desde 8 hasta 2048 expertos.<\/p>\n\n\n\n<p>&#8211; NLLB MoE (Meta): Una variante MoE del modelo de traducci\u00f3n NLLB.<\/p>\n\n\n\n<p>&#8211; OpenMoE: Un esfuerzo comunitario que ha liberado MoEs basados en Llama.<\/p>\n\n\n\n<p>&#8211; Mixtral 8x7B (Mistral): Un MoE de alta calidad que supera a Llama 2 70B y tiene una inferencia mucho m\u00e1s r\u00e1pida.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"entrenamento-dos-moe\">Entrenamiento de los MoE<\/h3>\n\n\n\n<p>&#8211; Megablocks: https\n\n:\/\/github.com\/stanford-futuredata\/megablocks<\/p>\n\n\n\n<p>&#8211; Fairseq: https:\/\/github.com\/facebookresearch\/fairseq\/tree\/main\/examples\/moe_lm<\/p>\n\n\n\n<p>&#8211; OpenMoE: https:\/\/github.com\/XueFuzhao\/OpenMoE<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"mixtral\">Mixtral<\/h2>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"542\" src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo-1024x542.png\" alt=\"Captura de pantalla de HuggingChat con el modelo Mixtral-8x-7B\" class=\"wp-image-44410\" style=\"width:800px\" srcset=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo-1024x542.png 1024w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo-300x159.png 300w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo-768x407.png 768w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo-1536x813.png 1536w, https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/mixtral-demo.png 1766w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Mixtral 8x7b <\/strong>es un gran modelo de lenguaje lanzado por Mistral, que establece un nuevo estado del arte para los modelos de acceso abierto y supera a GPT-3.5 en muchos puntos de referencia.<\/p>\n\n\n\n<p>Mixtral tiene una arquitectura similar a la de Mistral 7B, pero viene con una vuelta de tuerca: realmente son 8 modelos \u00abexpertos\u00bb en uno solo, gracias a una t\u00e9cnica llamada Mezcla de Expertos (MoE).<\/p>\n\n\n\n<p>Algunas caracter\u00edsticas:<\/p>\n\n\n\n<p>&#8211; Versiones base e Instruct<\/p>\n\n\n\n<p>&#8211; Soporta una longitud de contexto de 32k tokens<\/p>\n\n\n\n<p>&#8211; Supera a Llama 2 70B e iguala o supera a GPT3.5 en la mayor\u00eda de los puntos de referencia<\/p>\n\n\n\n<p>&#8211; Habla ingl\u00e9s, franc\u00e9s, alem\u00e1n, espa\u00f1ol e italiano<\/p>\n\n\n\n<p>&#8211; Buena en programaci\u00f3n, con 40.2% en HumanEval<\/p>\n\n\n\n<p>&#8211; Comercialmente permisiva con una licencia Apache 2.0<\/p>\n\n\n\n<p>Puedes probar a conversar con el modelo Mixtral Instruct en Hugging Face Chat:<br><a href=\"https:\/\/huggingface.co\/chat\/?model=mistralai\/Mixtral-8x7B-Instruct-v0.1\">https:\/\/huggingface.co\/chat\/?model=mistralai\/Mixtral-8x7B-Instruct-v0.1<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/blog\/moe\">M\u00e1s informaci\u00f3n<\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">P\u00edldora en v\u00eddeo<\/h2>\n\n\n\n<figure class=\"wp-block-video\"><video height=\"1080\" style=\"aspect-ratio: 1920 \/ 1080;\" width=\"1920\" controls src=\"https:\/\/mancomun.gal\/wp-content\/uploads\/2024\/04\/02-Proxectos-libres-de-IA-\u2013-MoEs-Mestura-de-Expertos.mp4\"><\/video><\/figure>\n","protected":false},"featured_media":44413,"template":"","categories":[46],"tags":[283],"area":[707],"class_list":["post-44414","ficha","type-ficha","status-publish","has-post-thumbnail","hentry","category-empresa-es","tag-ia-es","area-pildoras-es"],"acf":[],"_links":{"self":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/ficha\/44414","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/ficha"}],"about":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/types\/ficha"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/media\/44413"}],"wp:attachment":[{"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/media?parent=44414"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/categories?post=44414"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/tags?post=44414"},{"taxonomy":"area","embeddable":true,"href":"https:\/\/mancomun.gal\/es\/wp-json\/wp\/v2\/area?post=44414"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}