Proxectos libres de IA – MoEs, Mestura de Expertos

Continuamos coa publicación de artigos sobre proxectos libres relacionados coa Intelixencia Articial. Neste segundo artigo faremos un repaso aos MoEs (siglas en inglés de Mistura de Expertos).

Portada do artigo
Proxectos libres de ia
MoE, Mestura de Expertos

Que é unha Mistura de Expertos (MoE)?

A Mezcla de Expertos na Intelixencia Artificial é unha técnica que distribúe tarefas específicas entre múltiples submodelos chamados “expertos”, cada un entrenado nun dominio particular de coñecemento.

A clave desta arquitectura radica na súa capacidade para decidir dinamicamente que experto ou combinación de expertos é máis adecuado para unha tarefa determinada, o que permite unha xestión de recursos máis eficiente e unha mellora na precisión das predicións.

A escala dun modelo é un dos eixos máis importantes para unha mellor calidade do modelo. Dado un presuposto de computación fixo, o adestramento dun modelo máis grande durante menos pasos é mellor que o adestramento dun modelo máis pequeno durante máis pasos.

A Mistura de Expertos permite preentrenar modelos con moito menos cálculo, o que significa que podes escalar dramaticamente o tamaño do modelo ou do conxunto de datos co mesmo presuposto de cálculo que un modelo denso. En particular, un modelo MoE debería acadar a mesma calidade que o seu homólogo denso moito máis rápido durante o preentrenamento.

Un MoE consta de dous elementos principais:

– Capas MoE, que teñen un certo número de “expertos” (normalmente 8), onde cada experto é unha rede neural. Os expertos poden ser redes máis complexas ou incluso un MoE en si mesmo.

– Unha rede de comportas ou encamiñador, determina que tokens se envían a que experto. Por exemplo, na imaxe de abaixo, o token “More” envíase ao segundo experto, e o token “Parameters” envíase á primeira rede. Podemos enviar un token a máis dun experto.

Algunhas das características dos MoEs son:

– Preentrenan moito máis rápido en comparación cos modelos densos

– Teñen unha inferencia máis rápida en comparación cun modelo co mesmo número de parámetros

– Requírese alta VRAM xa que todos os expertos están cargados en memoria

– Enfrontan moitos desafíos no axuste fino

En resumo, a Mezcla de Expertos na IA ofrece varias vantaxes sobre outros métodos de aprendizaxe automático. É máis eficiente, xa que só precisa executar un experto ou unha combinación de expertos para cada entrada. Ademais, é escalable, xa que se pode aumentar o número de expertos para mellorar o rendemento en problemas complexos. Tamén é versátil, xa que se pode aplicar a unha ampla gama de problemas de aprendizaxe automático.

Esta arquitectura demostrou a súa eficacia en aplicacións reais e ofrece numerosas vantaxes sobre outros métodos de aprendizaxe automático.

Proxectos de código aberto relacionados cos modelos MoE

MoEs de acceso aberto liberados

– Switch Transformers (Google): Colección de MoEs baseados en T5, desde 8 até 2048 expertos.

– NLLB MoE (Meta): Unha variante MoE do modelo de tradución NLLB.

– OpenMoE: Un esforzo comunitario que liberou MoEs baseados en Llama.

– Mixtral 8x7B (Mistral): Un MoE de alta calidade que supera a Llama 2 70B e ten unha inferencia moito máis rápida.

Entrenamento dos MoE

– Megablocks: https://github.com/stanford-futuredata/megablocks

– Fairseq: https://github.com/facebookresearch/fairseq/tree/main/examples/moe_lm

– OpenMoE: https://github.com/XueFuzhao/OpenMoE

Mixtral

Mixtral 8x7b é un gran modelo de linguaxe lanzado por Mistral, o cal establece un novo estado da arte para os modelos de acceso aberto e supera a GPT-3.5 en moitos puntos de referencia.

Mixtral ten unha arquitectura semellante á de Mistral 7B, pero vén cunha reviravolta: realmente son 8 modelos “expertos” nun só, grazas a unha técnica chamada Mestura de Expertos (MoE).

Algunhas características:

– Versións base e Instruct

– Soporta unha lonxitude de contexto de 32k tokens

– Supera a Llama 2 70B e iguala ou supera a GPT3.5 na maioría dos puntos de referencia

– Fala inglés, francés, alemán, español e italiano

– Boa en programación, con 40.2% en HumanEval

– Comercialmente permisiva cunha licenza Apache 2.0

Podes probar a conversar co modelo Mixtral Instruct en Hugging Face Chat:
https://huggingface.co/chat/?model=mistralai/Mixtral-8x7B-Instruct-v0.1

Máis información

Compartir:

Que é unha Mistura de Expertos (MoE)?

Proxectos de código aberto relacionados cos modelos MoE

MoEs de acceso aberto liberados

Entrenamento dos MoE

Mixtral

Pílula en vídeo sobre o artigo