Mancomún

DeepSpeech 0.91, reconocimiento de voz de Mozilla

miércoles, 25 noviembre 2020

Nueva actualización del motor de reconocimiento de voz DeepSpeech 0.91 desarrollado por Mozilla.

DeepSpeech es un motor de software libre de habla a texto, que utiliza un modelo entrenado por técnicas de machine learning basadas en el trabajo de investigación de Deep Speech de Baidu. El proyecto DeepSpeech utiliza TensorFlow de Google para facilitar la implementación. Se distribuye bajo la licencia gratuita MPL 2.0.

Novedades destacadas:
– Esta versión no es completamente compatible con versiones anteriores, es una versión de corrección de errores y mantiene la compatibilidad con los modelos 0.9.0.
– Nuevos modelos acústicos experimentales de chino mandarín entrenados en un corpus interno compuesto de 2000 h de discurso leído.
– Los archivos de modelo con la extensión «.pbmm» están mapeados en la memoria y por tanto son eficientes y rápidos de cargar. Los archivos de modelo con la extensión «.tflite» son convertidos para usar TensorFlow Lite y son más adecuados para entornos con recursos limitados.
– Los modelos acústicos fueron entrenados en inglés americano con un aumento de ruido sintético y el modelo .pbmm alcanza una tasa de error de palabras del 7,06% en el corpus de pruebas limpias de LibriSpeech.
– El modelo actualmente se desempeña mejor en ambientes de bajo ruido con grabaciones claras y tiene un rumbo hacia los acentos masculinos de los Estados Unidos.

Más información en la nota oficial de lanzamiento

Xunta

Xunta de Galicia, Información mantenida y publicada en internet por Xunta de Galicia

Atención a la ciudadanía - Accesibilidad - Aviso legal - Mapa del portal