Una familia de modelos de lenguaje preentrenados y ajustados en tamaños de 7 a 70 mil millones de parámetros
El martes, Meta anunció Llama 2, una nueva familia de modelos de lenguaje de IA disponible en la fuente que se destaca por su licencia comercial, lo que significa que los modelos se pueden integrar en productos comerciales, a diferencia de su predecesor. Varían en tamaño de 7 a 70 mil millones de parámetros y, según se informa, «superan a los modelos de chat de código abierto en la mayoría de los puntos de referencia que probamos», según Meta.
Según Meta, sus modelos «preentrenados» de Llama 2 (los modelos básicos) están entrenados en 2 billones de tokens y tienen una ventana de contexto de 4.096 tokens (fragmentos de palabras). La ventana de contexto determina la longitud del contenido que el modelo puede procesar a la vez. Meta también dice que los modelos perfeccionados de Llama 2, desarrollados para aplicaciones de chat similares a ChatGPT, han sido entrenados en «más de 1 millón de anotaciones humanas».
Si bien no puede igualar el rendimiento del GPT-4 de OpenAI, aparentemente a Llama 2 le va bien para un modelo disponible en la fuente. Según Jim Fan, científico sénior de inteligencia artificial de Nvidia, «70B está cerca de GPT-3.5 en tareas de razonamiento, pero hay una brecha significativa en los puntos de referencia de codificación. Está a la par o mejor que PaLM-540B en la mayoría de los puntos de referencia, pero todavía muy por detrás. GPT-4 y PaLM-2-L». Se pueden encontrar más detalles sobre el rendimiento, los puntos de referencia y la construcción de Llama 2 en un artículo de investigación publicado por Meta el martes.