¡La inteligencia artificial avanza a pasos agigantados! Hoy es un día emocionante porque damos la bienvenida a Llama 3.2, la nueva y mejorada versión de la popular colección de modelos Llama. Creada en colaboración con Meta, esta versión trae consigo un enfoque multimodal y se presenta con una gama de tamaños que permiten su uso en diversos dispositivos.
¿Qué es Llama 3.2 Vision?
Llama 3.2 Vision no es solo un modelo de lenguaje, es un modelo multimodal potente. Su diseño permite realizar tareas como razonamiento visual, preguntas y respuestas sobre documentos, y búsqueda de información a partir de imágenes. Con la incorporación de esto, Llama 3.2 demuestra capacidades excepcionales no solo para entender texto sino también para interpretar imágenes y generar respuestas detalladas.
Novedades en Llama 3.2
Los avances y características que vienen con Llama 3.2 son impresionantes:
- Puntos de control de modelo en Hub
- Integración con Hugging Face Transformers y TGI para modelos de visión
- Integración de inferencia y despliegue con endpoints de inferencia, Google Cloud, Amazon SageMaker y DELL Enterprise Hub
- Ajuste fino del modelo Llama 3.2 11B Vision en una sola GPU utilizando Transformers y TRL
Capacidades y características destacadas
Llama 3.2 está disponible en varias configuraciones, incluidos modelos de solo texto y multimodal. Hay dos tamaños disponibles para la versión 3.2 Vision:
- Modelo 11B: Ideal para implementaciones eficientes en GPU de tamaño estándar.
- Modelo 90B: Para aplicaciones a gran escala que requieren un rendimiento superior.
También se han presentado nuevas versiones de modelos de lenguaje de texto solo, que funcionan directamente en los dispositivos. Estos modelos, de 1B y 3B, son compactos pero poderosos, ideales para tareas como escritura de prompts y asistencia virtual.
Integración y despliegue
Entre las nuevas funcionalidades y mejoras que se han dado a conocer con Llama 3.2, se incluyen:
- Puntos de control de modelos en Hugging Face
- Integración con Hugging Face Transformers para los modelos de visión
- Integración de inferencias y despliegue con puntos finales de Inferencia, Google Cloud, Amazon SageMaker y DELL Enterprise Hub
- Optimización de Llama 3.2 11B Vision en una sola GPU utilizando transformers🤗 y TRL
Acceso a Llama 3.2
Puedes experimentar con los modelos de instrucción en las siguientes demostraciones:
- Demo con Llama 3.2 11B Vision Instruct
- Demo con Llama 3.2 3B
- Llama 3.2 3B corriendo en WebGPU
- Llama 3.2 3B basado en MLC Web-LLM
Cambios en la licencia de Llama 3.2
Con el lanzamiento de Llama 3.2, se han realizado algunos cambios en las condiciones de la licencia. Desafortunadamente, las nuevas versiones multimodales no están disponibles para los usuarios en la Unión Europea (UE). Sin embargo, esto no afectará a aquellos que deseen utilizar productos que incorporen estos modelos.
Para más detalles sobre las condiciones de uso, asegúrate de consultar la licencia oficial y la política de uso aceptable.
Ejemplos prácticos y demostración
Te invitamos a experimentar con los modelos de instrucción Llama 3.2 a través de nuestras Gradio Spaces:
¿Qué modelos utilizar y cómo?
Los modelos Llama 3.2 de 1B y 3B están diseñados para ser fáciles de utilizar en dispositivos locales. Puedes ejecutar los modelos solamente con unas pocas líneas de código utilizando los Transformers de Hugging Face:
from transformers import pipeline
model_id = "meta-llama/Llama-3.2-3B-Instruct"
pipe = pipeline("text-generation", model=model_id)
output = pipe("¿Cuál es el significado de la vida?")
print(output)
Conclusión
La llegada de Llama 3.2 a la comunidad de IA marca un hito significativo en el avance de modelos de inteligencia artificial multimodal y de solo texto con capacidades optimizadas para funcionar en dispositivos. Con estas nuevas herramientas, se abre un mundo de posibilidades para desarrolladores y usuarios.
¡No pierdas la oportunidad de explorar y aprovechar al máximo lo que Llama 3.2 tiene para ofrecer!
«`