Microsoft anuncia la familia Phi-3 de modelos de lenguaje pequeño
Los Modelos de Lenguaje Grandes están creciendo – algunos de estos ahora tienen cientos de miles de millones o incluso billones de parámetros. Hace varios meses, los investigadores de Microsoft se preguntaron cuántos parámetros realmente necesitas para construir un modelo con razonamiento de sentido común. Hoy, la compañía tiene una respuesta en forma de la familia Phi-3 de modelos de lenguaje pequeños, con el primero, Phi-3-mini (con solo 3.8 mil millones de parámetros), ahora disponible a través de Azure, HuggingFace y Ollama.
Entrenado con datos sintéticos de alta calidad, Phi-3 tiene uno de los mejores ratios de costo-rendimiento de cualquier modelo en el mercado, y puede superar a modelos hasta 10 veces su tamaño – demostrando que más parámetros no son necesariamente mejores y ofreciendo una nueva opción convincente para clientes con diferentes necesidades de costo, latencia e infraestructura.
Incluímos algunos puntos clave a continuación, y podés conocer más en Microsoft Source y el Azure Blog.
Puntos clave:
• Phi-3 demuestra que los datos sintéticos de alta calidad son una opción viable para entrenar modelos de lenguaje y crea oportunidades únicas para una mayor innovación.
• Esta innovación nació en los laboratorios de investigación de Microsoft y fue ampliada por el recién formado equipo GenAI de Microsoft. El equipo desarrolló técnicas inspiradas en cómo los niños aprenden usando cuentos antes de dormir y mejoraron el conjunto de datos aproximándose a la selección de datos como un maestro desglosando conceptos difíciles para un estudiante.
• Además de todos los otros pasos de IA Responsable tomados antes de lanzar un modelo, entrenar con datos sintéticos permitió a Microsoft añadir una capa extra de seguridad y mitigar problemas comunes con lenguaje dañino y toxicidad mostrados por modelos entrenados con datos de internet.
• La familia de modelos Phi-3 puede ayudar a romper barreras asociadas con el costo y la eficiencia.
• Phi-3-mini es 3.8 mil millones de parámetros superando a competidores más grandes y capaces. Esto significa que tareas que normalmente serían dirigidas a un modelo más grande, pueden ser manejadas por algo con una huella más pequeña.
• Debido a su pequeño tamaño, será fácil y económico ajustar Phi-3 para casos de uso personalizados.
• Phi-3-small (7 mil millones de parámetros) y Phi-3-medium (14 mil millones de parámetros) estarán disponibles pronto y ofrecerán propuestas de valor similares con rendimiento escalado.
• Microsoft está apoyando a la comunidad de desarrolladores haciendo Phi-3 disponible en múltiples plataformas.
• Phi-3 estará disponible en HuggingFace y Ollama además de Azure, permitiendo a cualquiera ejecutar el modelo localmente y aprovechar los beneficios de la IA generativa.
• El pequeño tamaño de Phi-3-mini permitirá a los usuarios ejecutar el modelo en el dispositivo sin necesidad de una conexión a internet o acceso a la nube, expandiendo el acceso a la IA en lugares sin la infraestructura necesaria para aprovechar los LLMs