Google anuncia la TPU de Ironwood de 7ª generación, Lyria Text-to-Music

Belisario García1 semana agoLast Updated: 9 abril 2025

Además de lo último en el espacio de trabajo en Cloud Next 2025, Google anunció hoy Ironwood, su unidad de procesamiento de tensor de séptima generación (TPU) y los últimos modelos generativos.

Madera de hierro

La TPU de Ironwood es el “acelerador de IA personalizado más actuable y escalable de Google hasta la fecha”, así como con energía eficiente, y el “primero diseñado específicamente para inferencia”. Específicamente:

Ironwood representa un cambio significativo en el desarrollo de la IA y la infraestructura que alimenta su progreso. Es un movimiento de los modelos de IA receptivos que proporcionan información en tiempo real para que las personas interpreten, a modelos que proporcionan la generación proactiva de ideas e interpretación. Esto es lo que llamamos la “edad de inferencia” donde los agentes de IA recuperarán y generarán datos de manera proactiva para entregar ideas y respuestas en colaboración, no solo datos.

Ironwood está diseñado para gestionar las demandas de los modelos de pensamiento, que “abarcan modelos de idiomas grandes (LLM), una mezcla de expertos (MOE) y tareas de razonamiento avanzado”, que requieren procesamiento paralelo “masivo” y un acceso de memoria eficiente. Este último se logra minimizando “movimiento de datos y latencia en el chip mientras realiza manipulaciones tensoras masivas”.

En la frontera, las demandas de cálculo de modelos de pensamiento se extienden mucho más allá de la capacidad de cualquier chip. Diseñamos las TPU de Ironwood con una red ICI de ancho de banda de baja latencia para soportar la comunicación sincrónica coordinada a la escala de POD TPU completa.

Los clientes de Google Cloud pueden acceder a un 256 o 9,216 chips: cada chip individual ofrece un cómputo máximo de 4,614 TFLOPS-Configuración. Este último es una cápsula que tiene un total de 42.5 exafultos o: “Más de 24 veces la potencia informática de la supercomputadora más grande del mundo, El Capitan, que ofrece solo 1.7 exafultos por vaina”.

Anuncio – Desplácese por más contenido

Ironwood ofrece un rendimiento por vatio que es 2 veces en relación con el Trillium de sexta generación anunciado en 2024, así como 192 GB de memoria de alto ancho de banda por chip (6x Trillium).

Pathways es el tiempo de ejecución distribuido de Google que impulsa la infraestructura interna de capacitación a gran escala e inferencia de inferencia. Ahora está disponible para los clientes de Google Cloud.

Géminis 2.5 Flash

Gemini 2.5 Flash es el “modelo de caballo de batalla” de Google, donde se priorizan la baja latencia y el costo. Próximamente en Vertex AI, presenta “razonamiento dinámico y controlable”.

El modelo ajusta automáticamente el tiempo de procesamiento (‘Presupuesto de pensamiento’) en función de la complejidad de la consulta, lo que permite respuestas más rápidas para solicitudes simples. También obtiene control granular sobre este presupuesto, lo que permite un ajuste explícito de la velocidad, la precisión y el equilibrio de costos para sus necesidades específicas. Esta flexibilidad es clave para optimizar el rendimiento de flash en aplicaciones de alto volumen y sensibles a los costos

Ejemplo de los casos de uso de alto volumen incluyen servicio al cliente y procesamiento de información en tiempo real.

Modelos Gen AI

Google ahora está poniendo a disposición su modelo de texto a música de Lyria para clientes empresariales “en Vista previa con PENDInsist” en Vertex AI. Este modelo puede generar audio de alta fidelidad en una gama de géneros. Las empresas pueden usarlo para crear rápidamente las bandas sonoras que se adaptan a la “identidad única de la marca”. Otro uso es para la producción de video y el podcasting:

Lyria elimina estos obstáculos, lo que le permite generar pistas de música personalizadas en minutos, alineándose directamente con el estado de ánimo, ritmo y narrativa de su contenido. Esto puede ayudar a acelerar los flujos de trabajo de producción y reducir los costos de licencia.

El siguiente es un ejemplo de ejemplo: “Crea una melodía de Bebop de alto octanaje. Priorice el vertiginoso saxofón y solos de trompeta, intercambiando frases complejas a velocidad de rayo. El piano debe proporcionar un acompañamiento de percusión e acorde, con graves y tambores de fuego rápido que impulsan la energía frenética. El tono debería ser espaloroso e intenso. Capture el sentimiento de una noche, un club de fumas de fumar, fumando el club de virtud de los fumadores. improvisación.

Mientras tanto, VEO 2 está obteniendo capacidades de edición que le permiten alterar las imágenes existentes:

Incremisión: obtenga ediciones limpias y profesionales sin retocar manual. Puede eliminar imágenes de fondo, logotipos o distracciones no deseadas de sus videos, haciéndolas desaparecer sin problemas y perfectamente en cada cuadro, por lo que parece que nunca estuvieron allí. Externing: extienda el marco de las imágenes de video existentes, transformando el video tradicional en formatos optimizados para plataformas web y móviles. Esto ayuda a que sea fácil adaptar su contenido para varios tamaños de pantalla y relaciones de aspecto, por ejemplo, convertir el video de paisaje en retratos para cortos de redes sociales.

Del mismo modo, la edición de Imagen 3 presenta mejoras para la invención “para reconstruir porciones faltantes o dañadas de una imagen”, así como la eliminación de objetos.

Chirp 3 es el modelo de comprensión y generación de audio de Google. Ofrece “voces HD” con un discurso natural y realista en más de 35 idiomas con ocho opciones de altavoces. El aspecto comprensivo impulsa una nueva característica que “separa e identifica con precisión los altavoces individuales en las grabaciones de múltiples altavoces” para una mejor transcripción.

Otra nueva característica le permite a Chirp 3 “Generar voces personalizadas realistas a partir de 10 segundos de entrada de audio”.

Esto permite a las empresas personalizar los centros de llamadas, desarrollar contenido accesible y establecer voces de marca únicas, todo mientras mantiene una identidad de marca consistente. Para garantizar el uso responsable, la voz instantánea personalizada incluye características de seguridad incorporadas, y nuestro proceso de alquiler de alquiler implica una diligencia rigurosa para verificar los permisos de uso de voz adecuados.

En el frente de seguridad, “Synthid de Deepmind incrusta las marcas de agua invisibles en cada imagen, video y marco de audio que producen imagen, Veo y Lyria”.

FTC: Utilizamos ingresos que ganan enlaces de afiliados para automóviles. Más.

Belisario García1 semana agoLast Updated: 9 abril 2025