Google presenta Gemini Embedding 2, su primera IA nativa multimodal

El fin de las barreras digitales: Google presenta Gemini Embedding 2, su primera IA nativa multimodal

Google ha marcado un hito en la evolucin de la inteligencia artificial con el lanzamiento de Gemini Embedding 2. Este modelo representa un cambio de paradigma: es la primera vez que una IA logra mapear texto, imgenes, video, audio y documentos (como PDFs) en un nico espacio semntico unificado, permitiendo que la mquina comprenda la relacin entre diferentes tipos de datos de forma natural y simultnea.

Unificacin de los sentidos digitales: A diferencia de modelos anteriores que necesitaban procesos separados para leer un texto o ver un video, Gemini Embedding 2 lo hace todo a la vez. Esto significa que puede procesar un documento que contenga grficas y texto, o un video con audio, capturando la esencia completa del contenido sin perder informacin en la traduccin de un formato a otro.
Capacidades tcnicas de nueva generacin:
- Video y Audio: Permite procesar hasta 120 segundos de video y audio nativo (sin necesidad de transcripcin previa), capturando matices tonales y movimientos.
- Documentos y Visuales: Admite PDFs de hasta 6 pginas y hasta 6 imgenes por solicitud, entendiendo la disposicin y el contexto visual de la informacin.
- Memoria Contextual: Cuenta con una ventana de contexto de 8,192 tokens, ideal para analizar documentos extensos con alta precisin.
Revolucin en las bsquedas semnticas: Esta tecnologa permitir que los sistemas de bsqueda sean mucho ms intuitivos. Por ejemplo, un usuario podra subir la foto de un motor y preguntar por texto sobre una pieza especfica; la IA entender ambos estmulos como un solo concepto para ofrecer una respuesta exacta, algo que antes requera mltiples capas de procesamiento.
Eficiencia y escalabilidad: Gracias a la arquitectura Matryoshka Representation Learning, el modelo es flexible. Los desarrolladores pueden ajustar el tamao de los vectores de salida (desde 128 hasta 3,072 dimensiones), permitiendo equilibrar la precisin con los costos de almacenamiento y velocidad de respuesta.

Con Gemini Embedding 2, Google no solo mejora una herramienta; est construyendo los cimientos para una nueva era de IA ambiental, donde las mquinas podrn interactuar con la informacin del mundo real de una manera mucho ms cercana a como lo hacemos los humanos.

Source link

Post Views: 118

Google presenta Gemini Embedding 2, su primera IA nativa multimodal – Red De Noticias

El fin de las barreras digitales: Google presenta Gemini Embedding 2, su primera IA nativa multimodal

Deja una respuesta Cancelar la respuesta