Puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información
Google ha lanzado Gemini, su modelo de inteligencia artificial "más potente" y con el que la compañía pretende competir con OpenAI, creador de ChatGPT. Las acciones de Alphabet, matriz de la firma, han subido un 5,31% en Wall Street.
"Estamos dando el siguiente paso en nuestro viaje con Gemini, nuestro modelo de IA más capaz y general hasta el momento, con un rendimiento de última generación en muchos puntos de referencia líderes", ha señalado Sundar Pichai, director ejecutivo de Google y Alphabet.
La compañía ha explicado que Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google, incluida la plantilla de Google Research, y ha sido construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
La primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Gemini Ultra es el modelo más grande y capaz para tareas altamente complejas; Gemini Pro es el mejor modelo para escalar en una amplia gama de tareas; y Gemini Nano es el más eficiente para tareas en el dispositivo.
"Estos son los primeros modelos de la era Gemini y la primera realización de la visión que tuvimos cuando formamos Google DeepMind a principios de este año. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo", ha resaltado Pichai.
Google ha detallado que, desde la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático, el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM).
"Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar ambos mundos, conocimientos y habilidades para la resolución de problemas", ha dicho la tecnológica.
Gemini Ultra también logra una puntuación de vanguardia del 59,4 % en el nuevo punto de referencia MMMU, que consta de tareas multimodales que abarcan diferentes dominios que requieren un razonamiento deliberado.
Además, "las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información visual y escrita compleja. Esto lo hace especialmente hábil para descubrir conocimientos que pueden ser difíciles de discernir en medio de grandes cantidades de datos", han indicado.
Gemini 1.0 ha sido capacitado para reconocer y comprender texto, imágenes, audio y más al mismo tiempo, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en materias complejas como matemáticas y física.
Desde este miércoles, el chatbot de Google, Bard, utilizará Gemini Pro para ayudar con el razonamiento avanzado, la planificación, la comprensión y otras capacidades. A principios del próximo año, lanzará "Bard Advanced", que utilizará Gemini Ultra, y representa la mayor actualización de Bard, su chatbot similar a ChatGPT.
A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI. Los desarrolladores de Android, por su parte, podrán crear con Gemini Nano a través de AICore, una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro.