O CEO do Google e da Alphabet, Sundar Pichai, anunciou o Gemini, o modelo de Inteligência artificial (IA) mais capaz e geral da empresa até o momento. Segundo a empresa, o desempenho é de última geração em muitos benchmarks líderes. Não somente contra ele mesmo, mas também em comparação com seu rival, ChatGPT da OpenAI.
Desse modo, o Gemini 1.0, a primeira versão, é otimizado para diferentes tamanhos: Ultra, Pro e Nano. Estes são os primeiros modelos da era Gemini e a primeira realização da visão que a empresa tinha quando formou o Google DeepMind no início deste ano.
Demis Hassabis, CEO e Co-Fundador do Google DeepMind, apresentou o Gemini como o modelo mais capaz e geral já construído pela empresa. O Gemini é anunciado como um resultado de esforços colaborativos em larga escala por equipes do Google, incluindo colegas do Google Research.
Funções e capacidades
Ele foi construído desde o início para ser multimodal. O que significa que pode gerar e entender, operar e combinar diferentes tipos de informações, incluindo texto, código, áudio, imagem e vídeo.
Portanto, o Gemini também é o modelo mais flexível da empresa até o momento, capaz de funcionar eficientemente em tudo, desde data centers até dispositivos móveis. Suas capacidades de última geração aprimorarão significativamente a maneira como desenvolvedores e clientes corporativos constroem e escalonam com a IA.
O Gemini 1.0 foi treinado para reconhecer e entender texto, imagens, áudio e mais ao mesmo tempo, tornando-o especialmente bom em explicar raciocínios em assuntos complexos como matemática e física. Além disso, a primeira versão do chatbot pode entender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares, como Python, Java, C++ e Go.
Modelos do Gemini
O chatbot está sendo implementado em uma variedade de produtos e plataformas do Google. A partir de 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro. O acesso será por meio da API Gemini no Google AI Studio ou no Google Cloud Vertex AI.
Dessse modo, desenvolvedores de Android também poderão construir com a versão Nano, o modelo mais eficiente da empresa para tarefas em dispositivos, por meio do AICore, uma nova capacidade do sistema disponível no Android 14, começando com dispositivos Pixel 8 Pro.
O Gemini Ultra, a versão mais avançada, está atualmente passando por verificações de confiança e segurança. Por exemplo, partes externas confiáveis realizam red-teaming, e disponibilizarão o Gemini para clientes selecionados, desenvolvedores, parceiros e especialistas em segurança e responsabilidade para experimentação e feedback iniciais, antes de torná-lo disponível para desenvolvedores e clientes corporativos no início do próximo ano.
Métricas do Gemini contra o GPT-4
Na comparação entre o Gemini e o GPT-4 nas áreas de General Reasoning e Math, o Google divulga resultados interessantes que destacam as capacidades de ambos os modelos de inteligência artificial. Porém, não são tão distintos entre si.
No benchmark de General Reasoning, especificamente no teste MMLU (Massive Multitask Language Understanding), o chatbot da Google supera o GPT-4. O Gemini alcança uma pontuação de 90.0%, enquanto o GPT-4 registra 86.4% com uma abordagem de 5 shots.
Isso indica que o Gemini tem uma capacidade ligeiramente superior de compreender e responder a perguntas em uma ampla gama de assuntos. Incluindo STEM e humanidades. Na área de Math, os modelos são testados em sua habilidade de manipulação aritmética básica e resolução de problemas matemáticos mais desafiadores.
No benchmark GSM8K, que envolve manipulações aritméticas básicas. Incluindo problemas matemáticos de nível escolar, o Gemini novamente se destaca com uma pontuação de 94.4% (maj1@32), comparado aos 92.0% do GPT-4 (5-shot CoT reported).
Portanto, isso sugere que o chatbot da Google tem uma habilidade superior em realizar operações aritméticas básicas e resolver problemas matemáticos de nível escolar. Em problemas matemáticos mais desafiadores, representados pelo benchmark MATH, que inclui álgebra, geometria, pré-cálculo e outros, ambos os modelos apresentam desempenhos comparáveis.
O Gemini atinge 53.2% (4-shot), enquanto o GPT-4 marca 52.9% (4-shot API). Esses resultados mostram que ambos os modelos têm capacidades semelhantes em lidar com problemas matemáticos complexos, com uma ligeira vantagem para o Gemini.
$100 de bônus de boas vindas. Crie sua conta na melhor corretora de traders de criptomoedas. Acesse ByBit.com