A OpenAI, empresa por trás do ChatGPT, anunciou nesta segunda-feira (25) em seu blog que está começando a implementar novas capacidades de voz e imagem no ChatGPT. Desse modo, a ideia é que o chatbot de AI proporcione uma interface mais intuitiva.
Nesse sentido, será possível ter uma conversa por voz, ou ainda mostrar ao ChatGPT uma imagem e perguntar sobre pontos específicos. Todavia, as funcionalidades ainda estão sendo lançadas para usuários Plus, e Enterprise nas próximas duas semanas.
Para acessar a funcionalidade por voz, é preciso ir para Configurações → Novos Recursos no aplicativo móvel e optar por conversas por voz. A nova capacidade de voz é alimentada por um novo modelo de texto para voz. Ele é capaz de gerar áudio semelhante ao humano a partir de apenas texto, e alguns segundos de amostra de fala.
Além disso, é possível agora mostrar ao ChatGPT uma ou mais imagens. Para começar, toque no botão de foto para capturar ou escolher uma imagem. O entendimento de imagem é alimentado por multimodal GPT-3.5 e GPT-4.
A nova tecnologia de voz é capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real. Nesse sentido, abrindo portas para muitas aplicações criativas e focadas em acessibilidade diz a empresa.
No entanto, a OpenAI alerta que as novas habilidades do ChatGPT também apresentam novos riscos, como o potencial para atores maliciosos se passarem por figuras públicas ou cometerem fraudes.
Além disso, o modelo é já é “fluente” em transcrever texto em inglês, mas tem desempenho ruim com alguns outros idiomas, especialmente aqueles com de origens não romanas como chinês.
$100 de bônus de boas vindas. Crie sua conta na melhor corretora de traders de criptomoedas. Acesse ByBit.com