Curiosidades
OpenAI diz que seus modelos já rivalizam com humanos em diversas profissões

A OpenAI divulgou nesta quinta-feira (25) os resultados de um novo benchmark, batizado de GDPval, que mede o desempenho de sistemas de lucidez sintético em conferência a trabalhadores humanos de diferentes áreas. O objetivo, segundo a empresa, é prezar o quão próximos os modelos estão de executar tarefas de cocuruto valor econômico em nível semelhante ao de especialistas.
No levantamento, o GPT-5 e o Claude Opus 4.1 (da rival Anthropic) foram testados em 44 ocupações de nove setores estratégicos da economia dos Estados Unidos, porquê saúde, finanças, governo e manufatura. Profissionais experientes compararam relatórios produzidos por humanos e por IA — e, em segmento das vezes, deram a vitória às máquinas.
++ Escultura de Trump e Epstein de mãos dadas aparece em frente ao Capitólio, em Washington
Resultados
O GPT-5-high, versão mais potente do padrão, foi estimado porquê igual ou superior ao trabalho humano em 40,6% das situações. Já o Claude se saiu melhor: foi considerado equivalente ou superior em 49% dos casos.
A OpenAI pondera que a vantagem do Claude pode estar relacionada ao estilo de saída mais “deleitável”, com gráficos e apresentações muito formatadas, em vez de puro desempenho técnico. Mesmo assim, os números mostram um salto em relação ao GPT-4, que no mesmo tipo de teste havia apanhado unicamente 13,7%.
Limitações
Apesar do progressão, a própria empresa admite que o GDPval-v0 cobre um escopo restrito, centrado em tarefas de elaboração de relatórios. Na vida real, lembram os analistas, o trabalho humano envolve muito mais do que ortografar documentos — inclui interação, tomada de decisão em cenários ambíguos e habilidades práticas.
Ainda assim, a OpenAI vê progresso notável. “Esses resultados sugerem que profissionais podem usar os modelos de IA para otimizar seu tempo, delegando segmento das tarefas e se dedicando a atividades de maior valor”, disse o economista-chefe da empresa, Aaron Chatterji.
++ Anvisa responde a Trump e nega risco do paracetamol na gestação
O que vem pela frente
A equipe já planeja versões futuras do benchmark para estimar fluxos de trabalho mais amplos. A expectativa é que avaliações porquê o GDPval ganhem relevância, em um cenário onde outros benchmarks tradicionais (porquê o GPQA Diamond e o AIME) já estão saturados por diferentes modelos.
Enquanto isso, a disputa segue acirrada no Vale do Silício. Para além de métricas técnicas, o repto das empresas é provar que seus modelos não unicamente empatam em laboratório, mas podem de indumento superar humanos em tarefas reais do mercado — e com consistência.