O Orquestrador Invisível: Como o ChatGPT 5 redefine a Reprodutibilidade Científica
- Rafael Cardoso Sampaio
- 19 de set.
- 8 min de leitura
Atualizado: há 4 dias
Depois de longa espera, o ChatGPT 5 chegou. Em vez da tão falada inteligência artificial geral (AGI), ele nos entregou um modelo mais inteligente e centralizador que agora decide qual é o modelo por debaixo do capô que irá realizar as tarefas. Se for algo simples, ele escolherá o modelo menor e mais rápido; se for algo complexo, ele escolherá os modelos que gastam mais tempo para executar a tarefa. Da mesma forma, será o modelo a escolher se irá buscar na internet ou não. Isso vem para corrigir um problema antigo da OpenAI que apresentava muitos modelos diferentes (4o, 04 mini-high, o3, 4.1, 4.1 mini etc.), o que apenas confundia a maioria dos usuários. Logo, é uma notícia boa, certo? É cedo para responder no geral, mas já podemos dizer que é uma péssima notícia do ponto de vista da pesquisa acadêmica.
Em alguns textos já venho discutindo alguns dos principais problemas que os grandes modelos de linguagem apresentam para a pesquisa científica que atacam diretamente a base da integridade acadêmica, notadamente em termos de transparência, confiabilidade e reprodutibilidade. Alguns memes na internet já evidenciam que, ao menos na geração de imagens, o GPT5 continua com pouca confiabilidade, sendo incapaz de gerar coisas simples como galerias de presidentes da República ou mesmo um simples alfabeto ilustrado… Aparentemente, o modelo de geração de imagens continua sendo o 4o, o que não conseguimos confirmar justamente pela falta de transparência da empresa, mas o ponto é que o problema persiste.

Mas aqui quero me deter à reprodutibilidade. Trata-se de um importante ponto da pesquisa científica. A premissa é simples: se usarmos os mesmos dados e métodos em condições semelhantes, devemos conseguir chegar a resultados idênticos ou, no mínimo, bastante similares, especialmente em contextos semelhantes. Este é provavelmente o pior problema ao usar os modelos de linguagem, pois quando usamos um software acadêmico tradicional, ele tem uma versão que podemos rastrear. Então, suponhamos que o SPSS tivesse mudado a forma como calcula uma regressão linear por avanços na estatística a partir da versão 32. Para reproduzir resultados anteriores, bastava baixarmos e usarmos um SPSS versão 31 ou anterior e não haveria problemas. Com os modelos de linguagem, essa rastreabilidade se perde completamente.
Como o lançamento do ChatGPT 5 prova, isso está longe de ser uma preocupação de seu fabricante. Se eu, por exemplo, receber um pedido de parecer de alguém que usou o GPT o3 para fazer uma análise temática qualitativa, eu terei de dizer que estou impedido de fazer, pois o modelo simplesmente não está mais disponível no site da OpenAI. Pior do que isso, os modelos de linguagem são frequentemente alterados e supostamente melhorados, e sua versão não se altera. Por exemplo, o ChatGPT 4o que estava disponível até o lançamento do GPT 5 não era o mesmo do dia do lançamento. O Gemini 2.5 Pro disponível já teve ao menos três melhorias. Talvez internamente eles já o tratem como Gemini 2.5.1.3 ou algo assim, mas se trata de uma informação que nós acadêmicos não possuímos.
Então, na mesma situação de dar um parecer ou tentar a reprodução de um estudo, eu não poderei alcançar meu objetivo. Mesmo que amanhã a OpenAI volte atrás e torne seus modelos antigos disponíveis novamente, isso ainda expõe o problema. Por exemplo, há bastante tempo não temos acesso à versão 3.5 ou 4 do GPT. Elas podem estar disponíveis em alguma API de outros sites, mas não estão acessíveis de forma fácil e recuperável como os softwares acadêmicos.
Tal questão deve inclusive ser levantada no caso de softwares acadêmicos que cederam à pressão ou hype e embutiram IAs em suas análises, como é o caso do trio de softwares mais usados para análise qualitativa, nomeadamente NVivo, Atlas.ti e MAXQDA. Os três agora apresentam funcionalidades de resumo e classificações automáticas com IA generativa e os três, no atual momento, rodam em cima do modelo do GPT. Não sabemos qual modelo exatamente. Com o sumiço dos modelos antigos, o mais provável é que estejam usando o GPT 5. Então, teremos uma situação interessante. Podemos estar usando a mesma versão de um MAXQDA, mas termos resultados relativamente diferentes da IA, porque o modelo de fundo foi atualizado. Novamente, é uma questão sobre a qual os pesquisadores não terão controle.
Agora, vale o questionamento. Como estávamos anteriormente? Bem, a situação não era a melhor, já que há alguns anos se fala de uma crise de replicação, na qual diversas áreas notaram que muitos estudos publicados e bastante citados não eram replicáveis. A título de exemplo, a Iniciativa Brasileira de Reprodutibilidade revisou 60 estudos biomédicos e obteve taxa média de replicabilidade entre 15 e 45%, dependendo do critério utilizado. Além disso, os efeitos relativos de experimentos foram 60% maiores nos estudos originais e os coeficientes de variação foram 60% menores. Isso sugere que os resultados originais tendem a superestimar efeitos e subestimar variabilidade.
Para além disso, como bem elaborado por um dos integrantes da rede, Olavo Amaral, há bastante opacidade na base do fazer científico. Ele cita o exemplo das raspagens da internet. Na prática, ninguém entende perfeitamente como elas acontecem ou o que está sendo recuperado. Podemos citar o Google Scholar, que também é bastante opaco na maneira como faz a sua indexação e suas buscas não são reprodutíveis. Outro exemplo são os próprios softwares qualitativos que há tempo já produziam análises automatizadas de conteúdo, que já eram baseadas em modelos de inteligência artificial de processamento de linguagem natural e não havia um questionamento a isso.
Da mesma forma, havia opacidade em qualquer software acadêmico. No uso cotidiano, não sabemos exatamente como o SPSS ou o Stata fazem seus cálculos. Apesar de documentado, apenas assumimos que as empresas estão seguindo as boas práticas e acreditamos em seus resultados. Teríamos então uma legitimidade acadêmica que vem da instituição? O Nvivo ou o Stata são softwares acadêmicos, portanto são mais confiáveis que a OpenAI? Então, a legitimidade está nas empresas?
Então, nada mudou?
A ciência de fato já convivia com problemas de opacidade e reprodutibilidade. A situação atual, contudo, representa uma alteração qualitativa do problema. A mudança se manifesta em, pelo menos, três eixos que foram aprofundados pelos seus acréscimos.
O primeiro eixo é a passagem de uma opacidade estática para uma dinâmica. Softwares tradicionais, como o SPSS, funcionavam dentro de versões específicas e imutáveis. Um algoritmo no SPSS 31 executaria a mesma operação hoje e daqui a dois anos. A confiança residia na estabilidade do processo. Agora, o rótulo de um modelo, como "GPT-4o", corresponde a um serviço fluido, não a um produto estático. O modelo é ajustado continuamente sem aviso, o que significa que a metodologia descrita em um artigo científico já nasce obsoleta. A irreprodutibilidade deixa de ser um defeito ocasional para se tornar uma característica estrutural e inerente ao design do sistema.
O segundo eixo é a mudança na arquitetura de poder, com a externalização do controle metodológico. Software como NVivo e MAXQDA, ao integrarem APIs de IA generativa, transferem a responsabilidade pela estabilidade da análise para um terceiro (OpenAI, Google). A reprodutibilidade passa a depender da política comercial de uma empresa de tecnologia.
O modelo do GPT-5 aprofunda isso ao atuar como um orquestrador. Ele se torna uma plataforma de decisão que escolhe internamente qual sub-modelo ou ferramenta usar para cada tarefa. Essa camada extra de abstração introduz uma variância oculta: a mesma consulta pode gerar resultados diferentes não por erro, mas porque a plataforma acionou rotas computacionais distintas devido a fatores invisíveis ao usuário (carga do sistema, custos etc.). O pesquisador passa do uso de uma ferramenta para a dependência de uma plataforma, o que altera a relação fundamental com o método.
O terceiro eixo é a consequência final dessas mudanças. A comunidade científica não enfrenta mais apenas uma crise de reprodutibilidade, mas uma crise de controle metodológico. O problema não é somente a dificuldade de replicar um resultado, mas a incapacidade do pesquisador de conhecer e garantir a estabilidade da ferramenta que utiliza.
Se a plataforma pode, sem transparência, decidir quando e como buscar a web, quais submodelos acionar, que filtros aplicar e com que parâmetros, o pesquisador perde a capacidade de descrever o procedimento de forma suficiente para que alguém mais o repita. Sem um diário de bordo exportável, a reprodutibilidade se converte em loteria. É tentador, nesse contexto, substituir método por marca, escrevendo “obtivemos os resultados com GPT-5”, como se isso fosse especificação o suficiente. Não é. É abdicação.
Essa situação corre o risco de naturalizar uma norma de irreprodutibilidade tolerada, na qual artigos descrevem objetivos em vez de procedimentos auditáveis. A resposta a isso exige a criação de novos padrões de rigor pela comunidade científica. A exigência de um "diário de bordo" (trace audit) que documente as rotas internas tomadas pelo modelo, a disponibilização de versões "congeladas" (frozen models) para fins de replicação e a documentação exaustiva dos prompts e artifacts gerados são contrapesos necessários. Coisas que ainda não estão disponíveis em modelos comerciais de IA.
Isso não significa que tenhamos voltado ao “período das cavernas” da ciência. Significa, sim, que precisamos estabelecer regras mínimas claras para o uso de inteligência artificial generativa na pesquisa. A primeira é tratar a execução do trabalho com IA como parte dos próprios dados de pesquisa: registrar e arquivar os prompts utilizados, mensagens do sistema, data e hora exatas, parâmetros configurados (como temperatura e limites de tokens), arquivos de contexto e todo o histórico da interação.
A segunda é descrever de forma explícita como o sistema foi configurado: se a escolha do modelo foi automática, se a navegação na internet estava ativada e quais serviços externos foram utilizados. Caso a plataforma não forneça esse nível de registro, essa limitação precisa ser informada no corpo do artigo, e não apenas em notas de rodapé.
A terceira é verificar resultados importantes também com modelos mais estáveis e abertos, mesmo que menos avançados, para ter uma referência comparativa e facilitar uma validação cruzada. Ao testar os mesmos fenômenos ou hipóteses em diferentes arquiteturas e com diferentes conjuntos de dados (mesmo que menos avançados), podemos identificar a robustez e a generalização dos resultados. Se um resultado é replicável ou observável em modelos distintos, isso aumenta significativamente a confiança em sua validade, mitigando o risco de que os resultados sejam meramente artefatos de um modelo específico ou de um processo de treinamento particular.
A quarta é reconhecer que, quando o método depende de um serviço em constante mudança, só é possível esperar a repetição exata dos resultados dentro de um período curto de tempo; depois disso, a comparação deve ser feita de forma conceitual, usando indicadores de similaridade ou pela validação cruzada sugerida acima.
Ainda assim, essas medidas não resolvem o principal problema: a falta de alinhamento entre os interesses das empresas que oferecem esses sistemas e as necessidades da ciência. Por isso, é fundamental desenvolver alternativas abertas e públicas, que possam rodar em ambientes controlados, mesmo que com menor capacidade, para evitar que o método científico dependa totalmente das big techs.
Em suma, algo mudou. Saímos de um regime onde a replicação era difícil na prática para um onde ela é impossível por princípio. O ganho em usabilidade para o público geral foi pago com a perda de controle metodológico para a ciência. A pergunta, então, se transforma de "nada mudou?" para "como a comunidade científica irá se adaptar para garantir a integridade da pesquisa neste novo regime?"
Leia aqui a versão no jornal Nexo.
Mais sobre o autor
Rafael Cardoso Sampaio é professor de Ciência Política da Universidade Federal do Paraná (UFPR) e diretor de pesquisa da Associação Brasileira de Ciência Política (ABCP)