Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 1
INTELIGÊNCIA ARTIFICIAL NA ANÁLISE DE DADOS QUANTITATIVOS DE
PESQUISA EDUCACIONAL: CONFIABILIDADE DO DATA ANALYST GPT
(CHATGPT) COMPARADO AO SPSS E JAMOVI
INTELIGENCIA ARTIFICIAL EN EL ANÁLISIS DE DATOS CUANTITATIVOS DE
INVESTIGACIÓN EDUCATIVA: CONFIABILIDAD DE DATA ANALYST GPT
(CHATGPT) COMPARADO CON SPSS Y JAMOVI
ARTIFICIAL INTELLIGENCE IN THE ANALYSIS OF EDUCATIONAL RESEARCH
QUANTITATIVE DATA: RELIABILITY OF DATA ANALYST GPT (CHATGPT)
COMPARED TO SPSS AND JAMOVI
Cassio SANTOS1
e-mail: cassiosantos@ie.ulisboa.pt
Como referenciar este artigo:
SANTOS, C. Inteligência Artificial na Análise de Dados
Quantitativos de Pesquisa Educacional: Confiabilidade do Data
Analyst GPT (ChatGPT) comparado ao SPSS e JAMOVI.
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n.
00, e024013, 2024. e-ISSN: 2236-0441. DOI:
https://doi.org/10.32930/nuances.v35i00.10682
| Submetido em: 20/06/2024
| Revisões requeridas em: 15/07/2024
| Aprovado em: 12/08/2024
| Publicado em: 11/10/2024
Editores:
Profa. Dra. Rosiane de Fátima Ponce
Prof. Dr. Paulo César de Almeida Raboni
Editor Adjunto Executivo:
Prof. Dr. José Anderson Santos Cruz
1
Unidade de Investigação e Desenvolvimento em Educação e Formação (UIDEF), Instituto de Educação (IE),
Universidade de Lisboa (ULisboa), Lisboa Portugal. Professor e Pesquisador.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 2
RESUMO: A incorporação da Inteligência Artificial (IA) no cenário educacional e de pesquisa
marca uma era transformadora, oferecendo oportunidades sem precedentes para aprimorar a
forma como aprendemos e realizamos pesquisas. Este artigo explora o potencial do modelo de
linguagem baseado em IA, Data Analyst GPT, desenvolvido pela OpenAI, como uma
ferramenta confiável para realizar análises de dados quantitativos. A metodologia envolveu o
uso do Data Analyst GPT e de dois softwares estatísticos padrão, SPSS e JAMOVI, para realizar
uma análise estatística completa em um conjunto de dados educacionais pico, abrangendo
vários testes estatísticos padrão, como testes de normalidade, análise de correlação (Pearson e
Spearman), análise de variáveis categóricas e testes de comparação de médias (teste t, ANOVA,
Tukey, Mann-Whitney U e Kruskal-Wallis), e seus resultados foram comparados.
PALAVRAS-CHAVE: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Inteligência Artificial
(IA).
RESUMEN: La incorporación de la Inteligencia Artificial (IA) en el ámbito educativo y de
investigación marca una era transformadora, ofreciendo oportunidades sin precedentes para
mejorar la forma en que aprendemos y realizamos investigaciones. Este artículo explora el
potencial del modelo de lenguaje basado en IA, Data Analyst GPT, desarrollado por OpenAI,
como una herramienta confiable para llevar a cabo análisis de datos cuantitativos. La
metodología involucró el uso de Data Analyst GPT y dos softwares estadísticos estándar, SPSS
y JAMOVI, para realizar un análisis estadístico completo en un conjunto de datos educativos
típico, abarcando varias pruebas estadísticas estándar, como pruebas de normalidad, análisis
de correlación (Pearson y Spearman), análisis de variables categóricas y pruebas de
comparación de medias (prueba t, ANOVA, Tukey, Mann-Whitney U y Kruskal-Wallis), y sus
resultados fueron comparados. Los resultados demuestran una consistencia comparable a la
de los software estadísticos estándar.
PALABRAS CLAVE: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Inteligencia Artificial
(IA).
ABSTRACT: The integration of Artificial Intelligence (AI) into the educational and research
landscape marks a transformative era, offering unparalleled opportunities for enhancing the
way earn and conduct research. This article explores the potential of the AI-based language
model, Data Analyst GPT, developed by OpenAI, as a reliable tool for conducting quantitative
data analysis. The methodology involved employing Data Analyst GPT and two standard
statistical software packages, SPSS and JAMOVI, to conduct an end-to-end statistical analysis
on a typical educational data set, covering several standard statistical tests such as normality,
correlation analysis (Pearson's and Spearman's), Categorical Variables Analysis, and mean
comparison tests (Test t, ANOVA, Tukey, Mann-Whitney U and Kruskal-Wallis), and their
results were compared. The results demonstrate a consistency comparable to that of standard
statistical software.
KEYWORDS: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Artificial Intelligence (AI).
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 3
Introdução
A Inteligência Artificial (IA) ocupa atualmente uma posição central em diversos setores
da sociedade, com partes interessadas dedicadas à elaboração de diretrizes focadas na ética
(Comissão Europeia, 2019; UNESCO, 2021), na responsabilidade em pesquisa (Comissão
Europeia, 2024) e em estratégias educacionais voltadas para educadores (Comissão Europeia,
2022). Instituições de ensino superior, como a Universidade de Stanford (2021), têm
contribuído para esse debate, desenvolvendo guias abrangentes. Grandes organizações têm
publicado orientações para o uso ético da IA, sinalizando um esforço coordenado para a
integração responsável da IA em escala global (European Commission, 2019; UNESCO, 2021).
A UNESCO manifestou preocupação com a utilização da IA no ensino superior,
abordando desde o desenvolvimento de Guias de Início Rápido (UNESCO, 2023a) até questões
mais específicas, como o uso do ChatGPT, além de tópicos mais amplos para auxiliar as partes
interessadas no melhor uso da IA (UNESCO, 2023b). Ademais, destacam-se iniciativas
voltadas para a criação de estruturas focadas em competências relacionadas à IA(Ehlers et al.,
2023). No contexto europeu, marcos importantes incluem a aprovação, pela Comissão
Europeia, das primeiras diretrizes globais para o uso da IA (Comissão Europeia, 2021) e a
formulação das Diretrizes Éticas para IA Confiável (Comissão Europeia, 2019).
A evolução da série Generative Pre-Trained Transformer (GPT), desenvolvida pela
OpenAI, começou em 2018 com o lançamento inaugural, seguido pelo modelo GPT-3, em
2020, que representou um avanço significativo nas capacidades da IA. Aproveitando a base
estabelecida pelo GPT-3, o ChatGPT foi lançado em 2022, com foco específico na IA
conversacional e em aplicações de chatbot (Li et al., 2024; Singh-Harjit, Singh-Avneet, 2023).
A relação entre IA, Aprendizado de quina (ML), Aprendizado Profundo (DL),
Modelos de Linguagem de Grande Escala (LLM) e GPT é estruturada de maneira hierárquica
e especializada. O ML (Lary et al., 2016) fornece a estrutura geral para a aprendizagem a partir
de dados; o DL (Alzubaidi et al., 2021) oferece técnicas avançadas para aprendizado a partir de
conjuntos de dados complexos e de alta dimensionalidade; os LLM (Chang, 2023; Fan et al.,
2023; Li et al., 2024; Naveed et al., 2023) processam e geram linguagem natural em grande
escala, facilitando a interação natural entre humanos e computadores; e o GPT, que utiliza DL
e LLM, oferece aos usuários respostas coerentes e contextualmente relevantes para suas
perguntas (Gimpel et al., 2023). O GPT Data Analyst é uma versão personalizada do ChatGPT,
otimizada para análise de dados. A Figura 1 ilustra essa hierarquia de especialização.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 4
Figura 1 - Hierarquia e Especialização da Inteligência Artificial
Fonte: Elaborado pelo autor (2024).
A implementação da Inteligência Artificial (IA) na educação teve um impacto
significativo, refletido nas melhorias da eficiência do processo educacional, na promoção do
aprendizado global, na personalização do ensino, na criação de conteúdo mais inteligente e na
otimização da gestão educacional em termos de eficácia e eficiência (Montenegro-Rueda et al.,
2023). A relação entre IA e pesquisa no ensino superior é dual: “A primeira está relacionada à
pesquisa sobre IA, enquanto a segunda trata da pesquisa utilizando ou apoiada por ferramentas
de IA” (UNESCO, 2023b, p. 38, tradução nossa). A IA é capaz de processar grandes volumes
de dados (Gimpel et al., 2023), aprender automaticamente a identificar padrões complexos e
tendências ocultas, além de apresentar flexibilidade para se adaptar a diferentes tipos de dados
e contextos de pesquisa. Portanto, pode aprimorar a compreensão e a interpretação de dados
quantitativos no campo da educação.
A literatura acadêmica contém uma vasta quantidade de pesquisas focadas no uso da IA
na Educação (Al-Ghonmein, Al-Moghrabi, 2024; Crawford et al., 2024; Ding et al., 2023; Jia,
Tu, 2024). No entanto, os estudos que exploram o potencial dessa tecnologia na análise de
dados ainda são relativamente escassos (Huang et al., 2024; Mohammadi, Nguyen, 2024; Sufi,
2024; Walter, 2024).
Seguindo as diretrizes estabelecidas no documento “Diretrizes Vivas sobre o Uso
Responsável da IA Generativa em Pesquisa” (Comissão Europeia, 2024), é crucial ressaltar a
importância da responsabilidade e integridade por parte dos pesquisadores em relação à
produção científica apoiada por IA. Esse documento enfatiza que os pesquisadores devem ser,
em última instância, responsáveis pelo conteúdo científico gerado ou apoiado por ferramentas
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 5
de IA, adotando uma postura crítica e cientes das limitações inerentes à IA generativa, como
vieses e imprecisões.
A transparência no uso dessas ferramentas de IA é um ponto-chave destacado nas
diretrizes de pesquisa (Comissão Europeia, 2024). Recomenda-se que os pesquisadores
descrevam quais ferramentas de IA generativa foram utilizadas em seus processos de pesquisa,
incluindo informações como nome, versão e data da ferramenta, além de como ela influenciou
o processo de pesquisa. A documentação adequada de insumos (prompts) e resultados, sempre
que relevante, é incentivada para promover a abertura e a replicabilidade da pesquisa. Por fim,
as diretrizes encorajam os pesquisadores a se engajarem em aprendizado contínuo sobre o uso
adequado das ferramentas de IA generativa. Dado o rápido desenvolvimento dessas tecnologias
e o surgimento constante de novas aplicações, é fundamental que os pesquisadores se
mantenham atualizados sobre as melhores práticas, participem de treinamentos e compartilhem
conhecimento com colegas e outras partes interessadas, a fim de maximizar os benefícios dessas
ferramentas avançadas para a pesquisa.
Diversas instituições expressaram preocupações sobre privacidade, confidencialidade e
direitos de propriedade intelectual, seja pelo fato de que “modelos como o ChatGPT são opacos
em relação ao conjunto de dados utilizado para treiná-los” (UNESCO, 2021, p. 7) ou ao
compartilhar informações sensíveis ou protegidas com ferramentas de IA, em que “os
pesquisadores devem estar atentos ao fato de que os dados ou entradas geradas ou carregadas
(texto, dados, prompts, imagens, etc.) podem ser utilizadas para outros fins, como o treinamento
de modelos de IA” (Comissão Europeia, 2024, p. 6).
A pesquisa demonstra que o ChatGPT pode auxiliar na análise e síntese de
grandes conjuntos de dados, facilitando a identificação rápida e eficaz de
padrões e insights que seriam difíceis de descobrir manualmente. Além disso,
o modelo pode ser utilizado para gerar propostas de pesquisa, revisões de
literatura e outros documentos relacionados à pesquisa (Atlas, 2023, p. 24).
Este artigo tem como objetivo investigar a confiabilidade do Data Analyst GPT, a versão
personalizada e otimizada do ChatGPT-4 para análise de dados, proporcionando uma interface
conversacional inteligente e versátil para a análise de dados de pesquisa quantitativa. O
desempenho do Data Analyst GPT será comparado ao obtido com o uso de dois pacotes de
software estatístico padrão, SPSS e JAMOVI.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 6
Metodologia
Esta seção detalha os procedimentos do estudo, apresentando o Data Analyst GPT e o
software de benchmark. No Data Analyst GPT, foram desenvolvidos prompts personalizados
para executar os cálculos, enquanto os testes do SPSS e JAMOVI foram conduzidos de acordo
com os procedimentos descritos em seus respectivos manuais de suporte
Data Analyst GPT
Os testes baseados em IA foram realizados utilizando o Data Analyst GPT, versão do
ChatGPT otimizada para análise de dados, com o plano de assinatura Plus. No ChatGPT, o
Data AnalystGPT é acessado por meio da seção “Explorar GPTs”, onde um arquivo Excel
(*xlsx) contendo o conjunto de dados a ser analisado pode ser enviado. No momento da redação
deste texto, o modelo GPT-4 era o mais avançado da série GPT.
Software estatístico padrão como benchmark
Dois pacotes de software estatístico padrão foram selecionados para serem utilizados
como benchmark: o SPSS (versão 29.0.2.0 [20]) e o JAMOVI (versão 2.3.21.0), ambos
operando em um sistema Mac OS. O SPSS é um software estatístico amplamente utilizado que
permite diversos tipos de análises, transformações e formas de saída (Alili; Krstev, 2019). O
JAMOVI
2
(R Core Team, 2021; The Jamovi Project, 2022) é um software estatístico gratuito e
de código aberto, que foi adotado pela comunidade de pesquisa devido à sua facilidade de uso
e à ampla gama de funções estatísticas, abrangendo desde análises básicas até técnicas
multivariadas e univariadas avançadas (Algthami, Hussin, 2022; Marek et al., 2023).
Conjunto de dados
Este artigo é baseado em pesquisas publicadas. O conjunto de dados original foi
adaptado, e novas variáveis foram adicionadas para abranger uma gama mais ampla de testes
estatísticos necessários para verificar a confiabilidade do Data Analyst GPT. O conjunto de
dados contém uma variedade de variáveis, permitindo o teste de diferentes hipóteses e cenários.
2
Disponível em: https://www.jamovi.org/about.html. Acesso em: 15 set. 2024.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 7
Testes Estatísticos
Este artigo aborda os testes estatísticos mais utilizados na pesquisa educacional,
incluindo testes de normalidade, análise de correlação, análise de variáveis categóricas e testes
de comparação de médias.
Normalidade
Duas abordagens complementares foram empregadas para avaliar a normalidade da
distribuição dos dados: a análise estatística de Shapiro-Wilk e a inspeção visual da distribuição
dos dados por meio de análises gráficas, como boxplots e histogramas. Essas abordagens
proporcionam uma avaliação robusta da normalidade, permitindo a identificação visual de
assimetrias, valores atípicos e a forma geral da distribuição. Ambas as análises foram realizadas
nas variáveis “points_1” e “points_2”.
O teste de Shapiro-Wilk foi utilizado para comparar os dados de uma amostra com um
conjunto de dados que segue uma distribuição normal, ou seja, com a mesma média e desvio
padrão. Neste teste, resultados não significativos (p > 0,05) indicam que a distribuição dos
dados da amostra não difere de uma distribuição normal, sugerindo que os dados seguem uma
distribuição normal. Por outro lado, um resultado significativo (p < 0,05) indica que a
distribuição dos dados é diferente de uma distribuição normal (Dancey; Reidy, 2020; Field,
2024).
A abordagem visual permite que pesquisadores e analistas realizem uma inspeção
detalhada e intuitiva da distribuição dos dados, facilitando a identificação de características
importantes, como assimetria e curtose. Por meio do uso de gráficos específicos, como boxplots
e histogramas, é possível observar padrões, tendências e desvios que podem não ser evidentes
por métodos puramente numéricos ou estatísticos (Field, 2024).
Um boxplot é uma representação gráfica eficaz que destaca as características essenciais
de um conjunto de dados, sendo especialmente útil quando os dados se ajustam a uma
distribuição normal. Em seu centro, encontra-se a “mediana”, elegantemente contida dentro de
uma caixa. Os limites superior e inferior dessa caixa representam os quartis superior e inferior,
respectivamente, demarcando a amplitude interquartil que abrange os 50% centrais dos pontos
de dados. A partir da caixa, “bigodes” se estendem até os pontos de dados mais altos e mais
baixos, delineando a dispersão geral dos dados. Da mesma forma, um histograma serve como
uma ferramenta gráfica que retrata a distribuição de frequência de um conjunto de dados. Ele
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 8
facilita a visualização da distribuição, ilustrando a frequência de ocorrência de cada valor. Essa
visualização é alcançada ao segmentar o conjunto de dados em intervalos definidos, ou “bins”,
e contabilizar as observações dentro destes. Esses bins são projetados para serem sequenciais,
distintos e uniformes em tamanho (Field, 2024).
Prompt no Data Analyst GPT: “É necessário realizar um teste de Shapiro-Wilk na
coluna de dados 'point_1', com os resultados apresentados em uma tabela no formato APA. A
tabela deve incluir o valor do teste estatístico, o valor de p (arredondado para três casas
decimais) e os graus de liberdade. Além disso, solicito a geração de um boxplot e de um
histograma para a coluna 'points_1', com o objetivo de avaliar visualmente sua distribuição”.
Prompt no Data Analyst GPT: “É necessário realizar um teste de Shapiro-Wilk na
coluna de dados 'point_2', com os resultados apresentados em uma tabela no formato APA. A
tabela deve incluir o valor do teste estatístico, o valor de p (arredondado para três casas
decimais) e os graus de liberdade. Além disso, solicito a geração de um boxplot e de um
histograma para a coluna 'points_2', com o objetivo de avaliar visualmente sua distribuição”.
Análise de Correlação
Foram empregados os testes de Spearman e Pearson para analisar as correlações entre
as variáveis “points_1” e “number_of_devices”.
Os testes de correlação são usados para avaliar a força e a direção da associação entre
duas variáveis quantitativas. O teste de correlação de Spearman, também conhecido como rho
(ρ), é utilizado em situações onde os dados não atendem aos pressupostos de normalidade ou
em casos de variáveis ordinais, fornecendo uma medida robusta de correlação sem assumir uma
relação linear específica. Em contrapartida, a correlação de Pearson, representada pelo símbolo
r, é indicada para dados com distribuição normal e uma relação linear, sendo uma medida da
força e direção dessa linearidade. Ambos os testes variam entre -1 e 1, indicando uma forte
relação linear quando os valores se aproximam de -1 ou 1, seja negativa ou positiva,
respectivamente (Dancey; Reidy, 2020; Field, 2024).
Coeficiente de Spearman na variável “points_1”:
Prompt no Data Analyst GPT: É necessário calcular o coeficiente de Spearman entre
a coluna de dados 'points_1' e a coluna de dados 'number_of_devices', com os resultados
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 9
apresentados em uma tabela no formato APA. A tabela deve incluir o valor do teste estatístico
e o valor de p (arredondado para três casas decimais)”.
Coeficiente de Pearson na variável “points_2”:
Prompt no Data Analyst GPT: “É necessário calcular o coeficiente de Pearson entre a
coluna de dados 'points_2' e a coluna de dados 'number_of_devices', com os resultados
apresentados em uma tabela no formato APA. A tabela deve incluir o valor do teste estatístico
e o valor de p (arredondado para três casas decimais).
Análise de Variáveis Categóricas
Foi utilizado o teste Qui-quadrado nas variáveis categóricas 'proficiency_level' e
'situation' para verificar a independência entre elas. O teste Qui-quadrado é uma ferramenta
estatística utilizada para comparar as frequências observadas com as frequências esperadas em
diferentes categorias de uma variável categórica. Esse teste auxilia na determinação de
diferenças significativas entre as categorias, verificando se as frequências observadas se
desviam significativamente das esperadas ao acaso. O teste é amplamente utilizado em
pesquisas para testar hipóteses sobre a associação ou independência entre categóricas(Dancey;
Reidy, 2020; Field, 2024).
Prompt no Data Analyst GPT: É necessário realizar um teste Qui-quadrado entre a
coluna de dados 'proficiency_level' e a coluna de dados 'situation', com os resultados
apresentados em uma tabela no formato APA. A tabela deve incluir o valor do teste estatístico,
o valor de p (arredondado para três casas decimais) e os graus de liberdade”.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 10
Testes de Comparação de Médias
Fatores com dois grupos
Para analisar o conjunto de dados com fatores que possuem dois grupos, foram aplicados
o teste U de Mann-Whitney para variáveis não paramétricas e o teste t para variáveis
paramétricas. O teste t para amostras independentes baseia-se na suposição de que as
populações das quais as amostras são extraídas apresentam distribuições normais com
variâncias iguais. Esse teste é amplamente reconhecido pela sua rigorosidade na comparação
de médias (Dancey; Reidy, 2020; Field, 2024). Em contrapartida, o teste U de Mann-Whitney,
que não pressupõe normalidade ou igualdade de variâncias entre os grupos, é utilizado para
dados que não satisfazem os pressupostos paramétricos (Dancey; Reidy, 2020; Field, 2024).
Teste Mann-Whitney U na variável “point_1”
O seguinte prompt foi solicitado ao Data Analyst GPT: Realize o teste U de Mann-
Whitney na coluna de dados 'points_1', comparando a variável 'gender', onde 0 corresponde a
Masculino e 2 a Feminino. Os resultados devem ser apresentados em uma tabela de dados no
formato APA, incluindo o valor do teste estatístico e o valor de p, arredondado para três casas
decimais”.
Teste t na variável “point_2”
O seguinte prompt foi solicitado ao Data Analyst GPT: “Realize o teste t na coluna de
dados 'points_2', comparando a variável 'gender', onde 0 corresponde a Masculino e 2 a
Feminino. Os resultados devem ser apresentados em uma tabela de dados no formato APA,
incluindo o valor do teste estatístico, o valor de p (arredondado para três casas decimais) e os
graus de liberdade”.
Mais de dois grupos
Quando mais de dois grupos, é utilizado o teste de Kruskal-Wallis para variáveis
não paramétricas e a Análise de Variância (ANOVA) para variáveis paramétricas. O teste de
Kruskal-Wallis é uma alternativa não paramétrica ao ANOVA de uma via e é empregado
quando os pressupostos de normalidade não são atendidos. Esse teste avalia se as medianas dos
rankings entre dois ou mais grupos diferem significativamente entre si. A ANOVA, por sua
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 11
vez, é usada para comparar as médias entre três ou mais grupos, assumindo normalidade e
homogeneidade de variâncias (Dancey; Reidy, 2020; Field, 2024).
Quando a ANOVA detecta diferenças significativas entre as médias dos grupos, são
necessários testes post-hoc para identificar quais grupos específicos diferem entre si. O teste
de Tukey foi utilizado para realizar essas comparações pareadas, devido à sua eficácia em
controlar a taxa de erro do Tipo I (Dancey; Reidy, 2020; Field, 2024).
Teste de Kruskal-Wallis na variável “point_1”
O seguinte prompt foi solicitado ao Data Analyst GPT: “Realize o teste de Kruskal-
Wallis na coluna de dados 'points_1', comparando a variável 'level_of_education', onde 2
corresponde a Bacharelado, 3 a Mestrado e 4 a Doutorado. Os resultados devem ser
apresentados em uma tabela de dados no formato APA, incluindo o valor do teste estatístico,
o valor de p (arredondado para três casas decimais) e os graus de liberdade”.
ANOVA na variável “point_2”
O seguinte prompt foi solicitado ao Data Analyst GPT: “Realize o teste ANOVA na
coluna de dados 'points_2', comparando a variável 'level_of_education', onde 2 corresponde a
Bacharelado, 3 a Mestrado e 4 a Doutorado. Além disso, realize o teste de Levene para
verificar a homogeneidade das variâncias. Os resultados devem ser apresentados em tabelas
de dados no formato APA, incluindo o valor do teste estatístico, o valor de p (arredondado
para três casas decimais) e os graus de liberdade".
Prompt solicitado ao Data Analyst GPT: "Realize o teste ANOVA na coluna de dados
'points_2', comparando a variável 'situation', onde 1 corresponde a Empregado, 2 a
Aposentado, 3 a Desempregado e 4 a Estudante. Além disso, realize o teste de Levene para
verificar a homogeneidade das variâncias. Os resultados devem ser apresentados em tabelas
de dados no formato APA, incluindo o valor do teste estatístico, o valor de p (arredondado
para três casas decimais) e os graus de liberdade. Caso sejam identificadas diferenças
estatisticamente significativas, aplique o teste post-hoc de Tukey".
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 12
Resultados
Para fins de comparação, os mesmos testes estatísticos foram realizados utilizando dois
softwares estatísticos padrão, o SPSS e o JAMOVI. Isso permitiu a comparação direta dos
resultados obtidos com os fornecidos pelo Data Analyst GPT.
Testes de Normalidade
Duas abordagens distintas foram adotadas para a realização dos testes de normalidade:
a análise estatística e a análise gráfica.
Análise Estatística
O teste de Shapiro-Wilk foi aplicado para verificar a normalidade das distribuições,
conforme apresentado na Tabela 1.
Tabela 1 - Resultados do Teste de Shapiro-Wilk
“point_1”
“point_2”
estatística
df
valor p
estatística
df
valor p
0.994
845
<.001
0.998
845
0.555
0.994
846
<.001
0.998
846
0.555
0.994
-
<.001
0.998
-
0.555
Fonte: Elaborado pelo autor (2024).
Os resultados indicam consistência nos valores estatísticos e nos p-valores obtidos pelo
Data Analyst GPT em comparação com o SPSS e o JAMOVI no teste de Shapiro-Wilk. No
entanto, uma diferença significativa foi observada nos graus de liberdade (df), com o Data
Analyst GPT documentando 845, o SPSS apresentando 846 e o JAMOVI omitindo essa
informação nas variáveis “point_1” e “point_2”.
Ao selecionar os testes estatísticos adequados, é essencial determinar se a amostra segue
uma distribuição normal. Os resultados da análise estatística indicam que a variável “point_1”
não segue uma distribuição normal (p < 0,05), sugerindo uma possível assimetria ou excesso
de curtose. Em contrapartida, a variável “point_2” apresentou características de normalidade (p
> 0,05), o que sugere que sua distribuição está de acordo com a distribuição normal. Essa
distinção é fundamental para a escolha apropriada dos testes estatísticos, garantindo a validade
e a confiabilidade das análises.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 13
Análise Gráfica
Boxplots e histogramas elaborados por ([a] Data Analyst GPT, [b] SPSS e [c] JAMOVI)
foram utilizados para verificar a comparabilidade ao testar a normalidade das distribuições das
variáveis “point_1” e “point_2”. Os boxplots para a variável “point_1” estão apresentados no
Gráfico 2, enquanto os boxplots para “point_2” estão no Gráfico 3. Os histogramas referentes
à variável “point_1” são mostrados no Gráfico 4, e os dados de “point_2” estão representados
no Gráfico 5.
Gráfico 2 Boxplots obtidos para a variável “point_1”
Fonte: Elaborado pelo autor (2024).
Gráfico 3 Boxplots obtidos para a variável “point_2”
Fonte: Elaborado pelo autor (2024).
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 14
Gráfico 4 Histogramas obtidos para a variável "point_1”
Fonte: Elaborado pelo autor (2024).
Gráfico 5 Histogramas obtidos para a variável “point_2”
Fonte: Elaborado pelo autor (2024).
A análise gráfica realizada por meio de boxplots demonstra a confiabilidade do Data
Analyst GPT em comparação com o SPSS e o JAMOVI. É importante ressaltar que, enquanto
o Data Analyst GPT foi capaz de identificar apenas a presença de valores discrepantes, tanto o
SPSS quanto o JAMOVI também conseguiram indicar quais desses valores eram considerados
outliers.
Análise de Correlação
Com base nos resultados obtidos pelos testes de normalidade, o coeficiente de Spearman
foi utilizado para a variável não paramétrica “point_1” (p<0,05) e o coeficiente de Pearson para
a variável paramétrica “point_2” (p>0,05) em relação ao number_of_devices”, conforme pode
ser observado na Tabela 2.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 15
Tabela 2 Coeficiente de Spearman (“point_1”) e coeficiente de Pearson (“point_2")
Software
Coeficiente de Spearman
Coeficiente de Pearson
ρ (rho)
valor-p
ρ (rho)
valor-p
Data Analyst GPT
0.228
<.001
-0.025
0.468
SPSS
0.228
<.001
-0.025
0.468
JAMOVI
0.228
<.001
-0.025
0.468
Fonte: Elaborado pelo autor (2024).
Os resultados indicam a confiabilidade do Data Analyst GPT em comparação com o
SPSS e o JAMOVI, tanto para o coeficiente de Spearman, aplicado a dados com distribuição
não normal, quanto para o coeficiente de Pearson, utilizado para os dados com distribuição
normal.
Análise de Variáveis Categóricas
Testes de Qui-quadrado foram realizados nas variáveis categóricas points_2 e
situation, conforme mostrado na Tabela 3.
Tabela 3 Qui-quadrado
Software
estatística
df
valor-p
Data Analyst GPT
50.767
15
<.001
SPSS
50.767
15
<.001
JAMOVI
50.8
15
<.001
Fonte: Elaborado pelo autor (2024).
Os resultados indicam que o Data Analyst GPT foi capaz de fornecer resultados
consistentes quando comparado ao SPSS e ao JAMOVI na análise das variáveis categóricas
utilizando o teste de Qui-quadrado. É importante observar que, enquanto o JAMOVI reportou
as estatísticas com uma casa decimal, os outros softwares as exibiram com três casas decimais.
No entanto, essa diferença de formatação não impacta a interpretação dos resultados.
Testes de Comparação de Médias
Fatores com Dois Grupos
Com base no conhecimento obtido sobre a normalidade dos dados, o teste de Mann-
Whitney U foi utilizado para a variável não paramétrica point_1, enquanto o teste t foi
empregado para a variável paramétrica point_2, conforme pode ser observado na Tabela 4.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 16
Tabela 4 Mann-Whitney U com gênero
Software
Mann-Whitney U
Test t
estatística
valor-p
estatística
df
valor-p
Data Analyst GPT
92,001.5
0.390
0.810
844
0.418
SPSS
85,903.5
0.389
0.810
844
0.418
JAMOVI
85,904.0
0.390
0.810
844
0.418
Fonte: Elaborado pelo autor (2024).
Em relação ao valor p do teste de Mann-Whitney U (Tabela 4), tanto o Data Analyst
GPT quanto o JAMOVI apresentaram resultados semelhantes. O SPSS, por sua vez, mostrou
ligeiras variações no terceiro decimal, o que pode ser atribuído as diferenças de
arredondamento. Além disso, uma discrepância notável foi observada no valor da estatística
obtida pelo Data Analyst GPT. Enquanto o SPSS e o JAMOVI apresentaram resultados
similares com pouca variação, essa diferença não afeta a interpretação dos resultados.
Mais de Dois Grupos
Os testes de Kruskal-Wallis foram empregados para variáveis não paramétricas, como
point_1 e nivel_de_educacao, enquanto os testes ANOVA foram utilizados para variáveis
paramétricas, como point_2, juntamente com os testes de Levene, conforme pode ser visto
na Tabela 5.
Tabela 5 Testes de Kruskal-Wallis, ANOVA e Levene
Software
Teste de Kruskal-Wallis
Teste ANOVA
Teste de Levene
estatística
df
valor-p
estatística
df1
df2
valor-p
F
valor-p
Data Analyst GPT
9.741
2
0.008
0.882
2
843
0.414
0.281
0.755
SPSS
9.741
2
0.008
0.882
2
843
0.414
0.281a
0.755a
0.252b
0.777b
JAMOVI
9.74
2
0.008
0.882
2
843
0.414
0.252
0.777
aCom base na mediana; bCom base na média.
Fonte: Elaborado pelo autor (2024).
Os resultados indicam que o Data Analyst GPT foi capaz de fornecer resultados
comparáveis aos obtidos pelo SPSS e pelo JAMOVI, tanto para o teste de Kruskal-Wallis,
aplicado a dados com distribuição não normal, quanto para o teste ANOVA, que considera
dados normalmente distribuídos.
Em relação ao teste de Levene, o software SPSS ofereceu duas variantes: uma calculada
com base na mediana e a outra com base na média. Em contraste, tanto o Data Analyst GPT
quanto o JAMOVI forneceram apenas uma versão dos resultados. Os dados sugerem que o Data
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 17
Analyst GPT considerou a mediana para os cálculos, enquanto o JAMOVI utilizou a média.
Essa correspondência demonstra uma forte consistência entre ambos os softwares.
Adicionalmente, foi realizado outro teste ANOVA para analisar a confiabilidade do
teste post-hoc, considerando agora as variáveis points_2 e situation. O objetivo foi avaliar
a confiabilidade do software quando há uma diferença estatística significativa entre as médias.
Os resultados dos testes ANOVA e de Levene são apresentados na Tabela 6, enquanto os
resultados dos testes post-hoc de Tukey podem ser encontrados na Tabela 7.
Tabela 6 Testes ANOVA e de Levene
Software
Teste ANOVA
Teste de Levene
estatística
df1
df2
valor-p
F
valor-p
Data Analyst GPT
3.372
3
842
0.018
0.108
0.956a
SPSS
3.372
3
842
0.018
0.108a
0.956a
0.029b
0.993b
JAMOVI
3.37
3
842
0.018
0.029b
0.993b
aCom base na mediana; bCom base na média.
Fonte: Elaborado pelo autor (2024).
Tabela 7 - Tukey post-hoc
Comparação
Analista de Dados GPT
SPSS
JAMOVI
estatística
Empregado
Aposentado
0.030
0.030
0.030
Desempregado
0.900
0.946
0.946
Estudante
0.484
0.483
0.483
Aposentado
Desempregado
0.177
0.177
0.177
Estudante
0.030
0.030
0.030
Desempregado
Estudante
0.900
0.926
0.926
Fonte: Elaborado pelo autor (2024).
Os resultados demonstram a confiabilidade do Data Analyst GPT em comparação com
o SPSS e o JAMOVI nos testes ANOVA, especialmente quando uma diferença
estatisticamente significativa entre as médias, assim como nos testes post-hoc de Tukey. É
relevante observar que a discrepância observada no teste de Levene origina-se da mesma
variabilidade encontrada na ANOVA, que ocorre quando não diferenças estatisticamente
significativas entre as médias.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 18
Discussão
Este artigo teve como objetivo avaliar a confiabilidade do Data Analyst GPT (ChatGPT)
na análise de dados quantitativos, realizando uma comparação direta com os resultados obtidos
de dois pacotes de software estatístico clássicos, o SPSS e o JAMOVI. Os testes selecionados
para essa comparação direta incluíram: a) testes de normalidade; b) análise de correlação
utilizando o coeficiente de Pearson para amostras paramétricas e o coeficiente de Spearman
para amostras não paramétricas; c) o teste de qui-quadrado para a análise de variáveis
categóricas; e d) testes de comparação de médias, incluindo o teste t e ANOVA para amostras
paramétricas, e os testes Mann-Whitney U e Kruskal-Wallis para amostras não paramétricas.
Duas abordagens foram empregadas para avaliar a confiabilidade do Data Analyst GPT
na análise de normalidade: o teste estatístico de Shapiro-Wilk para uma avaliação quantitativa
e a análise gráfica com boxplots e histogramas para uma avaliação visual. Os testes realizados
com o Data Analyst GPT e os softwares estatísticos de referência, nomeadamente SPSS e
JAMOVI, requerem conhecimento intermediário de estatística e análise de dados (Huang et al.,
2024), especialmente na seleção dos testes estatísticos a serem aplicados. No caso do Data
Analyst GPT, a execução é facilitada por uma interface de chat.
O teste de Shapiro-Wilk foi aplicado às variáveis points_1 e points_2 para verificar
a normalidade dos dados, e os resultados foram equivalentes em termos de estatística do teste
e valor p. No entanto, observa-se uma discrepância aparente nos Graus de Liberdade (df), com
o Data Analyst GPT registrando 845, o SPSS 846 e o JAMOVI omitindo essa métrica. É
importante esclarecer que, no contexto do teste de Shapiro-Wilk, o conceito de graus de
liberdade não é normalmente utilizado, uma vez que esse teste se concentra em avaliar se uma
amostra provém de uma distribuição normal, sem depender diretamente dos graus de liberdade
que geralmente se aplicam a testes envolvendo variações ou desvios padrão. Portanto, a menção
aos graus de liberdade nesse contexto pode não ser essencial, o que pode justificar, ao menos
em parte, a ausência desses valores no teste de Shapiro-Wilk realizado pelo JAMOVI.
Os boxplots gerados para avaliar a distribuição dos dados foram informativos, pois
ilustraram seus quartis e destacaram os outliers. Nos boxplots produzidos pelo SPSS (Gráfico
2b) e pelo JAMOVI (Gráfico 2c), os outliers são indicados na parte inferior; os boxplots
elaborados pelo Data Analyst GPT (Gráfico 2a) não mostram tais outliers, mas apenas indicam
sua existência. Portanto, observa-se uma limitação no Data Analyst GPT em relação à
representação visual dos outliers, o que pode restringir uma análise mais aprofundada das
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 19
variações extremas nos dados. Contudo, em casos onde múltiplos outliers estão presentes, os
visualizar torna-se desafiador, independentemente do software utilizado.
Os histogramas produzidos para avaliar a distribuição de frequência dos dados
forneceram uma visualização clara e informativa. Eles permitem uma comparação equivalente,
mesmo quando suas escalas foram ajustadas automaticamente e diferentes intervalos de dados
foram definidos pelo software. Isso pode ocorrer tanto no eixo X (abscissa), que representa a
frequência de cada intervalo, com a barra mais alta indicando a maior frequência de valores,
quanto no eixo Y (ordenada), que reflete a contagem numérica das ocorrências correspondentes
no eixo X. Os histogramas do Data Analyst GPT (Gráfico 4a) foram vantajosos. A inclusão de
uma curva de densidade ou Estimativa de Densidade de Kernel (KDE) fornece uma perspectiva
adicional sobre a distribuição geral dos dados, sugerindo a forma da distribuição subjacente de
maneira mais contínua e integrada.
Os resultados dos testes de correlação de Spearman e Pearson, bem como do teste de
Qui-quadrado, demonstram que o Data Analyst GPT apresenta desempenho comparável ao do
SPSS e do JAMOVI. Isso ressalta a confiabilidade e a precisão da ferramenta na análise de
correlação, afirmando sua capacidade de fornecer resultados analíticos robustos. Quanto ao
teste de Mann-Whitney U para comparação de médias, os resultados indicam a confiabilidade
do Data Analyst GPT em comparação com o SPSS e o JAMOVI em termos de valor-p, mesmo
considerando uma leve diferença no terceiro decimal atribuível ao arredondamento. No entanto,
o Data Analyst GPT apresentou uma diferença significativa nos valores da estatística U quando
comparado aos outros softwares.
O teste Mann-Whitney U foi inicialmente concebido por Frank Wilcoxon (Wilcoxon,
1945) para analisar medidas de tendência central em amostras do mesmo tamanho.
Posteriormente, Henry B. Mann e Donald R. Whitney (Mann; Whitney, 1947) estenderam sua
aplicação para amostras de tamanhos diferentes. Dessa forma, os valores estatísticos do teste
Mann-Whitney U podem ser derivados por meio de duas abordagens distintas: a formulação
baseada em postos (Wilcoxon, 1945) e o método de comparação direta (Mann; Whitney, 1947).
A formulação baseada em postos envolve a ordenação combinada de todos os valores de ambos
os grupos, atribuindo postos a cada valor e utilizando estes para calcular a estatística U,
ajustando efetivamente quaisquer empates (Wilcoxon, 1945). Em contraste, o método de
comparação direta quantifica o número de vezes que um valor de um grupo excede o de outro,
oferecendo uma abordagem intuitiva que, apesar de sua simplicidade, torna-se impraticável
para análises de grandes amostras devido às demandas computacionais (Mann; Whitney, 1947).
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 20
A documentação do SPSS (IBM Corporation, 2022) menciona o uso da formulação
baseada em postos, mas não foram encontrados documentos equivalentes para o Data Analyst
GPT e o JAMOVI. A similaridade dos resultados das estatísticas U entre o SPSS e o JAMOVI
(85.903,5 e 85.904,0, respectivamente) pode indicar que o JAMOVI também emprega o método
baseado em postos, enquanto o Data Analyst GPT adota o método de comparação direta.
Considerando o valor-p do teste de Mann-Whitney, pode-se concluir que o Data Analyst GPT
forneceu resultados confiáveis em comparação com o SPSS e o JAMOVI.
Os testes de Kruskal-Wallis e ANOVA mostram que a confiabilidade do Data Analyst
GPT é comparável à do SPSS e do JAMOVI. Essa equivalência também se estende aos
resultados dos testes post-hoc de Tukey, aplicados quando a ANOVA indicou a presença de
diferenças estatisticamente significativas entre os grupos, e ao teste de Levene para verificar a
homogeneidade.
Diante da limitação de processamento no Data Analyst GPT, mesmo ao utilizar a versão
paga, ChatGPT Plus (GPT-4o), o principal impacto percebido foi na confiança em sua
disponibilidade. A OpenAI exibe uma mensagem
3
indicando que o limite de uso será ajustado
dinamicamente para priorizar o acesso ao GPT-4o pelo maior número de pessoas, de acordo
com a demanda e o desempenho do sistema. Também é mencionado um limite de 40 mensagens
a cada 3 horas, levantando dúvidas sobre a disponibilidade do Data Analyst GPT. Essa
interrupção inesperada e a necessidade de pausar por aproximadamente duas horas antes de
retomar as análises destacam uma preocupação significativa: a falta de clareza e transparência
em relação às limitações atuais do ChatGPT Plus (GPT-4o) no momento da assinatura,
especialmente para aqueles que dependem da ferramenta Data Analyst GPT para realizar
análises de dados contínuas.
Outro fator limitante a ser considerado ao adotar o Data Analyst GPT é a ausência de
especificação da versão da ferramenta. Enquanto neste artigo foram utilizadas e conhecidas as
versões do JAMOVI 2.3.21.0 e do SPSS 29.0.2.0, a versão exata do Data Analyst GPT era
desconhecida, sendo a única versão o modelo GPT-4o, uma vez que, como um modelo de
inteligência artificial, possui capacidade de aprendizado. Portanto, é importante que a pesquisa
realizada com o Data Analyst GPT seja acompanhada pelo prompt de execução (European
Commission, 2024).
Restaurar e manter a confiança dos usuários requer comunicação clara e abrangente por
parte dos desenvolvedores sobre todos os aspectos operacionais, incluindo possíveis limites de
3
Disponível em: https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4. Acesso em: 15 set. 2024.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 21
uso. Tal transparência no momento da assinatura é essencial para garantir que os usuários
possam planejar adequadamente seu uso do Data Analyst GPT, evitando surpresas
desagradáveis e assegurando que as expectativas de disponibilidade estejam alinhadas com a
realidade operacional da ferramenta.
Outros aspectos relevantes, destacados por várias partes interessadas, incluem a
privacidade, a confidencialidade e os direitos de propriedade intelectual (European
Commission, 2019, 2024; UNESCO, 2021). Ao contrário do SPSS e do JAMOVI, nos quais o
conjunto de dados é armazenado no software instalado nos computadores dos usuários, o Data
Analyst GPT opera em um ambiente on-line, e não está claro como esse conjunto de dados é
armazenado e como será utilizado, se para treinamento de inteligência ou para inclusão em uma
base de conhecimento. Essa falta de clareza compromete o uso do Data Analyst GPT em
pesquisas com dados confidenciais ou sensíveis.
É crucial destacar variações específicas das tecnologias de inteligência artificial
projetadas para garantir a privacidade dos dados. Um exemplo inclui o ChatGPT Teams
(Privacidade Empresarial) e os chats temporários (OpenAI, 2024), que são configurados para
assegurar que os conjuntos de dados inseridos pelos usuários não sejam utilizados para
treinamento de modelos ou inclusão em uma base de conhecimento. Da mesma forma, o Copilot
da Microsoft (Universidad de Granada, 2024), uma ferramenta de assistência à codificação
impulsionada por IA, segue diretrizes rigorosas para proteger as informações dos usuários,
evitando o uso desses conjuntos de dados para aprimorar algoritmos de aprendizado de
máquina.
No contexto europeu, recomenda-se que, ao utilizar IA com informações sensíveis ou
protegidas, seja fundamental prestar atenção à privacidade, confidencialidade e direitos de
propriedade intelectual (European Commission, 2024). Os pesquisadores devem proteger
trabalhos não publicados ou sensíveis, evitando o envio desses dados para sistemas de IA on-
line sem a garantia de que as informações não serão reutilizadas, como ao treinar futuros
modelos de IA ou ao usar indevidamente os dados. Além disso, é importante não fornecer a
terceiros dados pessoais sem o consentimento explícito do indivíduo.
Apesar dessas preocupações, uma vantagem significativa na análise de dados
fornecidos pelo Data Analyst GPT. Por meio dos prompts, pesquisadores e estudantes têm
acesso a uma ferramenta de fácil utilização e altamente acessível, facilitando a realização de
análises de dados com comandos simples e linguagem direta, além de processar solicitações em
linguagem natural. Assim, a ferramenta tem o potencial de se tornar um importante aliado na
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 22
promoção da pesquisa, estimulando a inovação e apoiando a descoberta de novos insights de
maneira intuitiva e acessível. Ademais, ela pode processar grandes volumes de dados sem exigir
recursos computacionais avançados por parte do pesquisador, uma vez que os cálculos o
realizados nos servidores de inteligência artificial.
Considerações finais
Este artigo demonstrou o potencial do Data Analyst GPT em ampliar o horizonte da
pesquisa educacional, evidenciando sua confiabilidade na análise de dados quantitativos. Por
meio de uma análise comparativa com softwares estatísticos padrão, como SPSS e JAMOVI,
foi evidenciado que o Data Analyst GPT pode ser empregado de forma confiável como uma
ferramenta estatística por pesquisadores e estudantes da educação. Sua interface amigável, que
responde a comandos simples e linguagem direta, reduz a necessidade de dominar linguagens
de programação complexas ou ter conhecimento técnico aprofundado. Isso representa um
avanço significativo para a realização de estudos quantitativos, tornando a análise de dados
mais acessível e menos intimidadora para os pesquisadores da educação.
Uma limitação significativa do Data Analyst GPT é a falta de especificação clara em
relação à versão da ferramenta em uso, uma vez que opera em um ambiente dinâmico onde a
versão exata pode não ser explicitamente conhecida, restando apenas o modelo subjacente.
Outra limitação importante é a capacidade de processamento do Data Analyst GPT, mesmo na
versão paga (ChatGPT Plus). A interrupção inesperada e a necessidade de uma pausa de
aproximadamente duas horas antes de retomar as análises destacam uma preocupação relevante:
a falta de clareza e transparência sobre as limitações de uso, especialmente para aqueles que
dependem da ferramenta para análises de dados contínuas. Manter a confiança dos usuários
requer uma comunicação clara e abrangente por parte dos desenvolvedores sobre todos os
aspectos operacionais, incluindo possíveis limites de uso. Essa transparência é crucial para
garantir que os usuários possam planejar adequadamente a utilização do Data Analyst GPT,
evitando surpresas desagradáveis e alinhando suas expectativas de disponibilidade à realidade
operacional da ferramenta. Além disso, o limite de upload de arquivos de 50 MB, embora
suficiente para muitos conjuntos de dados quantitativos, pode ser uma restrição em estudos que
envolvem conjuntos de dados maiores.
A dependência de uma ferramenta que opera em um ambiente on-line também levanta
preocupações sobre a privacidade e a confidencialidade dos dados, uma vez que os detalhes
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 23
sobre como as informações são armazenadas e utilizadas não são totalmente transparentes. Os
pesquisadores devem ter cautela ao utilizar dados confidenciais ou sensíveis com o Data
Analyst GPT, particularmente em contextos em que a segurança é crítica.
As limitações específicas deste estudo incluem o número de testes estatísticos realizados
e a abordagem de solicitação direta para a análise de dados, especificando os testes desejados.
Além disso, a apresentação dos resultados gerados pelo Data Analyst GPT pode variar em
versões futuras da ferramenta, à medida que melhorias na interface e nos métodos de
visualização forem implementadas. No entanto, os resultados estatísticos em si, considerando
que o Data Analyst GPT utiliza bibliotecas bem estabelecidas, não devem sofrer mudanças
significativas, assegurando a replicabilidade e a confiabilidade dos resultados. É importante
observar que essa característica, que envolve o uso de bibliotecas, não é exclusiva do Data
Analyst GPT; softwares como o JAMOVI, que utiliza bibliotecas R, também compartilham essa
consistência, embora sem a mesma interface gráfica. Em termos de experiência do usuário e
apresentação de dados, outros softwares estatísticos tradicionais, como SPSS e JAMOVI,
também estão sujeitos a atualizações que podem impactar esses aspectos.
REFERÊNCIAS
AL-GHONMEIN, A. M.; AL-MOGHRABI, K. G. The potential of ChatGPT technology in
education : advantages , obstacles and future growth. IAES International Journal of
Artificial Intelligence (IJ-AI), Jacarta, v. 13, n. 2, p. 12061213, 2024. DOI:
10.11591/ijai.v13.i2.pp1206-1213.
ALGTHAMI, N. M. J.; HUSSIN, N. Meta-Analytic Evidence for Board Characteristics as
Correlates of Firm Performance Among Saudi Arabian Businesses. International Journal of
Academic Research in Business and Social Sciences, Islamabade, v. 12, n. 6, 4 jun. 2022.
DOI: 10.6007/IJARBSS/v12-i6/13886.
ALILI, A.; KRSTEV, D. Using SPSS for research and Data Analysis. Knowledge
International Journal, Escópia, v. 32, n. 3, p. 363368, 26 jul. 2019. DOI:
10.35120/kij3203363a.
ALZUBAIDI, L.; ZHANG, J.; HUMAIDI, A. J.; AL-DUJAILI, A.; DUAN, Y.; AL-
SHAMMA, O.; SANTAMARÍA, J.; FADHEL, M. A.; AL-AMIDIE, M.; FARHAN, L.
Review of deep learning: concepts, CNN architectures, challenges, applications, future
directions. Springer International Publishing, Berlin, v. 8, 2021. DOI: 10.1186/s40537-
021-00444-8.
ATLAS, S. ChatGPT for Higher Education and Professional Development: A Guide to
Conversational AI. Kingston: University of Rhode Island, 2023. v. 1.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 24
CHANG, D. T. Concept-Oriented Deep Learning with Large Language Models. ArXiv, [S.
l.], 2023. DOI: 10.48550/arXiv.2306.17089.
CRAWFORD, J.; ALLEN, K.-A.; PANI, B.; COWLING, M. When artificial intelligence
substitutes humans in higher education: the cost of loneliness, student success, and retention.
Studies in Higher Education, London, v. 49, n. 5, p. 115, 2024. DOI:
10.1080/03075079.2024.2326956.
DANCEY, C. P.; REIDY, J. Statistics without maths for psychology. 8. ed. London:
Prentice Hall, 2020.
DING, L.; LI, T.; JIANG, S.; GAPUD, A. Students’ perceptions of using ChatGPT in a
physics class as a virtual tutor. International Journal of Educational Technology in Higher
Education, Barcelona, v. 20, n. 1, p. 118, 2023. DOI: 10.1186/s41239-023-00434-1.
EHLERS, U.-D.; LINDNER, M.; SOMMER, S.; RAUCH, E. AICOMP - Future Skills in a
World Increasingly Shaped By AI. Ubiquity Proceedings, London, 2023. DOI:
10.5334/uproc.91.
EUROPEAN COMMISSION. Ethics guidelines for trustworthy AI. European Commission,
Bruxelas, p. 139, 2019.
EUROPEAN COMMISSION. Proposal for a Regulation of the european parliament and
of the council laying down harmonised rules on artificial intelligence (Artificial
Intelligence Act) and amending certain union legislative acts. Brussels: European
Commission, 2021.
EUROPEAN COMMISSION. Ethical guidelines on the use of artificial intelligence (AI)
and data in teaching and learning for Educators. Brussels: European Commission, 2022.
EUROPEAN COMMISSION. Living guidelines on the responsible use of generative AI in
research. Brussels: European Commission, 2024.
FAN, L.; LI, L.; MA, Z.; LEE, S.; YU, H.; HEMPHILL, L. A Bibliometric Review of Large
Language Models Research from 2017 to 2023. ArXiv, [S. l.], p. 136, 2023. DOI:
10.48550/arXiv.2304.02020.
FIELD, A. Discovering Statistics Using IBM SPSS Statistics. 6. ed. London: SAGE
Publications, 2024.
GIMPEL, H.; HALL, K.; DECKER, S.; LÄMMERMANN, L.; MÄDCHE, A.;
RÖGLINGER, M.; RUINER, C.; SCHOCH, M.; SCHOOP, M.; URBACH, N.; VANDIRK,
S. Unlocking the Power of Generative AI Models and Systems such as GPT-4 and ChatGPT
for Higher Education. Digital Annual Report, Stuttgart, p. 154, 2023.
HUANG, Y.; WU, R.; HE, J.; XIANG, Y. Evaluating ChatGPT-4.0’s data analytic
proficiency in epidemiological studies: A comparative analysis with SAS, SPSS, and R.
Journal of global health, New York, v. 14, n. 1088, p. 04070, 2024. DOI:
10.7189/jogh.14.04070.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 25
IBM CORPORATION. IBM SPSS Statistics Algorithms. [S. l: s. n.], 2022.
JIA, X.-H.; TU, J.-C. Towards a New Conceptual Model of AI-Enhanced Learning for
College Students: The Roles of Artificial Intelligence Capabilities, General Self-Efficacy,
Learning Motivation, and Critical Thinking Awareness. Systems, [S. l.], v. 12, n. 3, p. 74,
2024.
LARY, D. J.; ALAVI, A. H.; GANDOMI, A. H.; WALKER, A. L. Machine learning in
geosciences and remote sensing. Geoscience Frontiers, Beijing, v. 7, n. 1, p. 310, 2016.
DOI: 10.1016/j.gsf.2015.07.003.
LI, J.; DADA, A.; PULADI, B.; KLEESIEK, J.; EGGER, J. ChatGPT in healthcare: A
taxonomy and systematic review. Computer Methods and Programs in Biomedicine,
Amsterdam, v. 245, p. 108013, 2024. DOI: 10.1016/j.cmpb.2024.108013.
MANN, H. B.; WHITNEY, D. R. On a Test of Whether one of Two Random Variables is
Stochastically Larger than the Other. The Annals of Mathematical Statistics, Washington,
v. 18, n. 1, p. 5060, mar. 1947. DOI: 10.1214/aoms/1177730491.
MAREK, J.; MAJ, E.; PRZYBYLA, O. K.; SKRZYNSKI, W.; PASICZ, K.;
FABISZEWSKA, E.; PRUSZYNSKI, A.; ROWINSKI, O. The impact of studying on the
hippocampal volume in medical students and its correlation with the results of the Final
Medical Examination: a single-centre, prospective observational cohort study. Polish Journal
of Radiology, Warsaw, v. 88, p. 2230, 16 jan. 2023. DOI: 10.5114/pjr.2023.124433.
MOHAMMADI, S. S.; NGUYEN, Q. D. A User-Friendly Approach for the Diagnosis of
Diabetic Retinopathy Using ChatGPT and Automated Machine Learning. Ophthalmology
Science, New York, v. 4, n. 4, p. 100495, 2024. DOI: 10.1016/j.xops.2024.100495.
MONTENEGRO-RUEDA, M.; LÓPEZ-MENESES, E.; FERNÁNDEZ-CERERO, J.;
FERNÁNDEZ-BATANERO, J. M. Impact of the Implementation of ChatGPT in Education:
A. Computers, Bern, v. 12, n. 153, p. 113, 2023. DOI: 10.3390/computers12080153.
NAVEED, H.; KHAN, A. U.; QIU, S.; SAQIB, M.; ANWAR, S.; USMAN, M.; AKHTAR,
N.; BARNES, N.; MIAN, A. A Comprehensive Overview of Large Language Models. ArXiv,
p. 143, 12 jul. 2023. DOI: 10.48550/arXiv.2307.06435.
OPENAI. Enterprise privacy at OpenAI. Disponível em: https://openai.com/enterprise-
privacy. Acesso em: 25 mar. 2024.
R CORE TEAM. A Language and environment for statistical computing. (Version 4.1)
[Computer software], 2021.
SINGH-HARJIT; SINGH-AVNEET. ChatGPT: Systematic Review, Applications, and
Agenda for Multidisciplinary Research. Journal of Chinese Economic and Business
Studies, Washington, v. 21, n. 2, p. 193212, 2023. DOI: 10.1080/14765284.2023.2210482.
Inteligência Artificial na Análise de Dados Quantitativos de Pesquisa Educacional: Confiabilidade do Data Analyst GPT (ChatGPT)
comparado ao SPSS e JAMOVI
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 26
STANFORD UNIVERSITY. Artificial Intelligence Index Report 2021. Stanford: Stanford
University, 2021.
SUFI, F. Generative Pre-Trained Transformer (GPT) in Research: A Systematic Review on
Data Augmentation. Information, Bern, v. 15, n. 2, p. 99, 2024. DOI: 10.3390/info15020099.
THE JAMOVI PROJECT. Jamovi. (Version 2.3) [Computer Software], 2024.
UNESCO. Recommendation on the Ethics of Artificial Intelligence. Paris: UNESCO.
2021.
UNESCO. ChatGPT and Artificial Intelligence in Higher Education: Quick start guide.
Paris: UNESCO, 2023a.
UNESCO. Harnessing the Era of Artificial Intelligence in Higher Education: A Primer
for Higher Education Stakeholders. Paris: UNESCO, 2023b.
UNIVERSIDAD DE GRANADA. Inteligencia Artificial en la universidad: Centro de
Producción de Recursos para la Universidad Digital (CEPRUD). 2024. Disponível em:
https://ceprud.ugr.es/formacion-tic/inteligencia-artificial. Acesso em: 25 mar. 2024.
WALTER, Y. Embracing the future of Artificial Intelligence in the classroom: the relevance
of AI literacy, prompt engineering, and critical thinking in modern education. International
Journal of Educational Technology in Higher Education, Dublin, v. 21, n. 1, 2024. DOI:
10.1186/s41239-024-00448-3.
WILCOXON, F. Individual Comparisons by Ranking Methods. Biometrics Bulletin,
Washington, v. 1, n. 6, p. 80, dez. 1945. DOI: 10.2307/3001968.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 27
CRediT Author Statement
Reconhecimentos: Agradeço ao Professor Pedro Reis por suas valiosas contribuições à
conceituação deste artigo.
Financiamento: Este trabalho foi apoiado por Fundos Nacionais através da FCT -
Fundação Portuguesa para a Ciência e Tecnologia, IP, no âmbito da Unidade de
Investigação e Desenvolvimento em Educação e Formação (UIDEF), UIDB/04107/2020.
Mais detalhes podem ser encontrados em https://doi.org/10.54499/UIDB/04107/2020.
Conflitos de interesse: Não há interesses concorrentes.
Aprovação ética: Este artigo não requer aprovações éticas.
Disponibilidade de dados e material: Os conjuntos de dados anônimos utilizados e/ou
analisados durante o estudo, juntamente com os resultados do Data Analyst GPT, SPSS e
JAMOVI, estão disponíveis nas Informações Suplementares.
Contribuições dos autores: Autoria única.
Processamento e editoração: Editora Ibero-Americana de Educação.
Revisão, formatação, normalização e tradução.
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 1
ARTIFICIAL INTELLIGENCE IN THE ANALYSIS OF EDUCATIONAL
RESEARCH QUANTITATIVE DATA: RELIABILITY OF DATA ANALYST GPT
(CHATGPT) COMPARED TO SPSS AND JAMOVI
INTELIGÊNCIA ARTIFICIAL NA ANÁLISE DE DADOS QUANTITATIVOS DE
PESQUISA EDUCACIONAL: CONFIABILIDADE DO DATA ANALYST GPT
(CHATGPT) COMPARADO AO SPSS E JAMOVI
INTELIGENCIA ARTIFICIAL EN EL ANÁLISIS DE DATOS CUANTITATIVOS DE
INVESTIGACIÓN EDUCATIVA: CONFIABILIDAD DE DATA ANALYST GPT
(CHATGPT) COMPARADO CON SPSS Y JAMOVI
Cassio SANTOS1
e-mail: cassiosantos@ie.ulisboa.pt
How to reference this paper:
SANTOS, C. Artificial Intelligence in the Analysis of Educational
Research Quantitative Data: Reliability of Data Analyst GPT
(ChatGPT) compared to SPSS and JAMOVI. Nuances: Estudos
sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024.
e-ISSN: 2236-0441. DOI:
https://doi.org/10.32930/nuances.v35i00.10682
| Submitted: 20/06/2024
| Revisions required: 15/07/2024
| Approved: 12/08/2024
| Published: 11/10/2024
Editors:
Profa. Dra. Rosiane de Fátima Ponce
Prof. Dr. Paulo César de Almeida Raboni
Deputy Executive Editor:
Prof. Dr. José Anderson Santos Cruz
1
Unidade de Investigação e Desenvolvimento em Educação e Formação (UIDEF), Instituto de Educação (IE),
Universidade de Lisboa (ULisboa), Lisboa Portugal. Professor and Researcher.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 2
ABSTRACT: The integration of Artificial Intelligence (AI) into the educational and research
landscape marks a transformative era, offering unparalleled opportunities for enhancing the
way earn and conduct research. This article explores the potential of the AI-based language
model, Data Analyst GPT, developed by OpenAI, as a reliable tool for conducting quantitative
data analysis. The methodology involved employing Data Analyst GPT and two standard
statistical software packages, SPSS and JAMOVI, to conduct an end-to-end statistical analysis
on a typical educational data set, covering several standard statistical tests such as normality,
correlation analysis (Pearson's and Spearman's), Categorical Variables Analysis, and mean
comparison tests (Test t, ANOVA, Tukey, Mann-Whitney U and Kruskal-Wallis), and their
results were compared. The results demonstrate a consistency comparable to that of standard
statistical software.
KEYWORDS: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Artificial Intelligence (AI).
RESUMO: A incorporação da Inteligência Artificial (IA) no cenário educacional e de pesquisa
marca uma era transformadora, oferecendo oportunidades sem precedentes para aprimorar a
forma como aprendemos e realizamos pesquisas. Este artigo explora o potencial do modelo de
linguagem baseado em IA, Data Analyst GPT, desenvolvido pela OpenAI, como uma
ferramenta confiável para realizar análises de dados quantitativos. A metodologia envolveu o
uso do Data Analyst GPT e de dois softwares estatísticos padrão, SPSS e JAMOVI, para
realizar uma análise estatística completa em um conjunto de dados educacionais típico,
abrangendo vários testes estatísticos padrão, como testes de normalidade, análise de
correlação (Pearson e Spearman), análise de variáveis categóricas e testes de comparação de
médias (teste t, ANOVA, Tukey, Mann-Whitney U e Kruskal-Wallis), e seus resultados foram
comparados.
PALAVRAS-CHAVE: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Inteligência Artificial
(IA).
RESUMEN: La incorporación de la Inteligencia Artificial (IA) en el ámbito educativo y de
investigación marca una era transformadora, ofreciendo oportunidades sin precedentes para
mejorar la forma en que aprendemos y realizamos investigaciones. Este artículo explora el
potencial del modelo de lenguaje basado en IA, Data Analyst GPT, desarrollado por OpenAI,
como una herramienta confiable para llevar a cabo análisis de datos cuantitativos. La
metodología involucró el uso de Data Analyst GPT y dos softwares estadísticos estándar, SPSS
y JAMOVI, para realizar un análisis estadístico completo en un conjunto de datos educativos
típico, abarcando varias pruebas estadísticas estándar, como pruebas de normalidad, análisis
de correlación (Pearson y Spearman), análisis de variables categóricas y pruebas de
comparación de medias (prueba t, ANOVA, Tukey, Mann-Whitney U y Kruskal-Wallis), y sus
resultados fueron comparados. Los resultados demuestran una consistencia comparable a la
de los software estadísticos estándar.
PALABRAS CLAVE: Data Analyst GPT. ChatGPT. SPSS. JAMOVI. Inteligencia Artificial
(IA).
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 3
Introduction
Artificial Intelligence (AI) is now central to various societal sectors, with stakeholders
crafting guidelines focused on ethics (European Commission, 2019; UNESCO, 2021), research
responsibility (European Commission, 2024) and educational strategies tailored for educators
(European Commission, 2022). Numerous higher education institutions, including Stanford
University (2021), contribute to this discourse by developing comprehensive guides. Major
institutions published guides for the ethical use of AI, indicating a concerted effort towards
responsible AI integration on a global scale (European Commission, 2019; UNESCO, 2021).
UNESCO has expressed its concern regarding Artificial Intelligence (AI) in higher
education. This concern encompasses everything; from the development of Quick Start Guides
(UNESCO, 2023a) to more specific issues, such as the use of ChatGPT, as well as broader
topics to help stakeholders make better use of AI (UNESCO, 2023b). Additionally, the
development of frameworks focused on AI-related competencies is also highlighted (Ehlers et
al., 2023).
In the European context, notably, landmark achievements include the European
Commission's approval of the world's first guidelines for AI usage (European Commission,
2021), as well as the formulation of Ethics Guidelines for Trustworthy AI (European
Commission, 2019).
The evolution of OpenAI's Generative Pre-Trained Transformer (GPT) series began
with the inaugural launch in 2018, followed by the GPT-3 model which debuted in 2020, which
represented a significant advancement in AI capabilities. Leveraging the foundation laid by
GPT-3, ChatGPT emerged in 2022 as a purpose-built platform tailored for conversational AI
and chatbot applications (Li et al., 2024; Singh-Harjit, Singh-Avneet, 2023).
The relationship between AI, Machine Learning (ML), Deep Learning (DL), Large
Language Models (LLM) and GPT is one of hierarchy and specialisation. The ML (Lary et al.,
2016) provides the overarching framework for learning from data; DL (Alzubaidi et al., 2021)
offers advanced techniques for learning from complex, high-dimensional datasets; LLM
(Chang, 2023; Fan et al., 2023; Li et al., 2024; Naveed et al., 2023) processes and generates
natural language at a large scale to facilitate natural human-computer interaction; and GPT,
which uses DL and LLM, provides users with coherent and contextually relevant answers for
their questions (Gimpel et al., 2023). The Data Analyst GPT is a personalised version of the
ChatGPT, optimised for data analysis. Figure 1 illustrates such a hierarchy of specialisation.
Figure 1. Hierarchy and Specialisation of Artificial Intelligence.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 4
Source: Prepared by the author (2024)
The implementation of AI in education has had a significant impact, evidenced by
improvements in the efficiency of the educational process, the promotion of global learning,
the personalisation of learning, the creation of more intelligent content and the optimisation of
educational management in terms of effectiveness and efficiency (Montenegro-Rueda et al.,
2023). The relationship between AI and research in higher education is two-fold: "The first
relates to research on AI, whereas the second is about research using or supported by AI tools
Research" (UNESCO, 2023b, p. 38). AI can process large volumes of data (Gimpel et al., 2023),
automatically learn to identify complex patterns and hidden trends, and it has the flexibility to
adapt to different types of data and research contexts. Therefore, it can enhance the
understanding and interpretation of quantitative data in the field of education.
There is a vast amount of research in the academic literature focused on using AI in
education (Al-Ghonmein, Al-Moghrabi, 2024; Crawford et al., 2024; Ding et al., 2023; Jia, Tu,
2024). However, studies exploring this technology's potential in analysing data are still
relatively scarce (Huang et al., 2024; Mohammadi, Nguyen, 2024; Sufi, 2024; Walter, 2024).
Following the directives laid out in the document "Living Guidelines on the Responsible
Use of Generative AI in Research (European Commission, 2024), it is crucial to underline the
importance of responsibility and integrity on the part of researchers concerning scientific output
supported by AI. This document emphasises the need for researchers to ultimately remain
responsible for the scientific content generated or supported by AI tools, to adopt a critical
stance, and be aware of the inherent limitations of generative AI, such as biases and
inaccuracies.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 5
Transparency in the use of these AI tools is also a key point highlighted in the research
guidelines (European Commission, 2024). Researchers are encouraged to describe which
generative AI tools have been used in their research processes, including information like the
name, version, and date of the tool, and how it influenced the research process. Proper
documentation of inputs (prompts) and outputs, whenever relevant, is encouraged to promote
openness and replicability of research. Lastly, these guidelines encourage researchers to engage
in continuous learning about the proper use of generative AI tools. Given the rapid development
of these technologies and the constant emergence of new applications, researchers need to stay
updated on best practices, participate in training, and share knowledge with colleagues and
other stakeholders, in order to to maximise the benefits of these advanced tools for research.
Several institutions have expressed their concerns about privacy, confidentiality, and
intellectual property rights, either concerning the fact that "models such as ChatGPT are opaque
to the dataset that has been used to train them" (UNESCO, 2021, p. 7) or when sharing sensitive
or protected information with AI tools, "researchers remain mindful that generated or uploaded
input (text, data, prompts, images, etc.) could be used for other purposes, such as the training
of AI models" (European Commission, 2024, p. 6).
In research, ChatGPT can assist in data analysis and summarising large sets
of data, which can help researchers quickly and easily identify patterns and
insights that would be difficult to uncover manually. Additionally, the model
can be used to generate research proposals, literature reviews, and other
research-related documents (Atlas, 2023, p. 24).
This article aims to investigate the reliability of Data Analyst GPT, the personalised and
optimised version of the ChatGPT-4o for data analysis, providing an intelligent and versatile
conversational interface for analysing quantitative research data. Its performance will be
compared with that obtained by using two standard statistical software packages, SPSS and
JAMOVI.
Methodology
This section details study procedures introducing GPT Data Analyst and benchmark
software. In Data Analyst GPT, custom prompts were developed to run the calculations, and
SPSS and JAMOVI tests were conducted according to the procedures outlined in their
respective support manuals.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 6
Data Analyst GPT
The AI-based tests were conducted using the Data Analyst GPT, the ChatGPT version
optimised for data analysis, using the Plus subscription plan. In ChatGPT, the "Data Analyst"
GPT is accessed through the "Explore GPTs" section, where an Excel file (*xlsx) containing
the dataset to be analysed can be uploaded. At the time of this writing, the GPT-4o model was
the most advanced in the GPT series.
Standard statistical software as a benchmark
Two standard statistical software packages were selected to be used as a benchmark,
namely the SPSS (version 29.0.2.0 [20]) and the JAMOVI (version 2.3.21.0), both operating
on a Mac OS system. The SPSS is a widely used statistical software that allows various types
of analysis, transformations and output forms (Alili; Krstev, 2019). The JAMOVI
2
(R Core
Team, 2021; The Jamovi Project, 2022) is a popular free and open-source statistical software,
which was adopted by the research community due to its ease-of-use and comprehensive suite
of statistical functions, from basic analyses to advanced univariate and multivariate techniques
(Algthami, Hussin, 2022; Marek et al., 2023).
Dataset
The dataset adopted in this article is based on already published research. The original
dataset was adapted, and new variables were added to cover a wider range of the statistical tests
needed to verify the reliability of the Data Analyst GPT. The dataset contains a variety of
variables, which allow the testing of different hypotheses and scenarios.
Statistical tests
This article covers the statistical tests most used in educational research, namely
normality tests, correlation analysis, categorical variables analysis and mean comparison tests.
2
https://www.jamovi.org/about.html
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 7
Normality
Two complementary approaches were employed for assessing the normality of the data
distribution, namely the Shapiro-Wilk statistical analysis and the visual inspection of the data
distribution using graphical analysis with boxplots and histograms. This provides a robust
assessment of normality, allowing the visual identification of asymmetries, outliers, and the
general shape of the distribution. Both analyses were carried out on the "points_1" and
"points_2" variables.
The Shapiro-Wilk test was used to compare the data from a sample to a set of data that
follows a normal distribution, i.e., with the same mean and standard deviation. In this test, non-
significant results (p>0.05) indicate that the distribution of the sample data does not
significantly differ from a normal distribution, suggesting that the data follow a normal
distribution. Conversely, a significant result (p<0.05) means that the distribution of the data is
significantly different from a normal distribution, implying that the data does not follow a
normal distribution (Dancey; Reidy, 2020; Field, 2024).
The visual approach allows researchers and analysts to conduct a detailed and intuitive
inspection of the data distribution, facilitating the identification of important characteristics,
such as skewness and kurtosis. By using specific graphs, such as boxplots and histograms, it is
possible to observe patterns, trends, and deviations that might not be evident through purely
numerical or statistical methods (Field, 2024).
A boxplot is an effective graphical representation that highlights in evidence the
essential characteristics of a dataset, which is especially useful when the data adhere to a normal
distribution. At its centre is the median, neatly contained within a box. This box's upper and
lower boundaries represent the upper and lower quartiles, respectively, demarcating the
interquartile range that encompasses the central 50% of the data points. Projecting from the
box, whiskers extend to the highest and lowest data points, delineating the data's overall spread.
Similarly, a histogram serves as a graphical tool that depicts the frequency distribution of a
dataset. It facilitates the visualisation of data distribution by illustrating the occurrence
frequency of each value. This visualisation is achieved by segmenting the dataset into defined
intervals, or "bins," and tallying the observations within these bins. These bins are designed to
be sequential, distinct, and uniform in size (Field, 2024).
Prompt in Data Analyst GPT: "I need a Shapiro-Wilk test conducted on the 'point_1'
data column, with the results presented in an APA format data table. This table should include
the test statistic, the p-value (rounded to three decimal places), and the degrees of freedom.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 8
Additionally, please generate a boxplot and histogram for the 'points_1' column to visually
assess its distribution".
Prompt in Data Analyst GPT: "I need a Shapiro-Wilk test conducted on the 'point_2'
data column, with the results presented in an APA format data table. This table should include
the test statistic, the p-value (rounded to three decimal places), and the degrees of freedom.
Additionally, please generate a boxplot and histogram for the 'points_2' column to visually
assess its distribution".
Correlation Analysis
The Spearman and Pearson tests were employed to analyse the correlations present in
the data, namely variables "points_1" and the "number_of_devices".
Correlation tests are used to assess both the strength and the direction of the association
between two quantitative variables. The Spearman correlation test, also known as rho (ρ), is
preferably used in situations where the data do not satisfy normality assumptions or when
dealing with ordinal variables, provide a robust measure of correlation that does not assume a
specific linear relationship. On the other hand, the Pearson correlation, symbolised by r, is
indicated for data that exhibit a normal distribution and a linear relationship, providing a
measure of the strength and direction of that linearity. Both tests range from -1 to 1, where
values close to -1 or 1 indicate a strong linear relationship, whether negative or positive,
respectively (Dancey; Reidy, 2020; Field, 2024).
Spearman's coefficient on variable "point_1"
Prompt in Data Analyst GPT: "I need a Spearman's coefficient conducted on the
'points_1' data column between the "number_of_devices" data column, with the results
presented in an APA format data table. This table should include the test statistic, the p-value
(rounded to three decimal places)".
Pearson's coefficient on variable "point_2"
Prompt in Data Analyst GPT: "I need a Pearson's coefficient conducted on the 'points_2'
data column between the "number_of_devices" data column, with the results presented in an
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 9
APA format data table. This table should include the test statistic, the p-value (rounded to three
decimal places)".
Categorical Variables Analysis
The Chi-square test was employed on the categorical variables' proficiency_level' and
'situation' to check their independence. The Chi-square test is a statistical method used to
compare observed frequencies with expected frequencies across different categories of a
categorical variable. It helps to determine if there are significant differences between categories,
namely, if the observed frequencies deviate significantly from the expected frequencies by
chance. It is widely used in research to test hypotheses about the association or independence
between categorical variables (Dancey; Reidy, 2020; Field, 2024).
Prompt In Data Analyst GPT: "I need a Chi-square conducted on the 'proficiency_level'
data column between the "situation" data column, with the results presented in an APA format
data table. This table should include the test statistic, the p-value (rounded to three decimal
places) and the degrees of freedom".
Mean Comparison Tests
Factors with two groups
The Mann-Whitney U test for non-parametric variables and the Test t for parametric
variables were employed to analyse the dataset when there are factors with two groups.
The independent sample Test t is predicated on the assumption that the underlying
populations from which the samples are drawn have normal distributions with equal variances,
making it a rigorous tool for examining hypotheses about mean differences in a controlled,
comparative context (Dancey; Reidy, 2020; Field, 2024). Unlike the Test t, the Mann-Whitney
U does not assume the normality of distributions or equality of variances between the groups,
making it particularly useful for data that do not meet parametric assumptions (Dancey; Reidy,
2020; Field, 2024).
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 10
Mann-Whitney U on variable "point_1"
Prompt in Data Analyst GPT: "I need the Mann-Whitney U test conducted on the
'points_1' data column between the "gender" data column, with the results presented in an APA
format data table, being 0 for Male and 2 for Female. This table should include the test statistic,
the p-value (rounded to three decimal places)."
Test t on the variable "point_2"
Prompt in Data Analyst GPT: "I need test t conducted on the 'points_2' data column
between the "gender" data column, with the results presented in an APA format data table,
being 0 for Male and 2 for Female. This table should include the test statistic, the p-value
(rounded to three decimal places) and the degrees of freedom."
More than two groups
For the cases where there are more than two groups, the Kruskal-Wallis test was
employed for non-parametric variables and the Analysis of Variance (ANOVA) for parametric
variables.
The Kruskal-Wallis test is a non-parametric alternative to the one-way ANOVA for
comparing more than two groups. It is used when the assumptions of the ANOVA are not met,
particularly when the data is not normally distributed. This test assesses whether the median
ranks of two or more groups differ significantly from each other.
Post-hoc tests are statistical comparisons conducted after an ANOVA to determine
which specific groups differ from each other. These tests are necessary when an ANOVA
indicates significant differences among group means, but the ANOVA itself does not specify
which groups differ significantly. This article employed the Tukey method due to its ability to
control the Type I error rate well across all pairwise comparisons (Dancey; Reidy, 2020; Field,
2024).
Kruskal-Wallis test on the variable "point_1"
Prompt in Data Analyst GPT: "I need the Kruskal-Wallis test conducted on the 'points_1'
data column between the "level_of_education" data column, with the results presented in an
APA format data table, being 2 for bachelor's, 3 for master's and 4 for PhD. This table should
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 11
include the test statistic, the p-value (rounded to three decimal places) and the degrees of
freedom."
ANOVA on variable "point_2"
Prompt in Data Analyst GPT: I need an ANOVA test conducted on the 'points_2' data
column between the "level_of_education" data column, with the results presented in an APA
format data table, being 2 for bachelor's, 3 for master's and 4 for PhD. I also need Levene's
test on this data in an APA format data table. These tables should include the test statistic, the
p-value (rounded to three decimal places) and the degrees of freedom.
and
Prompt in Data Analyst GPT: I need an ANOVA test conducted on the 'points_2' data
column between the "situation" data column, with the results presented in an APA format data
table, being 1 for employed, 2 for retired, 3 unemployed and 4 for student, for. I also need
Levene's test on this data in an APA format data table. These tables should include the test
statistic, the p-value (rounded to three decimal places) and the degrees of freedom. If a
statistically significant difference is identified, perform the Tukey post-hoc test.
Results
For comparative purposes, the same statistical tests were also carried out using two
standard statistical software, SPSS and JAMOVI, allowing us to compare the outcomes directly
with Data Analyst GPT.
Normality tests
Two distinct approaches were adopted for analysis performing normality tests:
statistical analysis and graphical analysis.
Statistical Analysis
The Shapiro-Wilk test was to verify the normality of distributions, as can be seen in
Table 1.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 12
Table 1 - Shapiro-Wilk test
Software
“point_1”
“point_2”
statistic
df
p-value
statistic
df
p-value
Data Analyst GPT
0.994
845
<.001
0.998
845
0.555
SPSS
0.994
846
<.001
0.998
846
0.555
JAMOVI
0.994
-
<.001
0.998
-
0.555
Source: Prepared by the author (2024)
The findings indicate consistency in the Data Analyst GPT results compared to SPSS
and JAMOVI for statistical values and p-values from the Shapiro-Wilk test. Nonetheless, a
notable difference in the Degrees of Freedom (df) was observed, with Data Analyst GPT
documenting 845, SPSS showing 846, and JAMOVI omitting this detail in both variables
"point_1" and "point_2".
When selecting which statistical tests to use, it is important to know if the sample
follows a normal distribution. In this case, the results obtained by statistical analysis show that
the "point_1" variable does not follow a normal distribution (p<0.05), indicating a possible
asymmetrical distribution or excess kurtosis. On the other hand, the "point_2" variable shows
characteristics of normality (p>0.05), suggesting that its distribution is consistent with that of a
normal distribution. This differentiation is crucial for the choice of statistical tests, guaranteeing
the validity and reliability of the analyses.
Graphic Analysis
Boxplots and histograms ([a] Data Analyst GPT, [b] SPSS, and [c] JAMOVI) to verify
their comparability when testing the normality of the distributions of the variables "point_1"
and "point_2". The boxplots for the "point_1" variable can be seen in Graphic 2 and for the
"point_2" variable, in Graphic 3. Additionally, histograms of the data for "point_1" are shown
in Graphic 4 and for "point_2" in Graphic 5.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 13
Graphic 2 Boxplots obtained for the variable "point_1"
Source: Prepared by the author (2024)
Graphic 3 - Boxplots obtained for the variable "point_2"
Source: Prepared by the author (2024)
Graphic 5 - Histograms obtained for the variable "point_2"
Source: Prepared by the author (2024)
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 14
Graphic 4 - Histograms obtained for the variable "point_1"
Source: Prepared by the author (2024)
The graphical analysis carried out using boxplots shows the reliability of Data Analyst
GPT compared to SPSS and JAMOVI. It is important to emphasise that whereas Data Analyst
GPT was only able to detect the presence of outliers, the SPSS and JAMOVI were also able to
indicate which of them were outliers.
Correlation Analysis
Based on the results obtained by the normality tests, Spearman's coefficient was used
for the non-parametric variable "point_1" (p<0.05), and Pearson's coefficient for the parametric
variable "point_2" (p>0.05) with "number_of_devices", as can be observed in Table 2.
Table 2 Spearman's ("point_1") and Pearson's coefficient ("point_2")
Software
Spearman's coefficient
Pearson's coefficient
ρ (rho)
p-value
ρ (rho)
p-value
Data Analyst GPT
0.228
<.001
-0.025
0.468
SPSS
0.228
<.001
-0.025
0.468
JAMOVI
0.228
<.001
-0.025
0.468
Source: Prepared by the author (2024)
The findings indicate the reliability of the Data Analyst GPT compared to SPSS and
JAMOVI, both for Spearman's coefficient applied to data with a non-normal distribution and
for Pearson's coefficient used for the normally distributed data.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 15
Categorical Variables Analysis.
Chi-square tests were carried out on the categorical variables "points_2" and "situation",
as shown in Table 3.
Table 3 - Chi-square
Software
statistic
df
p-value
Data Analyst GPT
50.767
15
<.001
SPSS
50.767
15
<.001
JAMOVI
50.8
15
<.001
Source: Prepared by the author (2024)
The findings indicate that Data Analyst GPT was able to provide consistent results when
compared to SPSS and JAMOVI in calculating the categorical variables using the Chi-square
test. It is important to note that, while JAMOVI reported the statistics to one decimal place, the
other software displayed them in three decimal places. However, this does not impact the
interpretation of the results.
Mean Comparison Tests
Factors with two groups
Based on the knowledge obtained about the normality of the data, the Mann-Whitney U
test was used for the non-parametric variable "point_1" and the Test t for the parametric variable
"point_2", as can be seen in Table 4.
Table 4 - Mann-Whitney U with "gender"
Software
Mann-Whitney U
Test t
statistic
p-value
statistic
df
p-value
Data Analyst GPT
92,001.5
0.390
0.810
844
0.418
SPSS
85,903.5
0.389
0.810
844
0.418
JAMOVI
85,904.0
0.390
0.810
844
0.418
Source: Prepared by the author
Regarding the p-value of the Mann-Whitney U test (Table 4), both Data Analyst GPT
and JAMOVI presented similar results. SPSS presented slight variations in the third decimal
place, likely due to rounding differences. A notable discrepancy was observed in the statistic
value obtained by the Data Analyst GPT, whereas SPSS and JAMOVI presented similar results
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 16
with little variation, which can be attributed to decimal rounding. Again, such a difference does
not affect the interpretation of the results.
More than two groups
Kruskal-Wallis tests were employed for non-parametric variables, such as "point_1" and
"level_of_education," the ANOVA tests for parametric variables, such as "point_2," and the
Levene tests, as can be seen in Table 5.
Table 5 Kruskal-Wallis, ANOVA and Levene tests
Software
Kruskal-Wallis test
ANOVA test
Levene test
statistic
df
p-value
statistic
df1
df2
p-value
F
p-value
Data Analyst GPT
9.741
2
0.008
0.882
2
843
0.414
0.281
0.755
SPSS
9.741
2
0.008
0.882
2
843
0.414
0.281a
0.755a
0.252b
0.777b
JAMOVI
9.74
2
0.008
0.882
2
843
0.414
0.252
0.777
aBased on the median; bBased on the mean.
Source: Prepared by the author (2024)
The findings indicate that Data Analyst GPT was able to provide results comparable to
the ones obtained by SPSS and JAMOVI, for both the Kruskal-Wallis test applied to data with
a non-normal distribution and for the ANOVA test with normally distributed data.
Concerning Levene's test, the SPSS software offered two variants, one calculated based
on the median and the other based on the mean, whereas both Data Analyst GPT and JAMOVI
provide only one version of the result. The results suggest that Data Analyst GPT considered
the median for the calculations, whereas JAMOVI used the mean. This correspondence
demonstrates a strong consistency between both software.
Another ANOVA test was further carried out to analyse the reliability of the post-hoc
test, now considering the "points_2" and "situation" variables. This was done to assess the
software's reliability when there is a significant statistical difference between the means. The
results for the ANOVA and Levene's tests are presented in Table 6, whereas the results for the
Tukey post-hoc tests are presented in Table 7.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 17
Table 6 ANOVA and Levene tests
Software
ANOVA test
Levene test
statistic
df1
df2
p-value
F
p-value
Data Analyst GPT
3.372
3
842
0.018
0.108
0.956a
SPSS
3.372
3
842
0.018
0.108a
0.956a
0.029b
0.993b
JAMOVI
3.37
3
842
0.018
0.029b
0.993b
aBased on the median; bBased on the mean.
Source: Prepared by the author (2024)
Table 7 - Tukey post-hoc
Comparison
Data Analyst GPT
SPSS
JAMOVI
statistic
Employed
Retired
0.030
0.030
0.030
Unemployed
0.900
0.946
0.946
Student
0.484
0.483
0.483
Retired
Unemployed
0.177
0.177
0.177
Student
0.030
0.030
0.030
Unemployed
Student
0.900
0.926
0.926
Source: Prepared by the author (2024)
The results demonstrate the reliability of Data Analyst GPT compared to SPSS and
JAMOVI in the ANOVA tests when there is a statistically significant difference between the
means, as well as in the Tukey post-hoc tests. It is important to note that the discrepancy
observed in Levene's test has the same origin as the variability found in ANOVA, which occurs
when there are no statistically significant differences between the means.
Discussion
This article aimed to assess the reliability of the Data Analyst GPT (ChatGPT) in
quantitative data analysis by conducting a direct comparison with the results obtained from two
classic statistical software packages, SPSS and JAMOVI. The tests selected for this direct
comparison included a) tests for normality; b) correlation analysis using Pearson's coefficient
for parametric samples and Spearman's for non-parametric ones; c) the Chi-square test for the
analysis of categorical variables; and d) mean comparison tests, including the Test t and
ANOVA for parametric samples, and the Mann-Whitney U and Kruskal-Wallis tests for non-
parametric samples.
Two approaches were used to assess the reliability of the Data Analyst GPT in analysing
normality: the Shapiro-Wilk statistical test for a quantitative assessment and graphical analysis
with boxplots and histograms for a visual assessment.
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 18
Tests carried out with Data Analyst GPT and reference statistical software, namely
SPSS and JAMOVI, require intermediate knowledge of statistics and data analysis (Huang et
al., 2024), particularly for selecting the statistical tests to be carried out. In the case of Data
Analyst GPT, execution is facilitated by a chat interace.
The Shapiro-Wilk test was applied to the "points_1" and "points_2" variables to verify
the normality of the data, and the results were equivalent in terms of the test statistic and p-
value. However, there is an apparent discrepancy in the Degrees of Freedom (df), with Data
Analyst GPT registering 845, SPSS 846, and JAMOVI omitting this metric. It is important to
clarify that, in the context of the Shapiro-Wilk test, the concept of degrees of freedom is not
normally used, as this test focuses on assessing whether a sample comes from a normal
distribution, without direct dependence on the degrees of freedom that usually apply to tests
involving variations or standard deviations. Therefore, the mention of degrees of freedom in
this context may not be essential, which may justify, at least in part, the absence of these values
in the Shapiro-Wilk test performed by JAMOVI.
The boxplots generated to assess the data distribution were informative, as they
illustrated their quartiles and highlighted the outliers. In the boxplots generated with SPSS
(Graphic 2b) and JAMOVI (Graphic 2c), the outliers are indicated at the bottom; the boxplots
produced by Data Analyst GPT (Graphic 2a) do not show such outliers; they only show their
existence. Therefore, there is a limitation observed in the Data Analyst GPT regarding the visual
representation of outliers, which can restrict a more in-depth analysis of extreme variations in
the data. However, in cases where multiple outliers are present, visualising the outliers will
prove challenging, regardless of the software used.
The histograms produced to assess the frequency distribution of the data provided a
clear visualisation and were also informative. They allow a like-for-like comparison, even when
their scales were automatically adjusted, and different data intervals were defined by the
software. This could happen either on the X-axis (abscissa), which represents the frequency of
each interval, with the highest bar indicating the highest frequency of values, or on the Y-axis
(ordinate), with reflects to the numerical count of the corresponding occurrences on the X-axis
is reflected. The histograms by Data Analyst GPT (Graphic 4a) were advantageous. The
inclusion of a density curve or Kernel Density Estimate (KDE) provides an additional
perspective on the overall distribution of the data, suggesting the shape of the underlying
distribution in a more continuous and integrated way.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 19
The results of the Spearman and Pearson correlation tests, as well as the Chi-square test,
demonstrate Data Analyst GPT's comparable performance to SPSS and JAMOVI. This
underscores the tool's reliability and accuracy in correlation analysis, affirming its capability to
deliver robust analytical outcomes.
Regarding the Mann-Whitney U test for comparison of means, the results indicate the
reliability of Data Analyst GPT compared to SPSS and JAMOVI in terms of p-value, even
considering a slight difference in the third decimal attributable to rounding. However, Data
Analyst GPT showed a significant difference in the values of the U statistic when compared to
the other software.
The Mann-Whitney U test was initially devised by Frank Wilcoxon (Wilcoxon, 1945)
to analyse measures of central tendency in samples of the same size. Later, Henry B. Mann and
Donald R. Whitney (Mann & Whitney, 1947) extended their application to samples of different
sizes. In this way, the Mann-Whitney U test statistical values can be derived through two
distinct approaches: the Rank-based formulation (Wilcoxon, 1945) and the Direct comparison
method (Mann & Whitney, 1947). The Rank-based formulation involves the combined ordering
of all values from both groups, assigning ranks to each value, and using these ranks to calculate
the U statistic, effectively adjusting for any ties (Wilcoxon, 1945). In contrast, the direct
comparison method quantifies the number of times a value from one group exceeds that of the
other, offering an intuitive approach that, despite its simplicity, becomes impractical for large
sample analyses due to computational demands (Mann; Whitney, 1947).
The SPSS documentation (IBM Corporation, 2022) mentions the use of the Rank-based
formulation, but equivalent documents for both Data Analyst GPT and JAMOVI were not
found. The similarity of the U statistics results between SPSS and JAMOVI (85,903.5 and
85,904.0, respectively) might indicate that JAMOVI also employs the Rank-based method,
whereas Data Analyst GPT adopts the Direct comparison method.
Considering the Mann-Whitney p-value, it can be concluded that the Data Analyst GPT
provided reliable results compared to SPSS and JAMOVI.
The Kruskal-Wallis and ANOVA tests show that Data Analyst GPT reliability is
comparable to SPSS and JAMOVI. This equivalence also extends to the results of the Tukey
post-hoc tests, applied when ANOVA indicated the presence of statistically significant
differences between groups, and to Levene's test to verify the homogeneity.
When faced with the processing limitation in Data Analyst GPT, even when using the
paid version, ChatGPT Plus (GPT-4o), the main impact perceived was on confidence in its
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 20
availability. The OpenAI displays a message
3
indicating that the usage limit will be dynamically
adjusted to prioritise access to GPT-4o by the greatest number of people according to demand
and system performance. It also indicates a limit of 40 messages every 3 hours. This calls into
question the availability of the Data Analyst GPT. This unexpected interruption and the need
to pause for approximately two hours before resuming analyses highlight a significant concern:
the lack of clarity and transparency regarding the current limitations of ChatGPT Plus (GPT-
4o) at the time of subscription, especially for those who rely on the Data Analyst GPT tool to
carry out continuous data analyses.
Another limiting factor that must be considered when adopting Data Analyst GPT is the
lack of specification of the tool's version. Whereas in this article, the JAMOVI version 2.3.21.0
and SPSS version 29.0.2.0 were used and known, in Data Analyst GPT, the exact version was
unknown, the only version was the GPT-4o model, given that as an artificial intelligence model,
it has a learning capacity. It is, therefore, important that research carried out with Data Analyst
GPT is accompanied by the execution prompt (European Commission, 2024).
Restoring and maintaining user confidence requires clear and comprehensive
communication from the developers about all operational aspects, including possible usage
limits. Such transparency at the time of subscription is essential to ensure that users can properly
plan their use of Data Analyst GPT, avoiding unpleasant surprises and ensuring that availability
expectations align with the tool's operational reality.
Other relevant aspects being aspects highlighted by several stakeholders are privacy,
confidentiality, and intellectual property rights (European Commission, 2019, 2024; UNESCO,
2021). Unlike SPSS and JAMOVI, in which the dataset is stored in the software installed on
the users' computers, Data Analyst GPT works in an online environment, and it is not very clear
how this dataset is stored and how it will be used, if for intelligence training or to be included
in a knowledge base. This jeopardises the use of Data Analyst GPT in research with confidential
or sensitive data.
It is crucial to highlight specific variations of artificial intelligence technologies
designed to ensure data privacy; an example includes ChatGPT Teams (Enterprise Privacy) and
temporary chats (OpenAI, 2024), configured to ensure that dataset entered by users is not used
for model training or inclusion in a knowledge base. Similarly, Microsoft's Copilot
(Universidad de Granada, 2024), an AI-powered coding assistance tool, adheres to strict
3
https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 21
guidelines to protect user information, preventing the use of this dataset for enhancing machine
learning algorithms.
In the European context, it is recommended that when using AI with sensitive or
protected information, it is crucial to pay attention to privacy, confidentiality and intellectual
property rights (European Commission, 2024). Researchers should protect unpublished or
sensitive work by avoiding uploading it to online AI systems without warranty that the data will
not be reused, such as when training future AI models or misusing the data. In addition, it is
important not to provide third parties with personal data without the individual's explicit
consent.
Despite these concerns, there is a significant advantage in analysing data provided by
the Data Analyst GPT. Through the prompts, researchers and students have access to a tool that
is easy to access and highly usable, making it easier to conduct data analysis with simple
commands and direct language and process requests in natural language. That said, it has the
potential to become an important ally in advancing research, stimulating innovation, and
supporting the discovery of new insights in an intuitive and accessible way. Furthermore, it also
can process large volumes of data without requiring advanced computing resources on the
researcher's part. This is because the calculations are carried out on the artificial intelligence
servers.
Conclusions
This article has demonstrated the potential of Data Analyst GPT in broadening the
horizon of educational research, by showing its reliability in analysing quantitative data.
Through a comparative analysis with standard statistical software, SPSS and JAMOVI, this
article showed that Data Analyst GPT can be reliably employed as a statistical tool by
educational researchers and students. Its user-friendly interface, which responds to simple
commands and direct language, alleviates the need to master complex programming languages
or have in-depth technical knowledge. This represents a significant advancement for conducting
quantitative studies, making data analysis more accessible and less intimidating for education
researchers.
A significant limitation of Data Analyst GPT is the lack of clear specification regarding
the version of the tool being used, as it operates in a dynamic environment where the exact
version may not be explicitly known, only the underlying model. Another important limitation
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 22
is the processing capacity of Data Analyst GPT, even in the paid version, ChatGPT Plus. The
unexpected interruption and the need for a pause of approximately two hours before resuming
analyses highlight a significant concern: the lack of clarity and transparency about usage
limitations, especially for those who rely on the tool for continuous data analysis. Maintaining
user trust requires clear and comprehensive communication from the developers regarding all
operational aspects, including potential usage limits. This transparency is crucial to ensure that
users can adequately plan their use of Data Analyst GPT, avoiding unpleasant surprises and
aligning their availability expectations with the tool's operational reality. Additionally, the file
upload limit of 50 MB, while sufficient for many quantitative data sets, could be a constraint in
studies involving larger datasets.
The reliance on a tool that operates in an online environment also raises concerns about
data privacy and confidentiality, as the details of how information is stored and used are not
entirely transparent. Researchers should be cautious when using confidential or sensitive data
with Data Analyst GPT, particularly in contexts where data security is critical.
The specific limitations of this study include the number of statistical tests conducted
and the direct request approach for data analysis, specifying the desired tests. Additionally, the
presentation of results generated by Data Analyst GPT may vary in future versions of the tool
as improvements in the interface and visualization methods are implemented. However, the
statistical results themselves, considering that Data Analyst GPT utilizes well-established
libraries, should not undergo significant changes, ensuring the replicability and reliability of
the results. It is important to note that this characteristic (use of libraries) is not exclusive to
Data Analyst GPT; software like JAMOVI, which uses R libraries, also shares this consistency,
though without the same graphical interface. In terms of user experience and data presentation,
other traditional statistical software like SPSS and JAMOVI are also subject to updates that
may impact these aspects.
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 23
REFERENCES
AL-GHONMEIN, A. M.; AL-MOGHRABI, K. G. The potential of ChatGPT technology in
education : advantages , obstacles and future growth. IAES International Journal of
Artificial Intelligence (IJ-AI), Jacarta, v. 13, n. 2, p. 12061213, 2024. DOI:
10.11591/ijai.v13.i2.pp1206-1213.
ALGTHAMI, N. M. J.; HUSSIN, N. Meta-Analytic Evidence for Board Characteristics as
Correlates of Firm Performance Among Saudi Arabian Businesses. International Journal of
Academic Research in Business and Social Sciences, Islamabade, v. 12, n. 6, 4 jun. 2022.
DOI: 10.6007/IJARBSS/v12-i6/13886.
ALILI, A.; KRSTEV, D. Using SPSS for research and Data Analysis. Knowledge
International Journal, Escópia, v. 32, n. 3, p. 363368, 26 jul. 2019. DOI:
10.35120/kij3203363a.
ALZUBAIDI, L.; ZHANG, J.; HUMAIDI, A. J.; AL-DUJAILI, A.; DUAN, Y.; AL-
SHAMMA, O.; SANTAMARÍA, J.; FADHEL, M. A.; AL-AMIDIE, M.; FARHAN, L.
Review of deep learning: concepts, CNN architectures, challenges, applications, future
directions. Springer International Publishing, Berlin, v. 8, 2021. DOI: 10.1186/s40537-
021-00444-8.
ATLAS, S. ChatGPT for Higher Education and Professional Development: A Guide to
Conversational AI. Kingston: University of Rhode Island, 2023. v. 1.
CHANG, D. T. Concept-Oriented Deep Learning with Large Language Models. ArXiv, [S.
l.], 2023. DOI: 10.48550/arXiv.2306.17089.
CRAWFORD, J.; ALLEN, K.-A.; PANI, B.; COWLING, M. When artificial intelligence
substitutes humans in higher education: the cost of loneliness, student success, and retention.
Studies in Higher Education, London, v. 49, n. 5, p. 115, 2024. DOI:
10.1080/03075079.2024.2326956.
DANCEY, C. P.; REIDY, J. Statistics without maths for psychology. 8. ed. London:
Prentice Hall, 2020.
DING, L.; LI, T.; JIANG, S.; GAPUD, A. Students’ perceptions of using ChatGPT in a
physics class as a virtual tutor. International Journal of Educational Technology in Higher
Education, Barcelona, v. 20, n. 1, p. 118, 2023. DOI: 10.1186/s41239-023-00434-1.
EHLERS, U.-D.; LINDNER, M.; SOMMER, S.; RAUCH, E. AICOMP - Future Skills in a
World Increasingly Shaped By AI. Ubiquity Proceedings, London, 2023. DOI:
10.5334/uproc.91.
EUROPEAN COMMISSION. Ethics guidelines for trustworthy AI. European Commission,
Bruxelas, p. 139, 2019.
EUROPEAN COMMISSION. Proposal for a Regulation of the european parliament and
of the council laying down harmonised rules on artificial intelligence (Artificial
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 24
Intelligence Act) and amending certain union legislative acts. Brussels: European
Commission, 2021.
EUROPEAN COMMISSION. Ethical guidelines on the use of artificial intelligence (AI)
and data in teaching and learning for Educators. Brussels: European Commission, 2022.
EUROPEAN COMMISSION. Living guidelines on the responsible use of generative AI in
research. Brussels: European Commission, 2024.
FAN, L.; LI, L.; MA, Z.; LEE, S.; YU, H.; HEMPHILL, L. A Bibliometric Review of Large
Language Models Research from 2017 to 2023. ArXiv, [S. l.], p. 136, 2023. DOI:
10.48550/arXiv.2304.02020.
FIELD, A. Discovering Statistics Using IBM SPSS Statistics. 6. ed. London: SAGE
Publications, 2024.
GIMPEL, H.; HALL, K.; DECKER, S.; LÄMMERMANN, L.; MÄDCHE, A.;
RÖGLINGER, M.; RUINER, C.; SCHOCH, M.; SCHOOP, M.; URBACH, N.; VANDIRK,
S. Unlocking the Power of Generative AI Models and Systems such as GPT-4 and ChatGPT
for Higher Education. Digital Annual Report, Stuttgart, p. 154, 2023.
HUANG, Y.; WU, R.; HE, J.; XIANG, Y. Evaluating ChatGPT-4.0’s data analytic
proficiency in epidemiological studies: A comparative analysis with SAS, SPSS, and R.
Journal of global health, New York, v. 14, n. 1088, p. 04070, 2024. DOI:
10.7189/jogh.14.04070.
IBM CORPORATION. IBM SPSS Statistics Algorithms. [S. l: s. n.], 2022.
JIA, X.-H.; TU, J.-C. Towards a New Conceptual Model of AI-Enhanced Learning for
College Students: The Roles of Artificial Intelligence Capabilities, General Self-Efficacy,
Learning Motivation, and Critical Thinking Awareness. Systems, [S. l.], v. 12, n. 3, p. 74,
2024.
LARY, D. J.; ALAVI, A. H.; GANDOMI, A. H.; WALKER, A. L. Machine learning in
geosciences and remote sensing. Geoscience Frontiers, Beijing, v. 7, n. 1, p. 310, 2016.
DOI: 10.1016/j.gsf.2015.07.003.
LI, J.; DADA, A.; PULADI, B.; KLEESIEK, J.; EGGER, J. ChatGPT in healthcare: A
taxonomy and systematic review. Computer Methods and Programs in Biomedicine,
Amsterdam, v. 245, p. 108013, 2024. DOI: 10.1016/j.cmpb.2024.108013.
MANN, H. B.; WHITNEY, D. R. On a Test of Whether one of Two Random Variables is
Stochastically Larger than the Other. The Annals of Mathematical Statistics, Washington,
v. 18, n. 1, p. 5060, mar. 1947. DOI: 10.1214/aoms/1177730491.
MAREK, J.; MAJ, E.; PRZYBYLA, O. K.; SKRZYNSKI, W.; PASICZ, K.;
FABISZEWSKA, E.; PRUSZYNSKI, A.; ROWINSKI, O. The impact of studying on the
hippocampal volume in medical students and its correlation with the results of the Final
Cassio SANTOS
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 25
Medical Examination: a single-centre, prospective observational cohort study. Polish Journal
of Radiology, Warsaw, v. 88, p. 2230, 16 jan. 2023. DOI: 10.5114/pjr.2023.124433.
MOHAMMADI, S. S.; NGUYEN, Q. D. A User-Friendly Approach for the Diagnosis of
Diabetic Retinopathy Using ChatGPT and Automated Machine Learning. Ophthalmology
Science, New York, v. 4, n. 4, p. 100495, 2024. DOI: 10.1016/j.xops.2024.100495.
MONTENEGRO-RUEDA, M.; LÓPEZ-MENESES, E.; FERNÁNDEZ-CERERO, J.;
FERNÁNDEZ-BATANERO, J. M. Impact of the Implementation of ChatGPT in Education:
A. Computers, Bern, v. 12, n. 153, p. 113, 2023. DOI: 10.3390/computers12080153.
NAVEED, H.; KHAN, A. U.; QIU, S.; SAQIB, M.; ANWAR, S.; USMAN, M.; AKHTAR,
N.; BARNES, N.; MIAN, A. A Comprehensive Overview of Large Language Models. ArXiv,
p. 143, 12 jul. 2023. DOI: 10.48550/arXiv.2307.06435.
OPENAI. Enterprise privacy at OpenAI. Available at: https://openai.com/enterprise-
privacy. Access: 25 Mar. 2024.
R CORE TEAM. A Language and environment for statistical computing. (Version 4.1)
[Computer software], 2021.
SINGH-HARJIT; SINGH-AVNEET. ChatGPT: Systematic Review, Applications, and
Agenda for Multidisciplinary Research. Journal of Chinese Economic and Business
Studies, Washington, v. 21, n. 2, p. 193212, 2023. DOI: 10.1080/14765284.2023.2210482.
STANFORD UNIVERSITY. Artificial Intelligence Index Report 2021. Stanford: Stanford
University, 2021.
SUFI, F. Generative Pre-Trained Transformer (GPT) in Research: A Systematic Review on
Data Augmentation. Information, Bern, v. 15, n. 2, p. 99, 2024. DOI: 10.3390/info15020099.
THE JAMOVI PROJECT. Jamovi. (Version 2.3) [Computer Software], 2024.
UNESCO. Recommendation on the Ethics of Artificial Intelligence. Paris: UNESCO.
2021.
UNESCO. ChatGPT and Artificial Intelligence in Higher Education: Quick start guide.
Paris: UNESCO, 2023a.
UNESCO. Harnessing the Era of Artificial Intelligence in Higher Education: A Primer
for Higher Education Stakeholders. Paris: UNESCO, 2023b.
UNIVERSIDAD DE GRANADA. Inteligencia Artificial en la universidad: Centro de
Producción de Recursos para la Universidad Digital (CEPRUD). 2024. Available at:
https://ceprud.ugr.es/formacion-tic/inteligencia-artificial. Access: 25 Mar. 2024.
WALTER, Y. Embracing the future of Artificial Intelligence in the classroom: the relevance
of AI literacy, prompt engineering, and critical thinking in modern education. International
Artificial Intelligence in the Analysis of Educational Research Quantitative Data: Reliability of Data Analyst GPT Compared to SPSS and
JAMOV
Nuances: Estudos sobre Educação, Presidente Prudente, v. 35, n. 00, e024013, 2024. e-ISSN: 2236-0441
DOI: https://doi.org/10.32930/nuances.v35i00.10682 26
Journal of Educational Technology in Higher Education, Dublin, v. 21, n. 1, 2024. DOI:
10.1186/s41239-024-00448-3.
WILCOXON, F. Individual Comparisons by Ranking Methods. Biometrics Bulletin,
Washington, v. 1, n. 6, p. 80, dez. 1945. DOI: 10.2307/3001968.
CRediT Author Statement
Acknowledgements: Acknowledgment to Professor Pedro Reis for his valuable
contributions to the conceptualization of this article.
Funding: This work was supported by National Funds through FCT-Portuguese
Foundation for Science and Technology, IP, under the scope of Unidade de Investigação e
Desenvolvimento em Educação e Formação (UIDEF), UIDB/04107/2020,
https://doi.org/10.54499/UIDB/04107/2020.
Conflicts of interest: The author declares no competing interests.
Ethical approval: This article does not require ethical approvals
Data and material availability: The anonymous datasets used and/or analyzed during the
study and outputs of Data Analyst GTP, SPSS and JAMOVI are available in the
Supplementary Information.
Authors' contributions: Sole authorship.
Processing and editing: Editora Ibero-Americana de Educação.
Proofreading, formatting, normalization and translation.