Avaliação da qualidade de testes python gerados por LLMs

Alves, Victor Anthony Pereira

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/80690

Tipo:	TCC
Título:	Avaliação da qualidade de testes python gerados por LLMs
Autor(es):	Alves, Victor Anthony Pereira
Orientador:	Bezerra, Carla Ilane Moreira
Palavras-chave em português:	large language models;código de teste python;test smells
CNPq:	CNPQ: CIÊNCIAS EXATAS E DA TERRA
Data do documento:	2025
Citação:	ALVES, Victor Anthony Pereira. Avaliação da qualidade de testes python gerados por LLMs. 2025. 75 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2025.
Resumo:	A geração manual de scripts de teste é um processo demorado, custoso e propenso a erros, ressaltando a importância de soluções automatizadas. Os Large Language Models (LLMs) têm demonstrado um potencial significativo nessa área, aproveitando seu vasto conhecimento para gerar código de teste de forma mais eficiente. Este estudo investiga a qualidade do código de teste em Python produzido por três LLMs: GPT-4o, Amazon Q e LLama 3.3. A confiabilidade estrutural das suítes de teste é avaliada em dois contextos distintos de prompt: Text2Code (T2C) e Code2Code (C2C). A análise envolve a identificação de erros e test smells, com um foco especial na correlação desses problemas com padrões inadequados de design. Os resultados indicam que a maioria das suítes de teste geradas pelos LLMs continha pelo menos um erro ou test smell. Os erros de asserção foram os mais prevalentes, representando 64% de todos os erros identificados, enquanto o Lack of Cohesion of Test Cases foi o test smell mais detectado (41%). O contexto do prompt teve um impacto significativo na qualidade dos testes, pois prompts textuais com instruções detalhadas geraram testes com menos erros, mas uma maior incidência de test smells. Entre os LLMs avaliados, o GPT-4o produziu a menor quantidade de erros em ambos os contextos (10% em C2C e 6% em T2C), enquanto o Amazon Q apresentou as maiores taxas de erro (19% em C2C e 28% em T2C). Em relação aos test smells, o Amazon Q teve menos detecções no contexto C2C (9%), enquanto o LLama 3.3 apresentou melhor desempenho no contexto T2C (10%). Além disso, observou-se uma forte relação entre erros específicos, como problemas de asserção e indentação, e test smells relacionados à coesão dos casos de teste. Esses resultados destacam oportunidades para aprimorar a qualidade dos testes gerados por LLMs e reforçam a necessidade de pesquisas futuras para explorar cenários de geração otimizados e estratégias mais eficazes de engenharia de prompt.
Abstract:	The manual generation of test scripts is a time-intensive, costly, and error-prone process, emphasizing the importance of automated solutions. Large Language Models (LLMs) have demonstrated significant potential in this area by leveraging extensive knowledge to generate test code more efficiently. This study examines the quality of Python test code produced by three LLMs: GPT-4o, Amazon Q, and LLama 3.3. The structural reliability of test suites is evaluated under two distinct prompt contexts: Text2Code (T2C) and Code2Code (C2C). The analysis involves identifying errors and test smells, with a particular focus on their correlation to inadequate design patterns. The findings indicate that most test suites generated by the LLMs contained at least one error or test smell. Assertion errors were the most prevalent, accounting for 64% of all identified errors, while Lack of Cohesion of Test Cases was the most frequently detected test smell (41%). Prompt context played a significant role in test quality, as textual prompts with detailed instructions tended to generate tests with fewer errors but a higher incidence of test smells. Among the evaluated LLMs, GPT-4o produced the fewest errors in both contexts (10% in C2C and 6% in T2C), whereas Amazon Q exhibited the highest error rates (19% in C2C and 28% in T2C). Regarding test smells, Amazon Q had fewer detections in the C2C context (9%), while LLama 3.3 showed better performance in the T2C context (10%). Additionally, a strong relationship was observed between specific errors, such as assertion and indentation issues, and test case cohesion smells. These results highlight opportunities to enhance the quality of LLM-generated tests and emphasize the need for further research into optimized generation scenarios and improved prompt engineering strategies.
URI:	http://repositorio.ufc.br/handle/riufc/80690
Currículo Lattes do Orientador:	http://lattes.cnpq.br/4277471687235814
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tcc_vapalves.pdf		3,8 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas