Glossário IA
O dicionário completo da Inteligência Artificial
MMLU (Massive Multitask Language Understanding)
Benchmark abrangente que avalia o conhecimento e a resolução de problemas de LLMs em 57 tópicos, desde matemática até história, usando um formato de perguntas de múltipla escolha para medir a compreensão geral e as capacidades de raciocínio.
HELM (Holistic Evaluation of Language Models)
Framework de avaliação sistemática que mede LLMs em várias dimensões, incluindo precisão, robustez, equidade, viés, eficiência e impacto ambiental, fornecendo uma visão completa do desempenho do modelo.
GLUE (General Language Understanding Evaluation)
Conjunto de 9 tarefas diferentes de PNL projetadas para avaliar a compreensão geral da linguagem, incluindo classificação de sentimentos, inferência linguística e similaridade semântica para medir as capacidades de compreensão multidimensionais.
SuperGLUE
Versão aprimorada do GLUE que propõe tarefas mais complexas que exigem raciocínio avançado, projetada especificamente para avaliar LLMs modernos e evitar o desempenho de teto alcançado com o benchmark GLUE original.
BIG-bench (Beyond the Imitation Game Benchmark)
Coleção colaborativa de mais de 200 tarefas de avaliação criadas por pesquisadores para testar os limites dos LLMs, incluindo tarefas de raciocínio, matemática e compreensão de linguagem natural complexas.
TruthfulQA
Benchmark projetado para medir a tendência dos LLMs de gerar respostas verdadeiras em vez de repetir informações falsas frequentemente encontradas nos dados de treinamento, avaliando a capacidade de distinguir verdade de falsidade.
HumanEval
Conjunto de 164 problemas de programação Python criados pela OpenAI para avaliar a capacidade dos LLMs de gerar código funcional, medindo a compreensão sintática e algorítmica através de testes unitários automatizados.
MATH (Mathematical Reasoning)
Dataset de problemas matemáticos de nível de competição que avalia as capacidades de raciocínio matemático dos LLMs, incluindo álgebra, geometria e teoria dos números para medir a resolução de problemas complexos.
HellaSwag
Teste de benchmark que avalia a compreensão do senso comum e o raciocínio sobre cenários da vida cotidiana, pedindo aos modelos que escolham a conclusão de frase mais plausível entre opções contextualmente coerentes.
ARC (AI2 Reasoning Challenge)
Conjunto de perguntas de ciências de nível primário e secundário que exigem raciocínio complexo, projetado para avaliar as capacidades de inferência e compreensão científica dos LLMs com perguntas de múltipla escolha difíceis.
SQuAD (Stanford Question Answering Dataset)
Dataset de referência para a avaliação de sistemas de perguntas e respostas extrativas, contendo mais de 100.000 perguntas feitas por humanos sobre artigos da Wikipedia, medindo a capacidade de localizar informações precisas em um texto.
Winogrande
Dataset de resolução de ambiguidade anafórica em larga escala usando esquemas Winograd, testando a compreensão do senso comum através de frases onde a resolução correta depende de conhecimentos do mundo real.
WinoBias
Dataset projetado para avaliar os vieses de gênero em LLMs, usando frases com estereótipos ocupacionais para medir se os modelos favorecem implicitamente certos gêneros em contextos profissionais específicos.
BBH (Big-Bench Hard)
Subconjunto de 23 tarefas particularmente difíceis do BIG-bench selecionadas porque representam os maiores desafios para os LLMs atuais, exigindo capacidades de raciocínio multi-etapas e uma compreensão profunda.
MMLU-Pro
Versão estendida do MMLU que inclui perguntas mais complexas que exigem raciocínio em várias etapas, projetada para diferenciar melhor o desempenho de modelos avançados com problemas que exigem uma compreensão aprofundada e deduções lógicas.
GSM8K
Dataset de 8.5 mil problemas matemáticos textuais de nível escolar que exigem raciocínio multi-etapas, avaliando a capacidade dos LLMs de compreender problemas em linguagem natural e gerar soluções matemáticas coerentes.
Avaliação de Cadeia de Pensamento
Metodologia de avaliação que mede a capacidade dos LLMs de gerar raciocínios passo a passo para resolver problemas complexos, avaliando não apenas a resposta final, mas também a qualidade e a coerência do processo de raciocínio.