Glossário IA
O dicionário completo da Inteligência Artificial
Família de Colunas
Agrupamento lógico de colunas relacionadas em bancos de dados colunares, permitindo uma organização hierárquica dos dados para acesso mais eficiente.
Grupo de Linhas
Unidade de processamento em formatos colunares contendo um conjunto de linhas armazenadas verticalmente, otimizando as operações de E/S e a compressão.
Fragmento de Coluna (Column Chunk)
Fragmento físico de dados contendo os valores de uma coluna específica, comprimido e armazenado independentemente para permitir acesso seletivo aos dados.
Formato Parquet
Formato de armazenamento colunar open-source otimizado para cargas de trabalho analíticas, utilizando codificação eficiente e técnicas avançadas de compressão.
Formato ORC
Formato colunar otimizado para Apache Hive, fornecendo alta compressão e desempenho rápido de consulta com tipagem de dados estrita.
Execução Vetorizada
Técnica de processamento onde as operações são aplicadas a lotes de dados em paralelo, reduzindo a sobrecarga e melhorando o rendimento das consultas colunares.
Predicado Pushdown
Otimização que empurra os filtros de consulta para a fonte de dados, reduzindo a quantidade de dados lidos e processados em sistemas colunares.
Poda de Colunas (Column Pruning)
Técnica que elimina a leitura de colunas não requeridas em uma consulta, explorando a organização colunar para minimizar os acessos ao disco.
Codificação por Dicionário
Método de compressão que substitui valores repetidos por identificadores curtos, particularmente eficaz para dados categóricos em sistemas colunares.
Mapas de Zona
Metadados que indicam os valores mínimos e máximos em segmentos de dados, permitindo a eliminação rápida de blocos irrelevantes durante as consultas.
Codificação Delta
Técnica de compressão que armazena as diferenças entre valores sucessivos em vez dos valores absolutos, ideal para dados ordenados e temporais.
Codificação RLE
Run Length Encoding (Codificação por Comprimento de Execução) que comprime sequências de valores idênticos armazenando o valor e o número de ocorrências consecutivas.
Filtros de Bloom
Estruturas de dados probabilísticas que permitem determinar rapidamente a ausência de um valor em um conjunto, otimizando as buscas em sistemas colunares.
Índice de Salto
Metadados que permitem pular diretamente para blocos de dados relevantes durante a leitura sequencial de colunas, acelerando as varreduras de dados.
Segmentação Vertical
Processo de divisão física dos dados em partições baseadas em colunas, permitindo uma distribuição e paralelismo eficazes em clusters colunares.
Agregação Pushdown
Otimização que move os cálculos de agregação para a camada de armazenamento, reduzindo o volume de dados transferidos em arquiteturas colunares.