Armazenamento Colunar - Glossário IA

📖

termos

Família de Colunas

Agrupamento lógico de colunas relacionadas em bancos de dados colunares, permitindo uma organização hierárquica dos dados para acesso mais eficiente.

📖

termos

Grupo de Linhas

Unidade de processamento em formatos colunares contendo um conjunto de linhas armazenadas verticalmente, otimizando as operações de E/S e a compressão.

📖

termos

Fragmento de Coluna (Column Chunk)

Fragmento físico de dados contendo os valores de uma coluna específica, comprimido e armazenado independentemente para permitir acesso seletivo aos dados.

📖

termos

Formato Parquet

Formato de armazenamento colunar open-source otimizado para cargas de trabalho analíticas, utilizando codificação eficiente e técnicas avançadas de compressão.

📖

termos

Formato ORC

Formato colunar otimizado para Apache Hive, fornecendo alta compressão e desempenho rápido de consulta com tipagem de dados estrita.

📖

termos

Execução Vetorizada

Técnica de processamento onde as operações são aplicadas a lotes de dados em paralelo, reduzindo a sobrecarga e melhorando o rendimento das consultas colunares.

📖

termos

Predicado Pushdown

Otimização que empurra os filtros de consulta para a fonte de dados, reduzindo a quantidade de dados lidos e processados em sistemas colunares.

📖

termos

Poda de Colunas (Column Pruning)

Técnica que elimina a leitura de colunas não requeridas em uma consulta, explorando a organização colunar para minimizar os acessos ao disco.

📖

termos

Codificação por Dicionário

Método de compressão que substitui valores repetidos por identificadores curtos, particularmente eficaz para dados categóricos em sistemas colunares.

📖

termos

Mapas de Zona

Metadados que indicam os valores mínimos e máximos em segmentos de dados, permitindo a eliminação rápida de blocos irrelevantes durante as consultas.

📖

termos

Codificação Delta

Técnica de compressão que armazena as diferenças entre valores sucessivos em vez dos valores absolutos, ideal para dados ordenados e temporais.

📖

termos

Codificação RLE

Run Length Encoding (Codificação por Comprimento de Execução) que comprime sequências de valores idênticos armazenando o valor e o número de ocorrências consecutivas.

📖

termos

Filtros de Bloom

Estruturas de dados probabilísticas que permitem determinar rapidamente a ausência de um valor em um conjunto, otimizando as buscas em sistemas colunares.

📖

termos

Índice de Salto

Metadados que permitem pular diretamente para blocos de dados relevantes durante a leitura sequencial de colunas, acelerando as varreduras de dados.

📖

termos

Segmentação Vertical

Processo de divisão física dos dados em partições baseadas em colunas, permitindo uma distribuição e paralelismo eficazes em clusters colunares.

📖

termos

Agregação Pushdown

Otimização que move os cálculos de agregação para a camada de armazenamento, reduzindo o volume de dados transferidos em arquiteturas colunares.

Glossário IA

Família de Colunas

Grupo de Linhas

Fragmento de Coluna (Column Chunk)

Formato Parquet

Formato ORC

Execução Vetorizada

Predicado Pushdown

Poda de Colunas (Column Pruning)

Codificação por Dicionário

Mapas de Zona

Codificação Delta

Codificação RLE

Filtros de Bloom

Índice de Salto

Segmentação Vertical

Agregação Pushdown

Nenhum resultado encontrado