Глоссарий ИИ
Полный словарь искусственного интеллекта
CF-дерево (дерево характеристик кластеризации)
Древовидная структура данных, лежащая в основе BIRCH, хранящая статистические сверки (характеристики кластеризации) в своих узлах для компактного представления подкластеров.
Характеристика кластеризации (CF)
Тройка (N, LS, SS), которая статистически суммирует подкластер, где N — количество точек, LS — линейная сумма точек, а SS — сумма квадратов точек.
Порог диаметра (Threshold)
Параметр BIRCH, определяющий максимальный диаметр подкластера в листе CF-дерева, контролирующий гранулярность сводки кластеризации.
Фактор ветвления (Branching Factor)
Параметр, ограничивающий количество записей (потомков) на узел в CF-дереве, влияющий на размер и форму дерева для оптимизации производительности.
Микрокластеризация
Начальная фаза BIRCH, в которой точки данных организуются в микрокластеры, представленные записями листьев CF-дерева.
Макрокластеризация
Финальная фаза BIRCH, применяющая алгоритм кластеризации (например, K-Means) к микрокластерам (листьям CF-дерева) для генерации финальных кластеров.
Инкрементное суммирование
Способность BIRCH обновлять CF-дерево новыми точками данных без необходимости полного пересчета с самого начала, идеально подходящая для потоков данных.
Аддитивное расстояние CF (CF Additive Distance)
Метрика расстояния, используемая в BIRCH для измерения близости между двумя характеристиками кластеризации, вычисляемая непосредственно на основе их статистических сводок без доступа к исходным точкам.
Листовая запись (Leaf Entry)
Элемент листа CF-дерева, представляющий микрокластер, содержащий кластерную характеристику (Clustering Feature) и указатель на следующий узел в связном списке листьев.
Связный список листьев (Leaf Linked List)
Структура в CF-дереве, связывающая все листья для эффективного последовательного сканирования на этапе макрокластеризации.
Поглощение точки (Point Absorption)
Процесс в алгоритме BIRCH, при котором новая точка данных добавляется в ближайший микрокластер, если добавление не превышает пороговое значение диаметра.
Разделение узла (Node Splitting)
Механизм, запускаемый в BIRCH, когда вставка точки привела бы к превышению порога диаметра или коэффициента ветвления, разделяющий узел для соблюдения ограничений.
Фаза перестройки (Rebuilding Phase)
Необязательный этап в BIRCH, на котором CF-дерево перестраивается с более низким порогом диаметра для повышения точности кластеризации перед финальным этапом.
Инкрементальные вычислительные затраты
Ключевое преимущество BIRCH, при котором стоимость вставки точки данных логарифмически зависит от количества точек, что делает алгоритм масштабируемым.
Сводка кластера (Cluster Summary)
Фундаментальная концепция BIRCH, при которой группа точек представляется статистическим сводом (CF), а не отдельными точками, что уменьшает объем используемой памяти.