Нормализация используется для устранения избыточных данных и обеспечивает создание кластеров хорошего качества, которые могут повысить эффективность алгоритмов кластеризации. Таким образом, это становится важным шагом перед кластеризацией как евклидово расстояние очень чувствителен к изменениям различий[3].
Нужно ли нам нормализовать данные для кластеризации K-средних?
Как и в методе k-NN, характеристики, используемые для кластеризации, должны измеряться в сопоставимых единицах. В данном случае единицы не являются проблемой, так как все 6 характеристик выражаются по 5-балльной шкале. Нормализация или стандартизация не нужны.
Как вы готовите данные перед кластеризацией?
Подготовка данных
Для выполнения кластерного анализа в R, как правило, данные должны быть подготовлены следующим образом: строки - это наблюдения (индивиды), а столбцы - переменные. Любое отсутствующее значение в данных должно быть удалено или оценено. Данные должны быть стандартизированы (т. е. масштабированы), чтобы сделать переменные сопоставимыми.
Должны ли данные масштабироваться для кластеризации?
При кластеризации вы вычисляете сходство между двумя примерами, объединяя все данные признаков для этих примеров в числовое значение. Объединение данных объектов требует, чтобы данные имели одинаковый масштаб.
Почему важно нормализовать объекты перед кластеризацией?
Стандартизация - важный шагpreprocessing.
Как поясняется в этой статье, k-средние минимизируют функцию ошибки с использованием алгоритма Ньютона, то есть алгоритма оптимизации на основе градиента. Нормализация данных улучшает сходимость таких алгоритмов.