Нормализация полезна когда ваши данные имеют разные масштабы, а используемый вами алгоритм не делает предположений о распределении ваших данных, таких как k-ближайшие соседи и искусственные нейронные сети сети. Стандартизация предполагает, что ваши данные имеют распределение Гаусса (колоколообразная кривая).
Когда мы должны нормализовать данные?
Данные должны быть нормализованы или стандартизированы, чтобы привести все переменные в пропорции друг к другу. Например, если одна переменная в 100 раз больше другой (в среднем), то ваша модель может работать лучше, если вы нормализуете/стандартизируете две переменные, чтобы они были приблизительно эквивалентны.
В чем разница между нормализацией и стандартизацией?
Нормализация обычно означает изменение масштаба значений в диапазоне [0, 1]. Стандартизация обычно означает перемасштабирование данных, чтобы иметь среднее значение 0 и стандартное отклонение 1 (единичная дисперсия).
Когда и зачем нужна нормализация данных?
Проще говоря, нормализация гарантирует, что все ваши данные выглядят и читаются одинаково во всех записях. Нормализация стандартизирует поля, включая названия компаний, имена контактов, URL-адреса, адресную информацию (улицы, штаты и города), номера телефонов и должности.
Как вы выбираете нормализацию и стандартизацию?
В деловом мире «нормализация» обычно означает, что диапазон значений«нормировано от 0,0 до 1,0». «Стандартизация» обычно означает, что диапазон значений «стандартизирован» для измерения количества стандартных отклонений значения от его среднего значения.