Кросс-валидация (Cross-validation)

Кросс-валидация (Cross-validation)

Распространенные типы кросс-валидации

Кросс-валидация по K блокам (K-fold cross-validation)

Валидация последовательным случайным сэмплированием (random subsampling)

Поэлементная кросс-валидация (Leave-one-out, LOO)

Оценка соответствия модели

Цель кросс-валидации в том, чтобы оценить ожидаемый уровень соответствия модели данным, независимым от тех данных, на которых модель тренировалась. Она может использоваться для оценки любой количественной меры соответствия, подходящей для данных и модели. Например, для задачи бинарной классификации, каждый случай в тестовом наборе будет предсказан правильно или неправильно. В этой ситуации коэффициент ошибки может быть использован в качестве оценки соответствия, хотя могут использоваться и другие оценки. Если предсказываемое значение распределено непрерывно, для оценки соответствия может использоваться среднеквадратичная ошибка, корень из среднеквадратичной ошибки или медианное абсолютное отклонение.

Применения

Кросс-валидация может использоваться для сравнения результатов различных процедур предсказывающего моделирования. Например, предположим, что мы интересуемся оптическим распознаванием символов, и рассматриваем варианты использования либо поддерживающих векторов (Support Vector Machines, SVM), либо k ближайших соседей (k nearest neighbors, KNN). С помощью кросс-валидации мы могли бы объективно сравнить эти два метода в терминах относительных коэффициентов их ошибок классификаций. Если мы будем просто сравнивать эти методы по их ошибкам на тренировочной выборке, KNN скорее всего покажет себя лучше, поскольку он более гибок и следовательно более склонен к переподгонке по сравнению с SVM.

Вопросы вычислительной производительности

Большинство форм кросс-валидации достаточно просты для реализации, если имеется готовая реализация метода предсказания. В частности, метод предсказания нужен только в виде «черного ящика», нет нужды лезть в детали его реализации. Если метод предсказания достаточно ресурсоемок в тренировке, кросс-валидация может быть медленной, поскольку тренировка выполняется последовательно много раз. В некоторых случаях, таких как метод наименьших квадратов или ядерная регрессия, кросс-валидация может быть существенно ускорена предварительным вычислением некоторых значений, которые используются повторно на тренировке, или используя «правила обновления», такие как формулу Sherman-Morrison. Однако нужно быть осторожным, чтобы обеспечить полное отделение валидационного набора данных от тренировочного, иначе может случиться смещение (bias). Крайний пример ускорения кросс-валидации случается в случае линейной регрессии, где результаты кросс-валидациии имеют явную аналитическую форму, известную как PRESS (prediction residual error sum of squares).

Ограничения и неверное использование кросс-валидации

Кросс-валидация дает значимые результаты только когда тренировочный набор данных и тестовый набор данных берутся из одного источника, из одной популяции. В многих применениях предсказательных моделей структура изучаемой системы меняется со временем. Это может наводить систематические отклонения тренировочного и валидационного наборов данных. К примеру, если модель для предсказания цены акции тренируется на данных из определенного пятилетнего периода, нереалистично рассматривать последующий пятилетний период как выборку из той же самой популяции.

*Предлагаемые к заключению договоры или финансовые инструменты являются высокорискованными и могут привести к потере внесенных денежных средств в полном объеме. До совершения сделок следует ознакомиться с рисками, с которыми они связаны.

Ссылка на основную публикацию