Метрики для классификации ситуаций: Многие задачи сводятся к сравнению текущего вектора признаков,

Содержание
  1. Метрики для классификации ситуаций
  2. Притягивать деньги по Фен шуй
  3. Что такое ночные грузоперевозки и в чем их преимущества
  4. На чем держится бизнес?
  5. Владимир Бычков
  6. Обзор сайта a-contract.ru контактное производство электроники
  7. Циклы питания
  8. Что посмотреть в Мюнхене
  9. Вкусные роллы в Одессе. Доставка суши и роллов в Одессе
  10. Программирование контроллера ПДП(DMA)
  11. Мир кино mirkino.club новинки кино
  12. Курьерская доставка цветочных подарков по Волгоградской области
  13. Чувства и личность
  14. Батл Арена Герои Адвентуре прохождение экспедиции 1 уровня на экспертном уровне сложности
  15. Кредит на пополнение оборотных средств
  16. Фикус помогает забеременеть? Примета
  17. Причины поломок прецизионных кондиционеров
  18. Терапия Герсона. Альтернативные методы лечения рака
  19. Аренда жилья в Анапе, как найти дешевое жилье в Анапе
  20. Intrigue Dating журнал об отношениях и интиме
  21. Преимущества постельного белья из сатина
  22. Технология возведения фундамента на винтовых сваях компании ООО «Экопан-Инжиниринг»
  23. Реконструкция водохранилища
  24. Метрики в задачах машинного обучения
  25. Accuracy, precision и recall
  26. Accuracy
  27. Precision, recall и F-мера
  28. AUC-ROC и AUC-PR
  29. Logistic Loss
  30. Подытожим:
  31. Полезные ссылки
  32. Благодарности

Метрики для классификации ситуаций

Метрики для классификации ситуаций: Многие задачи сводятся к сравнению текущего вектора признаков,

Многие задачи сводятся к сравнению текущего вектора при­знаков, характеризующих некоторое состояние или процесс, с эталонным (типичным) вектором той же размерности для выяснения степени близости или расстояния. В общем случае возникает задача парного сравнения текущего вектора с множе­ством векторов — например эталонов лечебно-диагностических процессов.

Рассмотрим образ в некотором пространстве признаков. В случае, если рассматривается п признаков, имеем для каж­дого образа точку тг-мерного пространства. Пусть в некотором тг-мерном пространстве заданы 3 точки — А, В, С.

К метрикам можно предъявить следующие требования:

Близость образов можно определять с помощью мер близо­сти, определённых несколько иным образом. Условия, которым они должны удовлетворять, таковы:

В качестве меры близости, например, может быть использо­ван классический коэффициент корреляции:

где п — число совпавших признаков, п! — общее число призна­ков.

Рассмотрим основные типы метрик, которые могут быть ис­пользованы в задачах извлечения информации о медицинских технологических процессах.

Притягивать деньги по Фен шуй

Человек во власти денег, будь-то бумажка, как сегодня или золотая монета, как в былые времена. Столетие сменяет столетие, начинается отсчет нового тысячелетия, а отношение людей к финансам не меняется – одни ноют, сетуя на недостаток дензнаков, другие идут по трупам, обогащаясь всеми законными и незаконными способами, а третьи мирно пыхтят, привлекая к себе денежку. 

[…]

Что такое ночные грузоперевозки и в чем их преимущества

Если вы проживаете в крупном городе, то квартирный или офисный переезд будет для вас серьезным испытанием. Несмотря на изобилие специалистов, предлагающих свои мувинговые услуги, вам придется решить немало дополнительных проблем, возникновение которых от вас не зависит. Среди них, например, слишком активное движение на дорогах.

[…]

На чем держится бизнес?

На чем держится бизнес? Правильнее было бы даже спросить «на ком»? Ответ очевидный – на руководителе. Это тот человек, благодаря которому родилась компания, человек, который принёс ей первых клиентов, душа предприятия. И очень часто бизнес разрушается не потому, что в компании работают плохие сотрудники, а потому, что руководитель не знает дела, которым руководит.

[…]

Владимир Бычков

Я, Бычков Владимир Александрович. Психолог. Практик. Проходил специализацию в области НЛП, эриксоновского гипноза, телесноориентированной психотерапии, арттерапии, трансперсональных технологий. Участвовал в тренингах по гештальтерапии, психодраме, семейных расстановках по Хеленгеру, и т. д.

[…]

Обзор сайта a-contract.ru контактное производство электроники

Сложно представить себе жизнь современного человека без электроники. Разные устройства, провода, платы, рации, мобильные гаджеты и другое – это все, что окружает нас каждый день.

Чем качественнее производимая электроника, тем продуктивнее и дольше она будет работать, поэтому ее изготовление стоит заказывать лучшим специалистам.

На сайте компании А-контракт можно найти информацию о сотрудничестве с надежным изготовителем, […]

Циклы питания

В природных условиях исключительно труд­но отделить влияние качества имеющейся пищи от действия других факторов среды, таких как длина светового дня, тем­пература, количество осадков и плотность популяции.

Недавно выяснилось, что годовая цикличность у полевок не­посредственно контролируется сезонным появлением определен­ных веществ’ в пище. Полевки, у которых был зимний анэструс, начинали размножаться, когда им давали ростки яровой пше­ницы […]

Что посмотреть в Мюнхене

Любой человек, когда попадает в незнакомый город, непременно хочет познакомиться с ним, посмотреть наиболее известные места, о которых раньше только слышал. Даже, если он приехал в этот город по служебным делам, все равно он выкроит толику времени, чтобы увидеть «живьем», наяву, то, о чем он ранее только слышал, или то, что раньше только видел на […]

Вкусные роллы в Одессе. Доставка суши и роллов в Одессе

Сегодня очень популярным стал вид услуги — доставка суши на дом. Суши, роллы, сеты – этот вид еды пришел к нам из Японии, и прочно закрепился на наших столах. А чем же отличаются, например, суши и роллы, и как разобраться в этом многообразии интересных наименований блюд, манящих нас своими яркими картинками?

[…]

Программирование контроллера ПДП(DMA)

Начиная с PC AT, в компьютерах присутствуют два DMA-котроллера — 8-битный (с каналами 0, 1, 2 и 3) и 16-битный (с каналами 4, 5, 6 и 7). Канал 2 используется для обмена данными с дисководами, канал 3 — для жестких дисков, канал 4 -при каскадировании контроллеров, а назначение остальных каналов может варьироваться. 

[…]

Мир кино mirkino.club новинки кино

Современный пользователь сети, в динамичный век прогресса и новаций, старается вести в виртуальном формате не только деловое и личное общение, закупку продукции, а и организовывать увлекательный досуг, восхищающий интересными фильмами, созданными именитыми компаниями. Сегодня особа, выкраивая шикарные моменты на релаксацию, хочет быстро окунуться в мир кино, где зритель становится главным героем романтических свиданий, детективных расследований […]

Курьерская доставка цветочных подарков по Волгоградской области

Цветы с доставкой по Волгоградской области на свадьбу и в день рождения — все для самых родных и близких!

Для современного мира просто огромное значение отыгрывает сама возможность быстро решать те или иные вопросы, оперативно совершать покупки, выходить на связь и договариваться о разных деталях и фону или, что называется, в режиме онлайн.А все потому, […]

Чувства и личность

Чувства присуши всякому живому человеку.

Создавшееся у человека определенное отношение к явлениям действительности проявляется в его воззрениях на жизнь, историю, политику, поведение людей, оно также проявляется в его взглядах, жизненных установках, интересах, чувствах.

В чувствах человека как устойчивых психических состояниях, создавшихся в ходе его жизни и взаимодействии с окружающим, выражается его эмоциональное отношение к определенным […]

Батл Арена Герои Адвентуре прохождение экспедиции 1 уровня на экспертном уровне сложности

Игра Батл Арена Герои Адвентуре прохождение экспедиции 1 уровня на экспертном уровне сложности, успешно прохожу на 90 уровне команды (героев).

Для прохождения экспедиции использую колоду героев Гор, Охотник на демонов, Сталкер, Мэй, Лунная ведьма. Героя Инферно у меня нет нанимаю его для прохождения экспедиции.

[…]

Кредит на пополнение оборотных средств

Кредит является одной из наиболее востребованных финансовых услуг нашего времени. Следует отметить, в таком положении дел нет ничего удивительного, так как кредиты позволяют значительно ускорить развитие, а также дать возможность приобрести различные материальные ценности, стоимость которых весьма высока (квартиры, автомобили и т.д.).

[…]

Фикус помогает забеременеть? Примета

Когда супружеская пара мечтает о прибавлении в семействе, но никак не может осуществить задуманное, для привлечения удачи в этом деле женщина готова обратиться к чему годно: духовным практикам, йоге, диете, знахаркам, фен-шуй и, конечно, к старинным поверьям и приметам. Одна из таких широко распространенных примет связана с цветком под названием «фикус». Бытует мнение: если это […]

Причины поломок прецизионных кондиционеров

Прецизионные кондиционеры оснащены сложной системой автоматики, благодаря наличию которой появляется возможность с высокой степенью точности устанавливать в помещении нужную температуру и уровень влажности.

Это особенно важно для помещений, где установлено больше количество чувствительного к температурным перепадам оборудования.

Обычно такие кондиционеры устанавливают в производственных помещениях, медицинских учреждениях, лабораториях, банках, музеях, хранилищах библиотек. То есть, в тех […]

Терапия Герсона. Альтернативные методы лечения рака

Как правило, официальная медицина относится с недоверием к нетрадиционным методам лечения раковых опухолей. В этом есть смысл, ведь Вы рискуете попасть к шарлатану, который воспользуется вашим бедственным положением и вытянет из вас деньги за самые невероятные методы лечения, которые в принципе никому никогда не помогали, и помочь не могут.

[…]

Аренда жилья в Анапе, как найти дешевое жилье в Анапе

Анапа является одним из лучших курортов страны для отдыха с детьми, и ее замечательное море с мелким песочком, великолепный солнечный климат, отличная инфраструктура с аквапарками, ресторанами, прекрасной набережной влекут к себе тысячи туристов. Естественно, что не все едут в санатории и дома отдыха, а многие предпочитают арендовать жилье.

[…]

Intrigue Dating журнал об отношениях и интиме

Цивилизованная персона, в наш век роста коммуникационных систем, старается не только вести предпринимательскую деятельность, планировать затраты и расходы, а и уделять пристальное внимание личным отношениям, ведь романтический настрой и чувственный посыл основа истинного счастья и гармоничной семьи. Человек стремится создавать хорошее взаимопонимание, организовывает свидания или страстные встречи, но иногда союз терпит крах и распадается. 

[…]

Преимущества постельного белья из сатина

Сатин – прочная и приятная к телу ткань, изготовленная из натуральных волокон. Этот материал выглядит очень благородно и стоит дешевле, чем, например, хлопок. Сатиновая ткань блестит и переливается, поэтому с первого взгляда может показаться, что это атлас. Волокна переплетены таким образом, что сатин является не только красивым, но и достаточно теплым материалом.

[…]

Технология возведения фундамента на винтовых сваях компании ООО «Экопан-Инжиниринг»

Винтовые сваи активно применяются как для закладки фундаментов в гражданском и прибрежном строительстве при возведении газобетонных, пенобетонных, деревянных, кирпичных объектов, пирсов, причалов и домов по каркасно-модульной технологии, так и при постройке линий электропередач, различных ограждений, мостов, магистральных трубопроводов.

[…]

Реконструкция водохранилища

Большой опыт эксплуатации озерных водохранилищ (регулируе­мых озер) накоплен в Карелии, где они создавались в целях гидро­энергетики, водного транспорта (Баранов, 1961; Григорьев, 1961, 1962; Гуляева, 1961; Литинская, 1961). Зарегулированы в основном круп­ные озера. Изменения, возникающие после зарегулирования озер, зависят от степени изменения абиотических факторов.

[…]

Источник: http://npc-news.ru/?p=6162

Метрики в задачах машинного обучения

Метрики для классификации ситуаций: Многие задачи сводятся к сравнению текущего вектора признаков,

Привет, Хабр!

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Для демонстрации полезных функций sklearn и наглядного представления метрик мы будем использовать датасет по оттоку клиентов телеком-оператора.

Загрузим необходимые библиотеки и посмотрим на данныеimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.pylab import rc, plotimport seaborn as snsfrom sklearn.preprocessing import LabelEncoder, OneHotEncoderfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifierfrom sklearn.metrics import precision_recall_curve, classification_reportfrom sklearn.model_selection import train_test_split df = pd.read_csv('../../data/telecom_churn.csv')
df.head(5)

Предобработка данных# Сделаем маппинг бинарных колонок # и закодируем dummy-кодированием штат (для простоты, лучше не делать так для деревянных моделей) d = {'Yes' : 1, 'No' : 0} df['International plan'] = df['International plan'].map(d)df['Voice mail plan'] = df['Voice mail plan'].map(d)df['Churn'] = df['Churn'].astype('int64') le = LabelEncoder()df['State'] = le.fit_transform(df['State']) ohe = OneHotEncoder(sparse=False) encoded_state = ohe.fit_transform(df['State'].values.reshape(-1, 1))tmp = pd.DataFrame(encoded_state, columns=['state ' + str(i) for i in range(encoded_state.shape[1])])df = pd.concat([df, tmp], axis=1)

Accuracy, precision и recall

Перед переходом к самим метрикам необходимо ввести важную концепцию для описания этих метрик в терминах ошибок классификации — confusion matrix (матрица ошибок).
Допустим, что у нас есть два класса и алгоритм, предсказывающий принадлежность каждого объекта одному из классов, тогда матрица ошибок классификации будет выглядеть следующим образом:

True Positive (TP)False Positive (FP)
False Negative (FN)True Negative (TN)

Здесь — это ответ алгоритма на объекте, а — истинная метка класса на этом объекте.
Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).

Обучение алгоритма и построение матрицы ошибокX = df.drop('Churn', axis=1)y = df['Churn'] # Делим выборку на train и test, все метрики будем оценивать на тестовом датасете X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.33, random_state=42) # Обучаем ставшую родной логистическую регрессию lr = LogisticRegression(random_state=42)lr.fit(X_train, y_train) # Воспользуемся функцией построения матрицы ошибок из документации sklearn def plot_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.Blues): “”” This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. “”” plt.imshow(cm, interpolation='nearest', cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis] print(“Normalized confusion matrix”) else: print('Confusion matrix, without normalization') print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): plt.text(j, i, cm[i, j], horizontalalignment=”center”, color=”white” if cm[i, j] > thresh else “black”) plt.tight_layout() plt.ylabel('True label') plt.xlabel('Predicted label') font = {'size' : 15} plt.rc('font', **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test))plt.figure(figsize=(10, 8))plot_confusion_matrix(cnf_matrix, classes=['Non-churned', 'Churned'], title='Confusion matrix')plt.savefig(“conf_matrix.png”)plt.show()

Accuracy

Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy — доля правильных ответов алгоритма:

Эта метрика бесполезна в задачах с неравными классами, и это легко показать на примере.

Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5).
Тогда accuracy:

Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую accuracy:

При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.

Precision, recall и F-мера

Для оценки качества работы алгоритма на каждом из классов по отдельности введем метрики precision (точность) и recall (полнота).

Precision можно интерпретировать как долю объектов, названных классификатором положительными и при этом действительно являющимися положительными, а recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм.

Именно введение precision не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive. Recall демонстрирует способность алгоритма обнаруживать данный класс вообще, а precision — способность отличать этот класс от других классов.

Как мы отмечали ранее, ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода.

В нашей задаче по определению оттока абонентов, ошибкой первого рода будет принятие лояльного абонента за уходящего, так как наша нулевая гипотеза состоит в том, что никто из абонентов не уходит, а мы эту гипотезу отвергаем.

Соответственно, ошибкой второго рода будет являться “пропуск” уходящего абонента и ошибочное принятие нулевой гипотезы.

Precision и recall не зависят, в отличие от accuracy, от соотношения классов и потому применимы в условиях несбалансированных выборок. Часто в реальной практике стоит задача найти оптимальный (для заказчика) баланс между этими двумя метриками. Классическим примером является задача определения оттока клиентов.

Очевидно, что мы не можем находить всех уходящих в отток клиентов и только их. Но, определив стратегию и ресурс для удержания клиентов, мы можем подобрать нужные пороги по precision и recall.

Например, можно сосредоточиться на удержании только высокодоходных клиентов или тех, кто уйдет с большей вероятностью, так как мы ограничены в ресурсах колл-центра.

Обычно при оптимизации гиперпараметров алгоритма (например, в случае перебора по сетке GridSearchCV ) используется одна метрика, улучшение которой мы и ожидаем увидеть на тестовой выборке.
Существует несколько различных способов объединить precision и recall в агрегированный критерий качества. F-мера (в общем случае ) — среднее гармоническое precision и recall :

в данном случае определяет вес точности в метрике, и при это среднее гармоническое (с множителем 2, чтобы в случае precision = 1 и recall = 1 иметь ) F-мера достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.

В sklearn есть удобная функция _metrics.classificationreport, возвращающая recall, precision и F-меру для каждого из классов, а также количество экземпляров каждого класса.

report = classification_report(y_test, lr.predict(X_test), target_names=['Non-churned', 'Churned'])print(report)

class precision recall f1-score support
Non-churned0.880.970.93941
Churned0.600.250.35159
avg / total0.840.870.841100

Здесь необходимо отметить, что в случае задач с несбалансированными классами, которые превалируют в реальной практике, часто приходится прибегать к техникам искусственной модификации датасета для выравнивания соотношения классов. Их существует много, и мы не будем их касаться, здесь можно посмотреть некоторые методы и выбрать подходящий для вашей задачи.

AUC-ROC и AUC-PR

При конвертации вещественного ответа алгоритма (как правило, вероятности принадлежности к классу, отдельно см. SVM) в бинарную метку, мы должны выбрать какой-либо порог, при котором 0 становится 1. Естественным и близким кажется порог, равный 0.5, но он не всегда оказывается оптимальным, например, при вышеупомянутом отсутствии баланса классов.

Одним из способов оценить модель в целом, не привязываясь к конкретному порогу, является AUC-ROC (или ROC AUC) — площадь (Area Under Curve) под кривой ошибок (Receiver Operating Characteristic curve ). Данная кривая представляет из себя линию от (0,0) до (1,1) в координатах True Positive Rate (TPR) и False Positive Rate (FPR):

TPR нам уже известна, это полнота, а FPR показывает, какую долю из объектов negative класса алгоритм предсказал неверно. В идеальном случае, когда классификатор не делает ошибок (FPR = 0, TPR = 1) мы получим площадь под кривой, равную единице; в противном случае, когда классификатор случайно выдает вероятности классов, AUC-ROC будет стремиться к 0.

5, так как классификатор будет выдавать одинаковое количество TP и FP.
Каждая точка на графике соответствует выбору некоторого порога.

Площадь под кривой в данном случае показывает качество алгоритма (больше — лучше), кроме этого, важной является крутизна самой кривой — мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеале должна стремиться к точке (0,1).

Код отрисовки ROC-кривойsns.set(font_scale=1.5)sns.set_color_codes(“muted”) plt.figure(figsize=(10, 8))fpr, tpr, thresholds = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1)lw = 2plt.plot(fpr, tpr, lw=lw, label='ROC curve ')plt.plot([0, 1], [0, 1])plt.xlim([0.0, 1.0])plt.ylim([0.0, 1.05])plt.xlabel('False Positive Rate')plt.ylabel('True Positive Rate')plt.title('ROC curve')plt.savefig(“ROC.png”)plt.show()

Критерий AUC-ROC устойчив к несбалансированным классам (спойлер: увы, не всё так однозначно) и может быть интерпретирован как вероятность того, что случайно выбранный positive объект будет проранжирован классификатором выше (будет иметь более высокую вероятность быть positive), чем случайно выбранный negative объект.

Рассмотрим следующую задачу: нам необходимо выбрать 100 релевантных документов из 1 миллиона документов. Мы намашинлернили два алгоритма:

  • Алгоритм 1 возвращает 100 документов, 90 из которых релевантны. Таким образом,

  • Алгоритм 2 возвращает 2000 документов, 90 из которых релевантны. Таким образом,

Скорее всего, мы бы выбрали первый алгоритм, который выдает очень мало False Positive на фоне своего конкурента. Но разница в False Positive Rate между этими двумя алгоритмами крайне мала — всего 0.0019.

Это является следствием того, что AUC-ROC измеряет долю False Positive относительно True Negative и в задачах, где нам не так важен второй (больший) класс, может давать не совсем адекватную картину при сравнении алгоритмов.

Для того чтобы поправить положение, вернемся к полноте и точности :

Здесь уже заметна существенная разница между двумя алгоритмами — 0.855 в точности!

Precision и recall также используют для построения кривой и, аналогично AUC-ROC, находят площадь под ней.

Здесь можно отметить, что на маленьких датасетах площадь под PR-кривой может быть чересчур оптимистична, потому как вычисляется по методу трапеций, но обычно в таких задачах данных достаточно. За подробностями о взаимоотношениях AUC-ROC и AUC-PR можно обратиться сюда.

Logistic Loss

Особняком стоит логистическая функция потерь, определяемая как:

здесь — это ответ алгоритма на -ом объекте, — истинная метка класса на -ом объекте, а размер выборки.

Подробно про математическую интерпретацию логистической функции потерь уже написано в рамках поста про линейные модели.
Данная метрика нечасто выступает в бизнес-требованиях, но часто — в задачах на kaggle.

Интуитивно можно представить минимизацию logloss как задачу максимизации accuracy путем штрафа за неверные предсказания.

Однако необходимо отметить, что logloss крайне сильно штрафует за уверенность классификатора в неверном ответе.

Рассмотрим пример:

def logloss_crutch(y_true, y_pred, eps=1e-15): return – (y_true * np.log(y_pred) + (1 – y_true) * np.log(1 – y_pred)) print('Logloss при неуверенной классификации %f' % logloss_crutch(1, 0.5))>> Logloss при неуверенной классификации 0.693147 print('Logloss при уверенной классификации и верном ответе %f' % logloss_crutch(1, 0.9))>> Logloss при уверенной классификации и верном ответе 0.105361 print('Logloss при уверенной классификации и НЕверном ответе %f' % logloss_crutch(1, 0.1))>> Logloss при уверенной классификации и НЕверном ответе 2.302585

Отметим, как драматически выросла logloss при неверном ответе и уверенной классификации! Следовательно, ошибка на одном объекте может дать существенное ухудшение общей ошибки на выборке. Такие объекты часто бывают выбросами, которые нужно не забывать фильтровать или рассматривать отдельно.

Всё становится на свои места, если нарисовать график logloss:

Видно, что чем ближе к нулю ответ алгоритма при ground truth = 1, тем выше значение ошибки и круче растёт кривая.

Подытожим:

  • В случае многоклассовой классификации нужно внимательно следить за метриками каждого из классов и следовать логике решения задачи, а не оптимизации метрики
  • В случае неравных классов нужно подбирать баланс классов для обучения и метрику, которая будет корректно отражать качество классификации
  • Выбор метрики нужно делать с фокусом на предметную область, предварительно обрабатывая данные и, возможно, сегментируя (как в случае с делением на богатых и бедных клиентов)

Полезные ссылки

  1. Курс Евгения Соколова: Семинар по выбору моделей (там есть информация по метрикам задач регрессии)
  2. Задачки на AUC-ROC от А.Г.

    Дьяконова

  3. Дополнительно о других метриках можно почитать на kaggle.

    К описанию каждой метрики добавлена ссылка на соревнования, где она использовалась

  4. Презентация Богдана Мельника aka ld86 про обучение на несбалансированных выборках

Благодарности

Спасибо mephistopheies и madrugado за помощь в подготовке статьи.

Источник: https://habr.com/post/328372/

Medic-studio
Добавить комментарий