Маша построила алгоритм для классификации писем на два вида: спам (1) и не спам (0). Затем она построила матрицу с результатами работы её алгоритма. В ячейках указано количество наблюдений соответствующего вида. Выберите верные факты про матрицу сопряженности.
1. True positive rate = 0.8
2. Precision = 0.8
3. Recall = 0.8
4. Recall = 2/3
5. Precision = 2/3
Формат вывода
Выведите правильные варианты ответа без пробелов. Например, "123"
Матрица сопряженности (Confusion matrix) - это таблица, которая используется для оценки производительности алгоритма классификации. В данной таблице отображаются реальные результаты классификации (истинные значения) и предсказанные результаты классификации, полученные от алгоритма.
Матрица сопряженности обычно состоит из 4 ячеек: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN).
True Positive (TP) - количество положительных наблюдений, которые правильно классифицированы как положительные.
False Positive (FP) - количество отрицательных наблюдений, которые неправильно классифицированы как положительные.
True Negative (TN) - количество отрицательных наблюдений, которые правильно классифицированы как отрицательные.
False Negative (FN) - количество положительных наблюдений, которые неправильно классифицированы как отрицательные.
Теперь рассмотрим варианты ответа и определим, какие факты о матрице сопряженности являются верными.
1. True positive rate = 0.8
True positive rate (TPR) представляет собой долю истинно положительных наблюдений от общего количества положительных наблюдений.
Из определения матрицы сопряженности следует, что TPR = TP / (TP + FN). Но в вопросе не указаны значения TP и FN, поэтому невозможно вычислить точное значение TPR.
Данный вариант ответа не является верным.
2. Precision = 0.8
Precision представляет собой долю истинно положительных наблюдений от общего количества наблюдений, которые алгоритм классифицирует как положительные.
Из определения матрицы сопряженности следует, что Precision = TP / (TP + FP). Но в вопросе не указаны значения TP и FP, поэтому невозможно вычислить точное значение Precision.
Данный вариант ответа не является верным.
3. Recall = 0.8
Recall (или чувствительность) представляет собой долю истинно положительных наблюдений от общего количества положительных наблюдений.
Из определения матрицы сопряженности следует, что Recall = TP / (TP + FN).
Так как вариант ответа указывает, что Recall = 0.8, то TP / (TP + FN) = 0.8, что означает, что TP равно 0.8*(TP + FN). Это возможно только в том случае, если FN равно 0.2*(TP + FN).
Для Recall указано только одно значение, но для точного определения Recall необходимо знать значения TP и FN.
Данный вариант ответа не является верным.
4. Recall = 2/3
Recall (или чувствительность) представляет собой долю истинно положительных наблюдений от общего количества положительных наблюдений.
Из определения матрицы сопряженности следует, что Recall = TP / (TP + FN).
Так как вариант ответа указывает, что Recall = 2/3, то TP / (TP + FN) = 2/3. Это означает, что TP = 2/3*(TP + FN).
Данный вариант ответа является верным.
5. Precision = 2/3
Precision представляет собой долю истинно положительных наблюдений от общего количества наблюдений, которые алгоритм классифицирует как положительные.
Из определения матрицы сопряженности следует, что Precision = TP / (TP + FP).
Так как вариант ответа указывает, что Precision = 2/3, то TP / (TP + FP) = 2/3. Это означает, что TP = 2/3*(TP + FP).
Данный вариант ответа является верным.
Итак, верными фактами про матрицу сопряженности являются следующие варианты ответа: 45.