Як обчислити викиди

У статистиці викиди - це значення, що різко відрізняються від інших значень в зібраному наборі даних. Викид може вказувати на аномалії в розподілі даних або на помилки при вимірах, тому часто викиди виключаються з набору даних. Виключивши викиди з набору даних, ви можете прийти до несподіваних або більш точним висновкам. Тому необхідно вміти обчислювати й оцінювати викиди, щоб забезпечити належне розуміння статистичних даних.

кроки

  1. Calculate Outliers Step 1
1. Навчіться розпізнавати потенційний викид. Перед тим, як виключати виділяються значення з набору даних, слід визначити потенційні викиди. Викиди є значеннями, які сильно відрізняються від більшості значень в наборі даних-іншими словами, викиди лежать поза тренда більшості значень. Це легко виявити в таблицях значень або (особливо) на графіках. Якщо значення в наборі даних нанести на графік, то викиди будуть лежати далеко від більшості інших значень. Якщо, наприклад, більшість значень лягають на пряму, то викиди лежать по обидві сторони від такої прямої.
  • Наприклад, розглянемо набір даних, який представляє температури 12 різних об`єктів в кімнаті. Якщо 11 об`єктів мають температуру приблизно 70 градусів, але дванадцятий об`єкт (можливо, піч) має температуру 300 градусів, то швидкий перегляд значень може показати, що піч є ймовірним викидом.
  • Calculate Outliers Step 2
    2. Упорядкуйте дані по зростанню. Перший крок при визначенні викидів - це обчислення медіани набору даних. Це завдання значно спрощується, якщо значення в наборі даних розташовані по зростанню (від меншого до більшого).
  • Продовжуючи наведений вище приклад, розглянемо наступний набір даних, який представляє температури кількох об`єктів: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Цей набір повинен бути впорядкований наступним чином: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Calculate Outliers Step 3
    3. Обчисліть медіану набору даних. Медіана набору даних - це величина, яка перебуває в середині набору даних. Якщо набір даних містить непарну кількість значень, то медіана - це значення, до якого і після якого розташовано однакову кількість значень в наборі даних. Але якщо набір даних містить парне число значень, то потрібно знайти середнє арифметичне двох середніх значень. Зверніть увагу, що при обчисленні викидів медіана, як правило, позначається як Q2, так як вона лежить між Q1 і Q3 - нижнім і верхнім квартилями, які ми визначимо пізніше.
  • Не бійтеся працювати з наборами даних, в яких парна кількість значень - середнім арифметичним двох середніх значень буде число, якого немає в наборі даних-це нормально. Але якщо два середніх значення - це одне і те ж число, то середнє арифметичне одно цього чіслу- це теж в порядку речей.
  • У наведеному вище прикладі середні 2 значення - це 70 і 71, так що медіана дорівнює ((70 + 71) / 2) = 70,5.
  • Calculate Outliers Step 4
    4. Обчисліть нижній квартиль. Ця величина, що позначається як Q1, нижче якої лежить 25% значень з набору даних. Іншими словами, це половина значень, розташованих до медіани. Якщо до медіани лежить парна кількість значень з набору даних, потрібно знайти середнє арифметичне двох середніх значень, щоб обчислити Q1 (це аналогічно обчисленню медіани).
  • У нашому прикладі 6 значень розташовані після медіани і 6 значень - до неї. Це означає, що для обчислення нижнього квартиля нам потрібно знайти середнє арифметичне двох середніх значень з шести значень, що лежать до медіани. Тут середні значення рівні 70 і 70. Таким чином, Q1 = ((70 + 70) / 2) = 70.
  • Calculate Outliers Step 5
    5. Обчисліть верхній квартиль. Ця величина, що позначається як Q3, вище якої лежить 25% значень з набору даних. Процес обчислення Q3 аналогічний процесу обчислення Q1, але тут розглядаються значення, розташовані після медіани.
  • У наведеному вище прикладі два середніх значення з шести значень, що лежать після медіани, рівні 71 і 72. Таким чином, Q3 = ((71 + 72) / 2) = 71,5.
  • Calculate Outliers Step 6
    6. Обчисліть межквартільний діапазон. Обчисливши Q1 і Q3, необхідно знайти відстань між цими величинами. Для цього відніміть Q1 з Q3. Значення межквартільного діапазону вкрай важливо для визначення меж значень, які не є викидами.
  • У нашому прикладі Q1 = 70, а Q3 = 71,5. Межквартільний діапазон дорівнює 71,5 - 70 = 1,5.
  • Зверніть увагу, що це може бути застосовано і до від`ємних показників Q1 і Q3. Наприклад, якщо Q1 = -70, то межквартільний діапазон дорівнює 71,5 - (-70) = 141,5.
  • Calculate Outliers Step 7
    7. Знайдіть «внутрішні кордони» значень в наборі даних. Викиди визначаються через аналіз значень - чи потрапляють вони чи ні в межі так званих «внутрішніх кордонів» і «зовнішніх кордонів». Значення, що лежить поза «внутрішніх кордонів», класифікується як «незначний викид», в той час як значення, що знаходиться за «зовнішніми кордонами», класифікується як «значний викид». Щоб знайти внутрішні кордони, необходімоумножіть межквартільний діапазон на 1,5 результат потрібно додати до Q3 і відняти від Q1. Два знайдених числа є внутрішніми кордонами набору даних.
  • У нашому прикладі межквартільний діапазон дорівнює (71,5 - 70) = 1,5. Далі: 1,5 * 1,5 = 2,25. Це число потрібно додати до Q3 і відняти його з Q1, щоб знайти внутрішні кордони:
  • 71,5 + 2,25 = 73,75
  • 70 - 2,25 = 67,75
  • Таким чином, внутрішні кордони рівні 67,75 і 73,75.
  • У нашому прикладі тільки температура печі - 300 градусів - лежить поза цими межами і може вважатися незначним викидом. Але не поспішайте з висновками -Нам треба буде визначити, чи є ця температура значним викидом. Calculate Outliers Step 7Bullet2
  • Calculate Outliers Step 8
    8. Знайдіть «зовнішні кордони» набору даних. Це робиться таким же чином, як для внутрішніх кордонів, за винятком того, що межквартільний діапазон множиться на 3, а не на 1,5. Результат потрібно додати до Q3 і відняти від Q1. Два знайдених числа є зовнішніми кордонами набору даних.
  • У нашому прикладі помножте межквартільний діапазон на 3: 1,5 * 3 = 4,5. Обчисліть зовнішні кордони:
  • 71,5 + 4,5 = 76
  • 70 - 4,5 = 65,5
  • Таким чином, зовнішні кордони рівні 65,5 і 76.
  • Будь-які значення, які лежать за межами зовнішніх кордонів, вважаються значними викидами. У нашому прикладі температура печі - 300 градусів - вважається значним викидом.Calculate Outliers Step 8Bullet2
  • Calculate Outliers Step 9
    9. Скористайтеся якісною оцінкою для визначення того, чи потрібно виключати викиди з набору даних. Метод, описаний вище, дозволяє визначити, чи є деякі значення викидами (незначними або значними). Тим не менш, не помиліться - значення, що класифікується як викиду, є тільки «кандидатом» на виключення, тобто ви не зобов`язані його виключати. Причина виникнення викиду - це основний фактор, що впливає на рішення про виключення викиду. Як правило, викиди, які виникають через помилки (в вимірах, записах і так далі), виключаються. З іншого боку, викиди, пов`язані ні з помилками, а з новою інформацією або тенденцією, як правило, залишають в наборі даних.
  • Не менш важливо оцінити вплив викидів на медіану набору даних (спотворюють вони її чи ні). Це особливо важливо в тому випадку, коли ви робите висновки на основі медіани набору даних.
  • У нашому прикладі вкрай малоймовірно, що піч нагріється до температури 300 градусів (якщо тільки не враховувати природні аномалії). Тому можна зробити висновок (з високою часткою впевненості), що така температура - це помилка вимірювань, яку потрібно виключити з набору даних. Більш того, якщо ви не виключіть викид, медіана набору даних буде дорівнює (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 градусів, але якщо ви виключіть викид, медіана буде дорівнює (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 градусів.
  • Викиди - це, як правило, результат людських помилок, тому викиди необхідно виключати з наборів даних.
  • Calculate Outliers Step 10
    10. Усвідомте важливість (іноді) викидів, що залишаються в наборі даних. Деякі викиди повинні бути виключені з набору даних, так як їх причинами є помилки і технічні неполадкі- інші викиди необхідно залишити в наборі даних. Якщо, наприклад, викид не є результатом помилки і / або дає нове розуміння тестованого явища, то його потрібно залишити в наборі даних. Наукові експерименти особливо чутливі до викидів - виключивши викид помилково, ви можете пропустити деяку нову тенденцію або відкриття.
  • Наприклад, ми розробляємо новий препарат для збільшення розміру риб в рибному господарстві. Ми будемо використовувати старий набір даних ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), але на цей раз кожне значення представлятиме масу риби (в грамах) після прийому експериментального препарату. Іншими словами, перший препарат призводить до збільшення маси риби до71 г, другий препарат - до 70 г і так далі. У цій ситуації 300 - це значний викид, але ми не повинні виключати його-якщо припустити, що не було помилок вимірювання, то такий викид - це значний успіх в експерименті. Препарат, який збільшив вагу риби до 300 грамів, діє значно краще за інших препаратів-таким чином, 300 - це найважливіше значення в наборі даних.
  • Поради

    • Коли викиди знайдені, спробуйте пояснити їх наявність до того, як виключити їх з набору даних. Вони можуть вказувати на помилки вимірювання або аномалії в розподілі.

    Що вам знадобиться

    • калькулятор
    Cхоже