Як обчислити викиди
У статистиці викиди - це значення, що різко відрізняються від інших значень в зібраному наборі даних. Викид може вказувати на аномалії в розподілі даних або на помилки при вимірах, тому часто викиди виключаються з набору даних. Виключивши викиди з набору даних, ви можете прийти до несподіваних або більш точним висновкам. Тому необхідно вміти обчислювати й оцінювати викиди, щоб забезпечити належне розуміння статистичних даних.
кроки
1. Навчіться розпізнавати потенційний викид. Перед тим, як виключати виділяються значення з набору даних, слід визначити потенційні викиди. Викиди є значеннями, які сильно відрізняються від більшості значень в наборі даних-іншими словами, викиди лежать поза тренда більшості значень. Це легко виявити в таблицях значень або (особливо) на графіках. Якщо значення в наборі даних нанести на графік, то викиди будуть лежати далеко від більшості інших значень. Якщо, наприклад, більшість значень лягають на пряму, то викиди лежать по обидві сторони від такої прямої.
- Наприклад, розглянемо набір даних, який представляє температури 12 різних об`єктів в кімнаті. Якщо 11 об`єктів мають температуру приблизно 70 градусів, але дванадцятий об`єкт (можливо, піч) має температуру 300 градусів, то швидкий перегляд значень може показати, що піч є ймовірним викидом.
2. Упорядкуйте дані по зростанню. Перший крок при визначенні викидів - це обчислення медіани набору даних. Це завдання значно спрощується, якщо значення в наборі даних розташовані по зростанню (від меншого до більшого).
3. Обчисліть медіану набору даних. Медіана набору даних - це величина, яка перебуває в середині набору даних. Якщо набір даних містить непарну кількість значень, то медіана - це значення, до якого і після якого розташовано однакову кількість значень в наборі даних. Але якщо набір даних містить парне число значень, то потрібно знайти середнє арифметичне двох середніх значень. Зверніть увагу, що при обчисленні викидів медіана, як правило, позначається як Q2, так як вона лежить між Q1 і Q3 - нижнім і верхнім квартилями, які ми визначимо пізніше.
4. Обчисліть нижній квартиль. Ця величина, що позначається як Q1, нижче якої лежить 25% значень з набору даних. Іншими словами, це половина значень, розташованих до медіани. Якщо до медіани лежить парна кількість значень з набору даних, потрібно знайти середнє арифметичне двох середніх значень, щоб обчислити Q1 (це аналогічно обчисленню медіани).
5. Обчисліть верхній квартиль. Ця величина, що позначається як Q3, вище якої лежить 25% значень з набору даних. Процес обчислення Q3 аналогічний процесу обчислення Q1, але тут розглядаються значення, розташовані після медіани.
6. Обчисліть межквартільний діапазон. Обчисливши Q1 і Q3, необхідно знайти відстань між цими величинами. Для цього відніміть Q1 з Q3. Значення межквартільного діапазону вкрай важливо для визначення меж значень, які не є викидами.
7. Знайдіть «внутрішні кордони» значень в наборі даних. Викиди визначаються через аналіз значень - чи потрапляють вони чи ні в межі так званих «внутрішніх кордонів» і «зовнішніх кордонів». Значення, що лежить поза «внутрішніх кордонів», класифікується як «незначний викид», в той час як значення, що знаходиться за «зовнішніми кордонами», класифікується як «значний викид». Щоб знайти внутрішні кордони, необходімоумножіть межквартільний діапазон на 1,5 результат потрібно додати до Q3 і відняти від Q1. Два знайдених числа є внутрішніми кордонами набору даних.
8. Знайдіть «зовнішні кордони» набору даних. Це робиться таким же чином, як для внутрішніх кордонів, за винятком того, що межквартільний діапазон множиться на 3, а не на 1,5. Результат потрібно додати до Q3 і відняти від Q1. Два знайдених числа є зовнішніми кордонами набору даних.
9. Скористайтеся якісною оцінкою для визначення того, чи потрібно виключати викиди з набору даних. Метод, описаний вище, дозволяє визначити, чи є деякі значення викидами (незначними або значними). Тим не менш, не помиліться - значення, що класифікується як викиду, є тільки «кандидатом» на виключення, тобто ви не зобов`язані його виключати. Причина виникнення викиду - це основний фактор, що впливає на рішення про виключення викиду. Як правило, викиди, які виникають через помилки (в вимірах, записах і так далі), виключаються. З іншого боку, викиди, пов`язані ні з помилками, а з новою інформацією або тенденцією, як правило, залишають в наборі даних.
10. Усвідомте важливість (іноді) викидів, що залишаються в наборі даних. Деякі викиди повинні бути виключені з набору даних, так як їх причинами є помилки і технічні неполадкі- інші викиди необхідно залишити в наборі даних. Якщо, наприклад, викид не є результатом помилки і / або дає нове розуміння тестованого явища, то його потрібно залишити в наборі даних. Наукові експерименти особливо чутливі до викидів - виключивши викид помилково, ви можете пропустити деяку нову тенденцію або відкриття.
Поради
- Коли викиди знайдені, спробуйте пояснити їх наявність до того, як виключити їх з набору даних. Вони можуть вказувати на помилки вимірювання або аномалії в розподілі.
Що вам знадобиться
- калькулятор