Тест за хи-квадрат (χ²): какво е и как се използва в статистиката
В статистиката има различни тестове за анализ на връзката между променливите. Номиналните променливи са тези, които позволяват връзки на равенство и неравенство, като пол.
В тази статия ще познаем един от тестовете за анализ на независимостта между номинални или по-високи променливи: тестът хи-квадрат, чрез тестване на хипотези (Тестове за добро състояние).
- Свързана статия: "Анализ на дисперсията (ANOVA): какво е и как се използва в статистиката"
Какво представлява тестът хи-квадрат?
Тестът хи-квадрат, наричан още хи-квадрат (Χ2), е в рамките на тестовете, отнасящи се до дескриптивна статистика, по-специално дескриптивна статистика, приложена към изследването на две променливи. Описателната статистика от своя страна се фокусира върху извличане на информация за извадката. Вместо това, извеждащата статистика извлича информация за населението.
Името на теста е типично за хи-квадрат разпределението на вероятността, на което се основава. Този тест е разработен през 1900 г. от Карл Пиърсън.
Тестът хи-квадрат е един от най-известните и се използва за анализ на номинални или качествени променливи, т.е. за определяне на съществуването или не на независимостта между две променливи. Това, че двете променливи са независими, означава, че те нямат връзка и че следователно едната не зависи от другата, нито обратното.
По този начин, с изследването на независимостта, е създаден и метод за проверка дали честотите, наблюдавани във всяка категория, са съвместими с независимостта между двете променливи.
Как се получава независимостта между променливите?
За да се оцени независимостта между променливите, се изчисляват стойностите, които биха показали абсолютната независимост, което се нарича „очаквани честоти“, сравнявайки ги с честотите на извадката.
Както обикновено, нулевата хипотеза (H0) показва, че и двете променливи са независими, докато алтернативната хипотеза (H1) показва, че променливите имат някаква степен на асоцииране или връзка.
Корелация между променливи
По този начин, подобно на други тестове за същата цел, тестът хи-квадрат използва се, за да се види смисълът на корелацията между две номинални променливи или на по-високо ниво (Например, можем да го приложим, ако искаме да знаем дали има връзка между секса [да бъдеш мъж или жена] и наличието на безпокойство [да или не]).
За да се определи този тип връзка, има таблица на честотите, за която да се направи справка (също и за други тестове като коефициента Yule Q).
Ако емпиричните честоти и теоретичните или очакваните честоти съвпадат, тогава няма връзка между променливите, тоест те са независими. От друга страна, ако те съвпадат, те не са независими (има връзка между променливите, например между X и Y).
Съображения
Тестът хи-квадрат, за разлика от други тестове, не установява ограничения за броя на модалностите на променливи и броят на редовете и броят на колоните в таблиците не трябва да съвпадат.
Необходимо е обаче той да се прилага за изследвания, базирани на независими проби, и когато всички очаквани стойности са по-големи от 5. Както вече споменахме, очакваните стойности са тези, които показват абсолютната независимост между двете променливи.
Също така, за да използвате хи-квадрат теста, нивото на измерване трябва да е номинално или по-високо. Той няма горна граница, т.е. не ни позволява да знаем интензивността на корелацията. С други думи, хи-квадратът приема стойности между 0 и безкрайност.
От друга страна, ако извадката се увеличи, стойността на хи-квадрат се увеличава, но трябва да бъдем предпазливи при нейното тълкуване, защото това не означава, че има повече корелация.
Разпределение на хи-квадрат
Тестът хи-квадрат използва приближение към разпределението хи квадрат да се оцени вероятността за несъответствие, равно или по-голямо от съществуващото между данните и очакваните честоти според нулевата хипотеза.
Точността на тази оценка ще зависи от това дали очакваните стойности не са много малки и в по-малка степен, че контрастът между тях не е много висок.
Корекция на Йейтс
Корекцията на Йейтс е математическа формула, която се прилага с таблици 2х2 и с малка теоретична честота (по-малко от 10), за да се коригират възможните грешки при теста хи-квадрат.
Като цяло се прилага корекцията на Йейтс или "корекция на непрекъснатостта". когато дискретна променлива се приближава до непрекъснато разпределение.
Контраст на хипотезата
Освен това, тестът хи-квадрат принадлежи към така наречените тестове за доброта на пригодност или контрасти, които имат за цел да решат дали хипотезата, че дадена извадка идва от популация с напълно определено разпределение на вероятностите в нулевата хипотеза, може да бъде приета.
Контрастите се основават на сравнението на наблюдаваните честоти (емпирични честоти) в извадка с тези, които биха били очаквани (теоретични или очаквани честоти), ако нулевата хипотеза беше вярно. А) Да, нулевата хипотеза се отхвърля ако има значителна разлика между наблюдаваните и очакваните честоти.
Функциониране
Както видяхме, тестът хи-квадрат се използва с данни, принадлежащи към номинална скала или по-висока. От хи-квадрат се установява нулева хипотеза, която постулира разпределение на вероятността, посочено като математически модел на популацията, генерирала извадката.
След като имаме хипотезата, трябва да извършим контраста и за това имаме данните в честотна таблица. Абсолютната наблюдавана или емпирична честота се посочва за всяка стойност или диапазон от стойности. След това, ако приемем, че нулевата хипотеза е вярна, за всяка стойност или интервал от стойности се изчислява абсолютната честота, която би се очаквала или очакваната честота.
Интерпретация
Статистиката хи-квадрат ще приеме стойност, равна на 0, ако има перфектно съгласие между наблюдаваните и очакваните честоти; по минуси, статистиката ще вземе голяма стойност, ако има голямо несъответствие между тези честоти, и следователно нулевата хипотеза трябва да бъде отхвърлена.
Библиографски справки:
- Любин, П. Macià, A. Рубио де Лерма, П. (2005). Математическа психология I и II. Мадрид: UNED.
- Пардо, А. Сан Мартин, Р. (2006). Анализ на данните в психологията II. Мадрид: Пирамида.