Страница 13 из 16
26. БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ (БКК)
Данный КК вычисляется, когда одна переменная измерена в номинальной дихотомической шкале (0 или 1), а вторая переменная в количественной шкале. Одним из способов описания связи между такими переменными является просто вычисление КК Пирсона по исходным данным. Однако можно воспользоваться более простой формулой для вычисления. В этом случае КК называется точечный бисериальный КК и обозначается prb. Он вычисляется по следующей формуле: rpb = (x 1 – x 0) : Sx (n1 n0 : n (n – 1) , где x 1 – среднее значение для тех лиц, у которых номинальная переменная у = 1; x 0 – среднее значение для тех лиц, у который номинальная переменная у = 0; Sx – стандартное отклонение для значений по переменной х; n1 – количество лиц, для которых переменная у = 1; n0 – количество лиц, для которых переменная у = 0; n – общее количество лиц, т.е. n = n1 + n0. Этот КК называется бисериальным, т.к. фактически имеется две серии лиц. Одна серия лиц, для которых номинальная переменная у = 1,а вторая серия лиц, для которых номинальная переменная у = 0. Пример вычисления бисериального КК. Пусть переменная х – это рост в см, а переменная у – это пол (1 – мальчики, 0 – девочки). В эксперименте участвовали 15 подростков. Были получены следующие результаты:
х |
у
|
150 170 160 165 140 183 157 152 163 168 180 155 157 160 152
|
1 0 1 1 0 1 0 0 1 1 1 0 1 0 0
|
n = 15 n1 = 8 n0 = 7 x 1 = (150+160+…+157) : 8 = 163,25 x 0 = (170+140+…+152) : 7 = 156,57 x = 8,94 rpb = (163,25 – 156,57) : 8,94 8 7; (15 (15 – 1)) = 0,41 n = 15 = 0,05 tнабл = n – 2 rpb : 1 – rpb = 15 – 2 0,41 : 1 – (0,41) = 1,62 /2 = 0,05/2 = 0,025 = n – 2 = 15 – 2 = 13 tкр = 2,16
27. РАНГОВЫЙ БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Данный КК вычисляется в случае, когда одна переменная (например, х) измерена в номинальной дихотомической шкале, а вторая (например, у) в порядковой (ранговой) шкале. Этот коэффициент был исследован Кертеном и Глассом. Гласс предложил для вычисления ранговой корреляции формулу, которая не требует подсчета совпадений и инверсии. rrb = 2/n (y 1 – y 0) , где n – общее количество лиц; y 1 – среднее значение по переменной у для лиц, у которых переменная х = 1; y 0 – среднее значение по переменной у для лиц, у которых переменная х = 0. Пример: пусть у нас имеются следующие исходные данные:
х (пол)
|
у (ранги по росту)
|
0 1 0 1 0 0 1 1 0 0
|
1 10 2 9 5 8 4 7 3 6
|
n = 10 y 1 = (10+9+4+7) : 4 = 7,5 y 0 = (1+2+5+8+3+6) : 6 = 4,167 rrb = 2/10 (7,5 – 4,167) = 0,67
Примечание. Если одна переменная, например, х, измерена в порядковой шкале, а вторая переменная у в количественной шкале, то в этом случае не было разработано и исследовано никакого коэффициента корреляции. В такой ситуации рекомендуется преобразовать данные для количественной переменной в порядковую шкалу, т.е. проранжировать и воспользоваться после этого КРК Спирмена или КРК Кендалла.
Таблица выбора необходимого коэффициента корреляции.
у
х
|
Номинальная дихотомическая
|
Ранговая (порядковая)
|
Количественная
|
Номинальная дихотомическая
|
Параграф 25
|
Параграф 27
|
Параграф 26 (по у )
|
Ранговая (порядковая)
|
Параграф 27
|
Параграф 23 – 24
|
Примечание параграф 27
|
Количественная
|
Параграф 26 (по х )
|
Примечание параграф 27
|
Параграф 21 - 22
|
28. АНАЛИЗ ВЗАИМОСВЯЗЕЙ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ ТАБЛИЦ СОПРЯЖЕННОСТИ
Иногда измерения двух исследуемых признаков производятся в номинальной шкале, т.е. в шкале классификаций. Например, учащихся можно классифицировать по полу, а также по специальности: гуманитарий или естественник. В этом случае информация может быть представлена в виде таблицы, которая получила название таблица сопряженности. Для ее построения сначала выясняем, сколько уровней содержит тот или иной признак. Пусть первый признак имеет Iуровней, а второй признак - J. В этом случае таблица сопряженности имеет следующий вид:
|
Признак 2
|
Итого по строкам
|
Признак 1
|
f11
|
f12
|
…
|
f1J
|
f1
|
f21
|
f22
|
…
|
f2J
|
f2
|
…
|
…
|
…
|
…
|
…
|
fI1
|
fI2
|
…
|
fIJ
|
fI
|
Итого по столбцам
|
f 1
|
f 2
|
…
|
f J
|
f n
|
В этой таблице клетки называются ячейками, а числа, стоящие в ячейках – частотами. Предположим, что всего у нас имеется n объектов (лиц). Частота fij означает, что среди n–исходных лиц имеется fij, для которых первый признак соответствует i-ому уровню, второй - j-тому уровню. Рассмотрим классификацию 120 людей по полу и политической принадлежности:
|
Демократическая партия
|
Республиканская
|
Независимая
|
Итого по строкам
|
Муж.
|
29
|
36
|
15
|
80
|
Жен.
|
14
|
24
|
2
|
40
|
Итого по столбцам
|
43
|
60
|
17
|
n=120
|
Таблицы сопряженности используются для проверки независимости двух рассматриваемых номинальных признаков (отсутствие или наличие влияния). Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (5 этапов).
- этап. Выдвигаются две гипотезы: основная нулевая Н0 о том, что два рассматриваемых признака являются независимыми и альтернативная Н1 о том, что эти два признака являются зависимыми.
2 этап. Выбираем уровень значимости . 3 этап. Вычисляем наблюдаемое значение статистики критерия по следующей формуле: 2 I J 2 набл. = n [ fij : fi fj - 1] i=1j=1 4 этап. Находим критическое значение статистики критерия. В 2 нашем случае статистика критерия имеет - распределение с числом степеней свободы = (I – 1) (J – 1). Поэтому для нахождения критического 2 2 значения кр необходимо воспользоваться статистической таблицей - распределения. Находим столбец, соответствующий величине 1 - (если таблицы называются квантили распределения) или величине (если таблицы называются верхние %-ные точки) и строку, соответствующую числу степеней свободы . На пересечении выбранных строки и столбца и 2 находится требуемое нам кр. 5 этап. Делаем вывод о правильности той или иной гипотезы по 2 2 следующему правилу: 1) если набл < кр, то принимается гипотеза Н0, т.е. делаем вывод о том, что два рассматриваемых признака являются независимыми или, другими словами, один признак не влияет на другой. 2) 2 2 если же набл > кр, то принимается гипотеза Н1, т.е. делаем вывод о том, что два рассматриваемых признака являются зависимыми на уровне значимости или, другими словами, один признак влияет на другой.
|
Примечание. Уровни признака не должны пересекаться, т.е. один и тот же объект в таблице сопряженности должен попадать только в какую-либо одну ячейку. Достоверные выводы получатся, если в каждой ячейке частота не меньше 5 fij > 5. Пример: проведем проверку независимости между политической принадлежностью и полом для исходных данных, приведенных в начале параграфа. Решение. I = 2; n = 120 J = 3; = 0,01 2 2 2 2 2 набл = 120 [ 29 : 80 43 + 36 : 80 60 + 15 : 80 17 + 14 : 43 40 + 24 : 40 60 2 + 2 : 40 17 – 1 ] = 4,776 = (2 – 1) (3 – 1) = 2 2 кр = 9,21 – находим из таблицы
Так как набл > кр, то делаем вывод о том, что сдача зачета зависит от специализации.
|