На главную Лекции и практикум по психологии Разное по психологии Математические методы обработки психологических данных
Математические методы обработки психологических данных
Лекции и практикум по психологии - Разное по психологии
Индекс материала
Математические методы обработки психологических данных
Шкалы измерений
Табулирование данных
Квантиль
Меры центральной тенденции
Меры изменчивости
Нормальное распределение
Предварительный анализ выборки
Сравнение средних значений
Сравнение дисперсий
Значимость коэффициента корреляции
Коэффициент ранговой корреляции Кендалла
Бисериальный коэффициент корреляции (БКК)
Однофакторный анализ (ОФА)
Двухфакторный анализ
Проверка нормальности распределения исходных данных
Все страницы

ОГЛАВЛЕНИЕ

1. ВВЕДЕНИЕ.....................................
2. ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ......................
3. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА ИЗ НЕЕ. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ...........................................................
4. ОСНОВНЫЕ СПОСОБЫ ОРГАНИЗАЦИИ ВЫБОРКИ............................
5. ШКАЛЫ ИЗМЕРЕНИЙ..........................................................
6. ТАБУЛИРОВАНИЕ ДАННЫХ.............................................................


7. КВАНТИЛЬ...........................................................
8. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ.........................................................
9. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ........................................................
10. МЕРЫ ИЗМЕНЧИВОСТИ......................................................
11. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ.....................................................
12. ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ВЫБОРКИ...........................................................
13. СТАТИСТИЧЕСКИЙ ВЫВОД. ПРОВЕРКА ГИПОТЕЗ.........................
14. ОБЩАЯ СХЕМА ПРОВЕРКИ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ......................
15. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК................................................................
16. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОК...............................................................
17. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК..............................................................
18. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ СВЯЗАННЫХ ВЫБОРОК..............................................................
19. СРАВНЕНИЕ ДИСПЕРСИЙ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК......................
20. СРАВНЕНИЕ ДИСПЕРСИЙ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОК
21. АНАЛИЗ ВЗАИМОСВЯЗЕЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА................................................................
22. ЗНАЧИМОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ.................................
23. АНАЛИЗ ВЗАИМОСВЯЗИ РАНЖИРОВАННЫХ ПРИЗНАКОВ.........................
24. КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ КЕНДАЛЛА............................
25. АНАЛИЗ ВЗАИМОСВЯЗИ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ КОРРЕЛЯЦИОННОГО АНАЛИЗА.................................................................
26. БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ (БКК)............................
27. РАНГОВЫЙ БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ....................
28. АНАЛИЗ ВЗАИМОСВЯЗЕЙ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ ТАБЛИЦ СОПРЯЖЕННОСТИ.........................................................
29. ОДНОФАКТОРНЫЙ АНАЛИЗ (ОФА).................................................................
30. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ОДА)..........................
31. ДВУХФАКТОРНЫЙ АНАЛИЗ................................................................
32. ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ДДА)..........................
33. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ ИСХОДНЫХ ДАННЫХ..
Литература............................................................

1. ВВЕДЕНИЕ

Математическую статистику условно делят на 3 части:
-описательная статистика;
-теория статистического вывода;
-планирование и анализ эксперимента.
Описательная статистика занимается описанием, графическим представлением и табулированием совокупности исходных данных.
Теория статистического вывода – общий класс задач, характеризующийся попытками вывести свойства большого массива данных путем обследования небольшого массива данных, т.е. выборки.
Планирование и анализ эксперимента – статистические методы, разработанные для обнаружения и проверки причинной связи между изучаемыми переменными (показателями).

2. ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

1 этап – исходный предварительный анализ исследуемой реальной системы. В результате этого этапа определяются:
- основные цели исследования на содержательном неформализованном уровне;
- совокупность единиц, представляющих предмет статистического исследования;
- перечень отобранных из представленных специалистами априорных (независимых от опыта человека) показателей, характеризующих каждого из исследуемых объектов;
- степень формализации соответствующих записей при сборе исходных данных;
- общее время и трудозатраты на планируемые работы.
- формализованная постановка задачи, по возможности включающая статистическую модель изучаемого явления.
2 этап – составление детального плана сбора исходной информации. При составлении этого плана необходимо по возможности учитывать полную схему дальнейшего статистического анализа.
3 этап – сбор исходного материала и ввод этих данных в ЭВМ.
4 этап – первичная статистическая обработка данных. В ходе этой обработки решаются следующие задачи:
1.Отображение переменных, описанных текстом в номинальную или порядковую шкалу.

  1. Анализ резко выделяющихся наблюдений.
  2. Восстановление пропущенных наблюдений.
  3. Проверка статистической независимости элементов исходной выборки.

5 этап – составление детального плана вычислительного анализа исходного материала. На этом этапе определяются основные группы, для которых будет проводиться дальнейший анализ. Обычно описывается блок-схема анализа с указанием привлекаемого метода.
6 этап – вычислительная реализация основной части статистической обработки данных.
7 этап – подведение итогов исследования. На этом этапе проверяется, в какой мере достигнуты сформулированные на 1 этапе содержательные цели работы. Если эти цели не достигнуты, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

3. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА ИЗ НЕЕ. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ

Генеральная совокупность – это совокупность всех мысленных наблюдений (или всех мыслимо возможных объектов), которые могут быть проведены при данном реальном комплексе условий.
Понятие ГС – это абстрактное математическое понятие. ГС может быть конечной или бесконечной.
Выборка из данной ГС представляет собой результат ограниченного ряда наблюдений интересующего нас показателя (признака, переменной). ГС всегда больше, чем выборка. В статистике выборка обозначается х1, х2, …, хn количество наблюдений n.
Количество наблюдений – «n»- называется объемом выборки.
Сущность статистических методов – чтобы по некоторой части ГС, т.е. по выборке, выносить суждения о свойствах ГС в целом.
Одним из важнейших вопросов, от успешного решения которого зависит достоверность выводов, получаемых в результате статистической обработки данных, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления выборкой интересующих нас свойств ГС. Одним из важных путей повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из ГС.

4. ОСНОВНЫЕ СПОСОБЫ ОРГАНИЗАЦИИ ВЫБОРКИ

При отборе объектов из ГС для получения выборки используется ряд различных способов:
- простой случайный отбор – это способ получения n объектов выборки из конечной генеральной совокупности, состоящей из N объектов, при которой каждая выборка имеет одинаковый шанс быть отобранной (1000 детей - N, а нужно 100 -n). На практике для реализации простого случайного отбора объекты генеральной совокупности нумеруются от единицы до N (каждой единице – свой номер). Затем используют таблицу случайных чисел (или корзину с шарами) и отбирают последовательно друг за другом n объекты для выборки. Полученная таким образом выборка – случайная.
- простой отбор с помощью регулярной, но не существенной для изучаемого явления процедуры (например, по первой букве фамилии).
- стратифицированный (расслоенный). В этом случае генеральная совокупность объема N разделяется на непересекающиеся подсовокупности (страты).

формула

Например, студенты – студенты 1 курса, 2 курса и т.д. Один и тот же человек не может попасть в другие совокупности. Из каждого слоя извлекается простая случайная выборка соответственно V. Стратифицированный отбор применяется, когда объекты внутри каждого слоя являются однородными (по возрасту; один слой - дети из полных семей, другой слой - дети из неполных семей).
- серийный отбор используется тогда, когда удобнее использовать не отдельные элементы генеральной совокупности, а целые блоки или серии таких элементов (например, исследуются семьи в одном доме или все дома на одной стороне улицы). Такой способ отбора называют гнездовым.
- комбинированный (ступенчатый). Он объединяет в себя сразу несколько из вышеперечисленных способов отбора, которые составляют различные ступени выборочного исследования.
- последовательный (активный). Этот способ отбора используется при анализе физико-химических и технологических процессов. Он называется активным, т.к. мы можем влиять на некоторые переменные.


5. ШКАЛЫ ИЗМЕРЕНИЙ


Данные эксперимента представляют собой результат измерения (наблюдения, регистрации, описания) свойств исследуемых объектов. Измерение – приписывание значений признакам объекта в соответствии с определенными правилами или шкалой измерения. В статистике наиболее часто употребляются следующие шкалы измерения:
- шкала наименований (номинальная, номинативная, шкала классификации). Она используется для отнесения объектов к определенному классу. Объекты, отнесенные к одному и тому же классу, получают одни и те же обозначения. Если количество классов шкалы известно, а также известны правила отнесения к ним объекта, то такая шкала называется категоризованной (примером такой шкалы является пол: м и ж). Простейшим случаем номинальной шкалы является дихотомическая шкала, которая состоит только из двух классов (курит – не курит). К сожалению, для номинальной шкалы арифметические операции не имеют смысла. После того, как с помощью номинальной шкалы мы классифицировали исходные объекты на классы, мы можем перейти от наименований к числам, подсчитав количество наблюдений в каждом из классов. Такая величина называется частотой. Можно работать с помощью математических методов.
- порядковая шкала (ранговая, ординальная). Эта шкала используется для отнесения объектов к определенному классу в соответствии со степенью выраженности, заданности свойства. В порядковой шкале должно быть не менее 3-х классов. Например, 1 класс – подходит для занятия вакантной должности; 2 класс – подходит с оговорками; 3 класс – не подходит. В порядковой шкале мы можем только сказать «больше», «меньше». Но не можем сказать «на сколько». В нашем примере 1 и 2 классы могут быть ближе друг к другу, чем 2 и 3 классы. От класса мы можем перейти к числам с помощью ранжирования. Обычно принято считать, что низший класс получает ранг 2 и т.д. Чем больше классов в шкале, тем больше у нас возможности для математической обработки полученных данных. В общих случаях числа в порядковой шкале не отражают количества свойства, которыми обладают исследуемые объекты. Поэтому для этой шкалы арифметические операции также чаще всего не имеют смысла. Примерами порядковой шкалы являются оценки на экзамене. Основные психологические исследования обычно используют порядковую шкалу, при этом необходимо стараться, чтобы в порядковой шкале было достаточное количество классов. Фактически в качестве единицы измерения в порядковой шкале используется расстояние в1 ранг, но при этом расстояние между соседними рангами может быть различным.
- количественные шкалы. Таких шкал имеется 2 типа: интервальная и шкала отношений. Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описать различия между свойствами объектов. Для задания такой шкалы устанавливают единицу измерения и произвольную точку отсчета. Примером является календарное время. Для этой шкалы арифметические операции имеют смысл. Шкала отношений отличается от интервальной шкалы только тем, что в ней задано абсолютное начало отсчета. Например, рост в см – абсолютное начало 0. В шкале отношений мы можем определить не только на сколько одно измерение превосходит другое, но и во сколько раз.
-5 С ------------0------------- +5 С
ОК --------------------------------------

Считается, что в психологии примером шкалы отношений являются шкала порога абсолютной чувствительности. Примечание: данные, полученные в одной шкале, можно перевести в другую шкалу только в следующих направлениях: : 3 2 1. От количественной к порядковой к номинальной (много курит, немного курит, не курит). В обратном направлении перевод информации не возможен. По мере возможности нужно стараться измерять в количественной шкале, т.к. в этом случае мы сможем перейти к любой из рассматриваемых выше шкал. Однако при этом происходит частичная потеря информации. Перевод исходной выборки из количественной шкалы называется ранжированием. При ранжировании каждому элементу выборки приписывается ранг, который соответствует месту этого элемента в упорядоченной выборке. Наиболее часто выборку ранжируют по возрастанию, т.е. ранг, равный 1, получает наименьший элемент выборки. В результате ранжирования «новая» выборка содержит значения от 1 до n. Пример ранжирования выборки. Пусть в ходе эксперимента измерялся коэффициент IQ и получена следующая выборка:
112, 108, 84, 96, 75, 124, 106, 89. n=8
7 6 2 4 1 8 5 3
Проранжировать полученную выборку (не путать с упорядочиванием). 75, 84, 89, 96, 106, 108, 112, 124.
Иногда в выборке встречаются несколько одинаковых значений. Такая ситуация называется проблемой совпадающих рангов. В этом случае каждому из совпадающих значений присваивается ранг, равный среднему значению рангов, если бы эти элементы не совпадали.
Пример: 108, 96, 96, 74, 84, 108, 104, 108, 103. (3+4):2=3,5
8 3,5 3,5 1 2 8 6 8 5 (7+8+9):3=8
Пример перевода исходной выборки из количественной шкалы в номинальную. Пусть в ходе эксперимента измеряется уровень тревожности в диапазоне от 0 до 20. Необходимо перевести полученные данные в номинальную шкалу, содержащую 3 класса: высший (15-20); средний (6-14); низший (0-5). Исходная выборка имеет вид:
Количественная 14, 6, 8, 4, 18, 12, 10, 9.
Номинальная с с с н в с с с.
Переводя, мы теряем информацию. в-1, с-6, н-1.


6. ТАБУЛИРОВАНИЕ ДАННЫХ

Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называется вариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке.
Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа:
1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный.
R= хmax – xmin = x(n) - x(1), где R – размах выборки.
2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа.
k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2 . Пример: n=32, k1=32/5=6,4; k2 =32/6=5,3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов.
h= R/k, где h – ширина.
Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8,3=8
3 этап – определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.

формула2

левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе.
h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56.
4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7,5; k2=38/6=6,3 ; k=7. Находим ширину:h=R/k; h= 68/7=9,7=10.


Границы интервалов

Частоты

40-50
50-60
60-70
70-80
80-90
90-100
100-110
110-120

11 2
1111 4
11111 5
11111111 8
1111111 7
1111111 7
1111 4
1 1

 

38

Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке.
Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:


zi

z1

z2

...

zk

ni

n1

n2

...

nk

z1, z2, …, zn - различные значения элементов исходной выборки.
x1, х2, …, хn
k < n
n1, n2, …,nk – частота встречаемости того или иного различного значения в выборке.
Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки.
4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26;
в виде вариационного ряда (по возрастанию):1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12.
В виде частотного ряда:


z(i)

1

2

4

5

6

7

8

10

11

12

n(i)

3

1

2

1

3

1

3

4

1

7

n=26 (общее количество) ; к=10.
Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n
Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.


7. КВАНТИЛЬ

Квантиль – это точка на числовой прямой, которая делит совокупность исходных наблюдений на две части с известными пропорциями в каждой из частей. Показатель одной из пропорций обычно записывается при обозначении квантили в качестве индекса справа внизу и называется уровнем или порядком. В общем виде записывается следующим образом:
Кр читается квантиль уровня (порядка); показатель от 0 до 1.
Например, К0,2. Пусть имеется квантиль уровня 0,2. Характеризует левую часть пропорции исходных наблюдений.

формула3

Квантиль – это общее понятие. Частными случаями квантиля являются: квартили; децили; процентили. Квартиль делит исходную совокупность на две части, каждая из которых пропорциональна одной или нескольким четвертым частям. Обычно рассматривают 3 квартиля: Q1, Q2,

формула4
формула5

8. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Существует три основных метода графического представления данных – гистограмма (столбиковая диаграмма), полигон частот и сглаженная кривая (огива).
Гистограмма представляет последовательность столбцов, каждый из которых опирается на один интервал группирования данных, а высота столбца соответствует количеству элементов выборки, попавших в этот интервал группирования. Для построения гистограммы по горизонтальной оси откладываются границы интервалов группирования данных, а по вертикальной оси частоты попадания наблюдений в интервалах.

 

Границы интервалов

Частоты

40-50
50-60
60-70
70-80
80-90
90-100
100-110
110-120

2
4
5
8
7
7
4
1

формула6
  1. 40 50 60 70 80 90 100 110 120

Если в гистограмме будут часто провалы, значит вы много интервалов взяли.
Полигон частот – построение полигона частот во многом напоминает построение гистограммы, только в этом случае по горизонтальной оси откладываются значения середин интервалов группирования данных (по вертикальной то же самое). После этого на координатной плоскости наносятся точки. Первая координата, которая соответствует середине интервала группирования и вторая – частоте. Для окончательного построения полигона частот точки соединяются отрезками прямых. На компьютере – двухлинейчатая (только в качестве 1 столбца середины значений интервалов)

формула7

Сглаженная кривая или огива иногда вместо гистограммы или полигона частот строят сглаженную кривую. Основное отличие в том, что она проводится по точкам таким образом, чтобы график не имел острых углов или зубцов. Для ее построения по горизонтальной оси всегда откладываются значения от 0 до 100 (они соответствуют процентам). По вертикальной оси откладываются границы интервалов группирования данных. После этого на координатной плоскости наносятся точки, вторая координата которой соответствует границе интервала, а первая координата накопленной частоте попадания, выраженной в процентах. Для окончательного построения нанесенные точки соединяются гладкой кривой.
В качестве исходных данных для построения огивы используется таблица, полученная после табулирования данных, но при этом второй столбец этой таблицы (частоты) мы должны преобразовать в накопленные частоты, а затем в проценты.

 

Границы интервалов

Частоты

Накопленные частоты

Накопленные частоты в %

40-50
50-60
60-70
70-80
80-90
90-100
100-110
110-120

2
4
5
8
7
7
4
1

2 2/38=0,05
(4+2)=6 4/38=0,1
(6+5)=11
19
26
33
37
38

5
15
28
48
65
83
95
100

38 учеников; 38 –100%; 2 – х%; х=2 100/38=2 2,5

формула8

Иногда при построении гистограммы и полигона частот по вертикальной оси откладываются не частоты, которые вычисляются путем деления частоты на количество наблюдений. В этом случае максимальное значение по вертикальной оси не превосходит единицы.


9. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.
Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.
1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.
4, 2, 6, 7, 5, 10 – не имеет моды.
4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды.
4, 2, 4, 2, 4, 2, - не имеет моды.
4, 4, 4, 4, 4 – мода равняется 4 хmod=4.
2 ситуация. Когда два соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.
1, 4, 3, 3, 6, 2, 8, 2, 10
1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка.
Хmod= (2+3):2=2,5
1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5
1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена.
3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).
Пример: 4, 2, 3, 6, 4, 2
2, 2, 3, 4, 4, 6
4, 2, 3, 6, 4, 2, 6
2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5
2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4
4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6
Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.
4, 4, 4, 2, 6, 7 – хmod=4
Медиана – это такое значение, которое делит упорядоченную выборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.
xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль).
При вычислении медианы возможны две ситуации:
1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в середине упорядоченной выборки.
3, 8, 6, 5, 4
3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5.
2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.
2, 3, 5, 8, 7, 10
2, 3, 5, 7, 8, 10 хmed=(5+7):2=6
хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше.
Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:


Границы интервалов

Частоты

Накопленные частоты

4-6
6-8
8-10
10-12
12-14

2
5
4
13
3

2
7
11
24
27



13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11.
Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х.
x=(x1+x2+…+xn) : n= xi : n
n
xi=x1+x2+...+xn
i=1
48
х6+х7+…+х48= хi
i=6
21
y4+y5+…+y21= yk
k=4
n 2 2 2 2
xi = x1 + x2 +...+ xn
i=1
Если выборка представлена в виде частотного ряда

zi

z1

z2

...

zk

ni

n1

n2

...

nk

k k
x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni
i=1 i=1
Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3
xmod=3
1, 1, 2, 3, 3, 3, 4, 5, 6, 7
n=10
xmed=(3+3):2=3
x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5
Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:

zi

2

3

4

5

7

10

 

ni

3

1

2

3

4

2

=15

xmod=7 (самое большое число во второй строчке)
n=15
xmed=5
x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33

Свойства среднего значения.
1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245.
2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225
0 1 3 5
хнов.=(0+1+3+5):4=9:4=2,25
хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25
3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120
х=(2+3+5+8):4=18:4=4,5
240. 360, 600, 960 хнов.=4,5 120=540
Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)

 

А

В

С

Д

1

 

 

2

 

 

3

 

 

 

 

38

 

 

К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод).
Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон)
Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции.
1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7.
2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3.
3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n.
4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду.
Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:

формула9

С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом.
1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7
1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7
Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.


10. МЕРЫ ИЗМЕНЧИВОСТИ

Меры центральной тенденции позволяют нам судить о концентрации наших исходных данных на числовой оси. Каждая такая мера дает значение, которое представляет в каком-то смысле все элементы выборки. В этой ситуации фактически пренебрегают различиями, существующими между отдельными элементами выборки. Поэтому для учета таких различий будем использовать некоторые другие описательные статистики, которые называются мерами изменчивости (рассеяния, разброса). Самой простой мерой изменчивости является размах выборки, для вычисления которого необходимо из максимального элемента выборки вычесть минимальный. R=xmax-xmin
Т.к. размах определяется только двумя элементами выборки, то он не учитывает распределения остальных элементов выборки. Пример: пусть первая выборка содержит значения, равномерно распределенные от 1 до 10. И всего таких значений 100. Вторая выборка содержит также 100 значений, но одно из них равно единице, еще одно равно 10, а остальные 98 значений равны 5.
1) 1….1 2….2 … 10….10
10 10 10

2) 55….55 10
98
R1выб.=10-1=9 R2выб.=10-1=9
Иногда в качестве меры изменчивости используют интерквартильный размах (между квартилями).
Q=Q3-Q1

формула10

Интерквартильный размах используется достаточно редко. Наиболее популярной мерой изменчивости является дисперсия.
х1, х2, …, хn
n
(xi-x)=0
i=1

Дисперсия.

Для учета различий между отдельными элементами выборки в качестве меры изменчивости можно было бы взять сумму отклонений каждого элемента выборки от среднего значения выборки. Однако вследствие того, что эти отклонения могут быть как положительными, так и отрицательными, то их сумма для любой выборки всегда равна 0.
Поэтому вместо суммы отклонений можно рассмотреть сумму квадратов отклонений. Однако и в этом случае имеется недостаток: такая сумма сохраняет зависимость от количества элементов в выборке. Для устранения этого недостатка мы должны были бы разделить сумму квадратов отклонений на количество элементов выборки, т.е. n, но в статистике эту сумму делят не на n, a нa n-1.

Для получения более точной меры изменчивости, которая

2
называется дисперсией Sx и вычисляется по формуле:
2 n 2
Sx=( (xi-x)) : (n-1)
i=1
n 2 2 2 2
(xi-x) = (x1-x) + (x2-x) +...+ (xn-x) (сумма квадратов отклонений)
i=1
Чем больше дисперсия выборки, тем больше разбросаны наши исходные значения по числовой оси относительно среднего значения выборки. Пример вычисления дисперсии: вычислить дисперсию для следующей выборки: 1, 3, 3, 0, 4, 1. Составим расчетную таблицу:

xi

xi-x

(xi-x)

1
3
3
0
4
1

1-2=-1
3-2=1
3-2=1
0-2=-2
4-2=2
1-2=-1

1
1
1
4
4
1

 

=0

=12

 

x= (1+3+3+0+4+1):6=2
2
Sx=12: (6-1)=12:5=2,4
На практике даже для выборки, которая состоит из целых чисел, может оказаться, что среднее значение является не целым числом. В результате этого отклонения тоже будут являться дробными числами, которые нам нужно возводить в квадрат. Поэтому для упрощения вычислений на практике используют следующую формулу:

2 n 2 n 2
Sx= (n xi – ( xi) ): n (n-1)
i=1 i=1

n 2 2 2 2
xi =x1 +x2 +…+xn
i=1

n 2 2
( xi) = (x1+x2+...+xn)
i=1

Вычислим дисперсию для рассмотренной выше выборки:

xi

хi

1
3
3
0
4
1

1
9
9
0
16
1

xi=12

xi =36

2 Sx = (6 36 – (12) : 6 (6-1) =
= (216-144) : 6 5=72 :30=2,4

Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).

Свойства дисперсии.
1.Если выборка состоит из одного и того же значения, то дисперсия

 

2
этой выборки будет равна 0. 12, 12, 12, 12, 12. Sx=0. Дисперсия такой выборки равна 0. Дисперсия является неотрицательной величиной, поэтому
2
Sx= -2,12 – не бывает.
2. Если каждый элемент выборки умножить на одну и ту же
2
величину с, то дисперсия выборки изменится в с раз.
2 2
3. Sнов.= с Sстар. хнов.= с хстар.
Пример: вычислить дисперсию следующей выборки: 102, 106, 111, 112, 112, 114, 115, 115, 116, 119, 120, 122. n=12.

xi

yi=xi-112

yi

102
106
111
112
112
114
115
115
116
119
120
122

-10
-6
-1
0
0
2
3
3
4
7
8
10

100
36
1
0
0
4
9
9
16
49
64
100

 

yi=20

yi=338

2 n 2 n 2
Sy= (n yi-( yi) ) : n(n-1)= (12
i=1 i=1
2
338-(20) ):12 (12-1)= (4656-

400):12 11=4256:132=32,24.

В данном случае вычтем из каждого элемента выборки одну и ту же величину, равную 112.

Стандартное отклонение.
Меры изменчивости тесно связаны с дисперсией – является стандартное отклонение, которое обычно обозначается Sx (сигма). Оно определяется как положительное значение квадратного корня из дисперсии.
2
Sx = Sx
Стандартное отклонение часто используется для оценки диапазона изменения наших исходных данных. Для этого применяется правило «трех стандартных отклонений»: 99,5% исходных данных находится в интервале от х – 3 Sx до х + 3 Sx.
х1, х2, …, хn

формула11

 

x – 3 Sx x x + 3 Sx

x=110; Sx=9; x – 3 Sx = 110 – 3 9 =83; x + 3 Sx = 110 + 3 9 =137 ; (83 ; 137) 142 0,5% (отклонение от стандартного отклонения).
Стандартное отклонение может быть использовано также в процедуре преобразования исходных данных, которая получила название стандартизации. Чаще всего она применяется для «сырых» баллов.
Пусть в ходе эксперимента получили выборку х1, х2, …, хn, где значения представляют собой сырые баллы. Для другого теста можно получить аналогичные данные, однако часто бывает, что шкала тестов различается по диапазону. Для того, чтобы можно было сравнить полученные данные по различным шкалам и применяют процедуру стандартизации. В результате ее получается новая выборка: z1, z2, …, zn.
zi= (xi-x):Sx , где xi , где xi - среднее значение первоначальной выборки; Sx – стандартное отклонение этой выборки (использование компьютера – мастер функций).
В результате новые стандартизованные данные будут иметь среднее значение, равное 0, а стандартное отклонение – 1, независимо от исходных данных, (т.е.шкалы): z=0; Sz=1.


11. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Значения показателей (признаков) невозможно предугадать даже при полностью известных условиях эксперимента, в которых они измеряются.
Мы можем лишь указать вероятность того, что признак принимает то или иное значение.
Знание частоты встречаемости этих значений позволяет нам судить о распределении частот. Знание этого распределения исследуемого признака позволяет делать выводы о событиях, в которых участвует этот признак. Однако эти выводы тоже носят вероятностный или столастический характер.
Среди распределений есть такие распределения, которые встречаются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны.
Наиболее распространенным распределением является нормальное распределение. Оно часто используется для приближенного описания многих случайных явлений, в которых на интересующий нас признак оказывает воздействие большое количество независимых случайных факторов, среди которых нет резко выделяющихся.
Нормальное распределение однозначно распределяется, если мы указываем значения двух его параметров: 1) среднее значение а; 2) дисперсии
2
( сигма). График нормального распределения называется кривой Гаусса и является симметричным относительно среднего значения а.

формула12

Параметр а характеризует положение графика на плоскости и
2
называется поэтому параметром положения. Параметр характеризует степень сжатия или растяжения, поэтому он называется параметром
2
масштаба. Если среднее значение а=0, а дисперсия =1, то такое нормальное распределение называется стандартным. Рассмотренная в предыдущем параграфе процедура стандартизации исходных данных как раз и приводит к тому, что преобразованные данные z1, z2, …, zn имеют стандартное нормальное распределение.
График стандартного нормального распределения является симметричным относительно вертикальной координатной оси.

формула13

Оно получается в результате деления частной величины, имеющей стандартное нормальное распределение на квадратный корень из случайной
2
величины, имеющей Х – распределение.
2
t = Z0: X :
t – распределение Стьюдента зависит от одного параметра – числа степеней свободы .
График этого распределения является симметричным относительно координатной вертикальной оси.

формула14

Рассмотренные выше четыре распределения протабулированы, т.е. для них имеются соответствующие статистические таблицы.


12. ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ВЫБОРКИ

К предварительному анализу выборки обычно относят следующие задачи:

  • Восстановление пропущенных наблюдений.
  • Анализ резко выделяющихся наблюдений.
  • Проверка статистической независимости исходных данных (элементов выборки).

Восстановление пропущенных наблюдений.
Будем предполагать, что в нашей исходной выборке отсутствие какого-либо показателя у некоторого лица связано с причинами технического характера, т.е. с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение стало неизвестным.
Однако отметим, что это не связано с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных наблюдений, либо оценить сами пропущенные значения, либо и то, и другое, но вместе. Две последние задачи требуют больших исходных допущений, чем оценка самих параметров.
Методы решения таких задач основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
1. Самым простым подходом к проблеме обработки пропущенных наблюдений является использование исходных данных только для тех лиц, о которых мы имеем полную информацию.

формула16

Данный подход является наиболее целесообразным, если выборка содержит достаточное количество исследуемых объектов, а задача заполнения пропущенных значений не является целью обработки.
2. Однако для выборок небольшого объема, а также в ситуации, когда измерение имеет высокую стоимость, естественно попытаться использовать всю имеющуюся у нас информацию.
Одним из самых старых и простых способов обработки данных с пропущенными наблюдениями является следующий: пропущенное значение некоторого признака заполняется средним арифметическим значением, вычисленным по имеющимся данным. Недостатком этого способа является то, что в результате такого запоминания исходные данные становятся статистически зависимыми.
Анализ резко выделяющихся наблюдений.
Часто при предварительном просмотре исходных данных у исследователя возникают сомнения в истинности отдельных наблюдений, резко выделяющихся на общем фоне. Возникает вопрос, вправе ли мы объяснить обнаруженные отклонения только случайными колебаниями выборки или здесь дело в существенных искажениях стандартных условий сбора статистических данных.
Единственно абсолютно надежным способом решения вопроса резко выделяющихся наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях это принципиально невозможно. Поэтому необходимо обращаться к соответствующим формальным статистическим методам. Иногда резко выделяющиеся наблюдения достаточно хорошо просматриваются с помощью построения графика.

формула15

Рассмотрим аналитический метод исследования одного резко выделяющегося наблюдения. Не нарушая общности будем считать, что речь идет о максимальном наблюдении. Пусть х(1), х(2), …, х(n) – вариационный ряд исходной выборки, когда в качестве резко выделяющегося наблюдения будет рассматриваться х(n). Решающее правило для исключения из выборки этого значения х(n) основано на следующей статистике.
Тn=(x(n) –x):Sx > Tкр, где х – среднее значение выборки, Sx – стандартное отклонение.
Если эта статистика Тn больше соответствующего критического значения Ткр, то делаем вывод о том, что наблюдение х(n) является резко выделяющимся наблюдением и мы должны это наблюдение удалить из исходной выборки. Если х(n) меньше или равно Ткр, то мы делаем вывод о том, что наблюдение х(n) не является резко выделяющимся наблюдением.
Т(n) < Ткр.
Критические значения находятся обычно в соответствующей статистической таблице или мастере функций. Наиболее полное собрание статистических таблиц находится в книге Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М. Наука. 1983.
Если в выборке мы подозреваем несколько резко выделяющихся наблюдений, то сначала рассмотренный выше критерий применяют к максимальному из них. Если это значение будет признано резко выделяющимся, то его удаляют из выборки и рассмотренный критерий применяется к следующему по величине элементу выборки и т.д. до тех пор, пока не будет признано, что резко выделяющихся наблюдений больше нет.
Одним из недостатков рассмотренного критерия является то, что «подозрительные» наблюдения часто расположены близко друг к другу, образуя при этом группу в стороне от основной массы наблюдений. В результате рассмотренная процедура, основанная на использовании среднего значения и стандартного отклонения, становится нечувствительной, т.е. не считает их резко выделяющимися. В таких случаях рекомендуют использовать вместо х и Sx более устойчивые оценки – медиану.
Проверка независимости элементов выборки.
Перед тем, как подвергнуть исходные данные статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку и являются статистически независимыми, т.е. значение любого элемента выборки не зависит от значений других элементов выборки.
Рассмотрим несколько статистических критериев для проверки независимости элементов выборки.
1. Сначала обратимся к критерию серий, основанному на медиане выборки. Пусть х1, х2, …, хn – исходная выборка из некоторой генеральной совокупности. Найдем сначала по этой выборке ее медиану хmed, после этого каждый элемент исходной выборки заменяем на плюс, если этот элемент больше медианы (+ xi > xmed ) и заменяем его на -, если этот элемент меньше медианы (- xi < xmed ). Если же элемент выборки равен медиане, то мы его исключаем из рассмотрения. В результате такой обработки мы получаем некоторую последовательность плюсов и минусов ++ - +++ - - - - + - ++. Под серией будем понимать последовательность идущих подряд плюсов или минусов. В частном случае серия может состоять только из одного плюса или минуса. В этом случае ее протяженность считается равной 1. Тогда исходную выборку можно охарактеризовать двумя параметрами: (n) –общее количество серий и (n) – протяженность самой длинной серии. В нашем примере (n) = 7; (n) = 4. Если наши исходные наблюдения являются статистически независимыми, то чередование + и - в полученной нами последовательности должно быть случайным, т.е. эта последовательность не должна содержать слишком длинных серий, а общее количество не должно быть слишком малым. В результате таких рассуждений приходят к следующему правилу:
- Наша исходная выборка является случайной, т.е. ее элементы являются статистически независимыми, если выполняются два следующих неравенства:
(n) > ½ (n+1-1,96 n-1);
(n) < 3,3 lg (n+1), где n – общее количество + и - в последовательности, а не общее количество исходных данных, х – целая часть числа х.
- Если же хотя бы одно из этих неравенств не выполняется, то мы делаем вывод о том, что элементы исходной выборки являются статистически зависимыми.
2. Второй статистический критерий – критерий «нисходящих» и «восходящих» серий. Как и для рассмотренного выше критерия в данном критерии рассматривается последовательность + и -. Однако в этом случае правило получения такой последовательности несколько иное.
Как обычно в качестве исходных данных рассматривается выборка х1, х2, …, хn. Последовательность + и – получается следующим образом. На i-том месте ставится +-, если хi+1 - xi>0, т.е. последующий элемент выборки больше предыдущего; ставится знак=, если xi+1 - xi<0, т.е. последующий элемент меньше предыдущего. Если два или несколько последующих значений одинаковы, то принимается во внимание только одно из них.
3, 2, 2, 2, 4, 2, тогда последовательность подряд идущих плюсов будет

  • +

соответствовать возрастанию элементов выборки, поэтому она называется восходящей серией. Последовательность подряд идущих минусов будет соответствовать убыванию элементов выборки, поэтому она называется нисходящей серией. Полученную последовательность + и – как и для предыдущего критерия можно охарактеризовать двумя параметрами:
(n) – общее количество серий

  • - протяженность самой длинной серии.

Тогда аналогично предыдущему критерию элементы исходной выборки будут статистически независимыми, если в полученной нами + и – общее количество серий не является слишком малым, а протяженность самой длинной серии не является слишком большой.
Математически это правило формулируется следующим образом: 1. Элементы исходной выборки являются статистически независимыми, если выполняются два следующих неравенства:
а) (n) > 1/3 (2n-1) – 1,96 (16n-29):90
б) (n) < 0 (n)
2. Если же хотя бы одно из этих двух неравенств не выполняется, то элементы нашей исходной выборки считаются статистически зависимыми. В данных неравенствах: n –общее количество + и – ; х - целая часть числа х. Величина 0(n) в зависимости от величины n определяется следующим образом:

 

5, n<26
0(n) = 6, 26<n<153
7, 153<n<1170
Задача. Проверить на статистическую независимость выборку, состоящую из номеров месяца рождения студентов группы. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4,. 1.
Проверим независимость с помощью критерия, основанного на медиане выборки. Для этого найдем медиану выборки. Сначала исходную выборку упорядочим: 1, 1, 1, 2, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 8, 8, 10, 10, 11, 11, 12, 12, 12, 12, 12, 12. Всего 28. xmed=(6+6):2=6 xmed=6. Получим теперь последовательность + и – по исходной выборке: +++++ - + - + - ++ - - + - - + - ++ - - - -. n=28 – 3 =25 (три шестерки = медиане, исключаются). (n) =14;
(n) =5.
Вычисляем теперь первые части неравенства:

  • ½ (n+1 – 1,96 n – 1) = ½ (25+1 – 1,96 25 – 1 = 8,1 =8
  • 3,3 lg (n+1) = 3,3lg (25+1) = 3,3 1,38 = 4,55 =4

Сравниваем теперь (n) и (n) с полученными значениями:
(n) = 14>8 (n) = 5>4
В результате получаем, что второе неравенство нарушено, следовательно, мы должны сделать вывод, что исходные данные являются статистически зависимыми.
Решим эту задачу с помощью критерия «нисходящих» и «восходящих» серий. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4, 1. ++++ - + - + - + - - - + - - ++ - - + - - + - (особенность попарно сравнивать) 25, на 1 меньше 3чел. – 2 пары; 12 и 4 искл., т.к. послед. Знач. одинаковы. n = 28 – 2 – 1 = 25; (n) = 16 (n) = 4. Вычисляем правые части неравенств: 1/3 (2n – 1) – 1,96 (16n – 29) : 90 = 1/3 (2 25 – 1) – 1,96 (16 25 – 29) : 90 = 12,4 = 12. 0(n) = 5 ( 5,25<26)
n

Сравниваем (n) и (n) с полученными значениями правых частей.
(n) = 16>12
(n) = 4<5
В данном случае оба требуемых неравенства выполняются, поэтому делаем вывод о том, что наши исходные данные являются статистическими независимыми (получили по 1-му и выбираете то, что вам нужно).

13. СТАТИСТИЧЕСКИЙ ВЫВОД. ПРОВЕРКА ГИПОТЕЗ

На практике часто приходится делать некоторые выводы по имеющемуся у нас небольшому объему данных (выборки) о свойствах всей генеральной совокупности. Эти выводы осуществляются с помощью определенных статистик и поэтому называются статистическими. Теория статистического вывода занимает центральное место в статистике. Основным способом, с помощью которого делаются статистические выводы, является проверка гипотез.
Существует два вида гипотез: 1) научные 2) статистические. Научная гипотеза – это предполагаемое решение некоторой проблемы. Она обычно формулируется в виде теоремы. Статистическая гипотеза – некоторое утверждение относительно неизвестного параметра или какой-либо характеристики. Например, среднее значение генеральной совокупности равно 125 х=125 или коэффициент корреляции равен 0 =0. Для проверки статистических гипотез используются статистические критерии, которые представляют собой некоторое правило, по которому мы делаем вывод о правильности или неправильности рассматриваемой статистической гипотезы.

14. ОБЩАЯ СХЕМА ПРОВЕРКИ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Она состоит из пяти этапов:
1 этап – выдвигаются две статистические гипотезы: 1) основная нулевая Н0 и 2) альтернативная (конкурирующая) Н1.
Например, Н0 среднее значение ГС = 125.
Н1 среднее значение ГС = 125. Математически это можно записать: Н0: х = 125
Н1: х = 125 ( х < 125 : x > 125).
2 этап – задаемся уровнем значимости . Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска и выступает уровень значимости, который обычно обозначается . Фактически уровень значимости представляет собой долю и процент ошибок, которые мы можем себе позволить при статистических выводах. Чаще всего используют следующие три значения уровня значимости. = 0,1 или 10%; = 0,05 или 5%; = 0,01 или 1%. Наиболее популярным из них является = 0,05 или 5% (допускается 5% ошибок, если всего 100 выборок).
3 этап – по исходным данным, т.е. по выборке вычисляется наблюдаемое значение статистики критерия. В общем случае будем ее обозначать gнабл. Для этого используются статистические таблицы. Выбор необходимой статистической таблицы осуществляется в зависимости от распределения статистики критерия. При проверке статистических гипотез статистика критерия выбирается (статистиками) таким образом, чтобы она имела одну из рассмотренных в параграфе 11 распределений.
5 этап – путем сравнения найденных наблюдаемых критических значений делаем вывод о правильности этой или иной гипотезы. Наиболее часто встречаются следующие ситуации:

 

8 наблюдений

формула17

15. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Часто на практике возникает задача сравнения средних значений исследуемого показателя, признака для двух разных генеральных совокупностей. Например, одинаков ли средний уровень коэффициента IQ для мальчиков и девочек одного и того же возраста. При решении такой задачи необходимо, чтобы исследуемый признак был измерен в количественной шкале. Таким образом, будем считать, что в результате эксперимента в качестве исходных данных у нас имеются две выборки необязательно одинакового объема: х1, х2, …, хn и y1, y2, …, ym, где n = m. Необходимо обращать внимание на то, чтобы эти две выборки были независимыми, т.е. чтобы элементы 1 выборки не влияли на значения элементов 2 выборки. Для решения поставленной задачи воспользуемся общей схемой проверки статистической гипотезы.
1 этап. Выдвигаются две гипотезы: основная нулевая о том, что средние значения исследуемого признака двух рассматриваемых ГС статистически одинаковы и альтернативная гипотеза о том, что эти средние значения статистически различны.
Н0 : х = у, где х – среднее значение 1 ГС
Н1 : х = у, где х – среднее значение 2 ГС
2 этап. Задаемся уровнем значимости .
3 этап. Вычисляется наблюдаемое значение статистики критерия. Для этого сначала по исходным выборкам вычисляется среднее значение х и у
2 2
(см. меры центральной тенденции), а также дисперсии Sх Sy . Тогда наблюдаемое значение статистического критерия вычисляется по следующей формуле: 2 2
tнабл. = (х – у) : ((n - 1) Sx + (m – 1) Sy ) : (n + m – 2) ( 1/n + 1/m)
4 этап. Находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы
= n + m – 2
Поэтому для нахождения критического значения необходимо воспользоваться статистической таблицей распределения Стьюдента. В этой таблице находим столбец, соответствующий величине 1 - /2, если таблица называется квантили распределения или величине /2, если таблица называется верхние процентные точки распределения. В этой же таблице находим строку, соответствующую числу степеней свободы = n + m – 2, на пересечении выбранных строки и столбца и находится требуемое нам критическое значение tкр.
5 этап. Делаем вывод о правильности той или иной гипотезы по следующему правилу:
1) если - tкр< tнабл. < tкр, то принимается нулевая гипотеза Н0, т.е.на основе имеющихся данных мы делаем вывод о том, что средние значения двух рассматриваемых генеральных совокупностей статистически одинаковы на уровне значимости .
2) если же tнабл.< - tкр или tнабл. > tкр, то принимается альтернативная гипотеза Н1, т.е. делается вывод о том, что средние значения двух рассматриваемых ГС статистически различны на уровне значимости .

формула18

Пример: был проведен эксперимент по исследованию влияния усовершенствованного пособия (вводный материал, подготавливаемый к восприятию изучаемого предмета) на успеваемость по определенному разделу математики. 50 учащихся были разбиты случайным образом на две группы: 25 (1 группа) знакомились с усовершенствованным пособием, а 25 (2 группа) не знакомились, в конце эксперимента всем учащимся был предложен тест на усвоение понятий определенного раздела математики. В качестве измеряемых признаков рассматривалось количество правильных ответов. Проверить гипотезу о наличии или отсутствии влияния усовершенствованного пособия на успеваемость по математике.
В нашем случае в качестве измеряемой переменной рассматривалось количество правильных ответов, поэтому она измерена в количественной шкале. Так как учащиеся разбивались на 2 группы случайно, то в результате эксперимента мы получили две независимых выборки. х1, х2, …, х25 и у1, у2, …, у25. По полученным выборкам были найдены средние значения х=7,65;
2 2
у=6,0 и дисперсии Sx=6,5 Sy=5,9 n=25 m=25 =0,05

формула19

tнабл. > tкр., то мы должны принимать альтернативную гипотезу Н1 о статистическом различии средних значений. Имеется влияние усовершенствованного пособия на среднюю успеваемость по математике на уровне значимости 0,05 (5% ошибок допускается). Глядя на соотношение между х и у (в нашем случае х>у), делаем вывод, что усовершенствованное пособие повышает среднюю успеваемость по математике.
Примечания.
1. Рассмотренный в этом параграфе критерий должен применяться для выборок, извлеченных из ГС и имеющих нормальное распределение с одинаковыми дисперсиями.
2. Если исходные выборки извлечены не из нормальной ГС, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 17 или критерием этого параграфа, но при этом помнить, что полученные выводы будут приближенными, т.е. могут оказаться неправильными.
3. Предположение о равенстве дисперсий может легко, если брать обе выборки одинакового объема.
4. Рассмотренный в этом параграфе критерий в литературе обычно называется t-критерий Стьюдента.


16. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОК

Иногда нам приходится измерять один и тот же признак (показатель) для одной и той же группы лиц, но в различные моменты времени. Например, до проведения эксперимента и после эксперимента. В результате в качестве исходных данных мы получаем две выборки одинакового объема х1, х2, …, хn и у1, у2, …, уn (одни и те же люди). Причем элементы выборки, стоящие на одном и том же месте в каждой из выборок должны соответствовать измененному показателю для одного и того же лица. Поэтому такие выборки часто называются связанными. Они являются зависимыми, т.к. значения элементов второй выборки зависят от значений элементов первой выборки. Исходные данные в рассматриваемом примере называются типа «до – после». Связанными выборками могут рассматриваться также данные типа «брат – сестра» (в 1 выборке показываем мальчиков, во второй – девочек), «муж – жена». Для таких данных можно рассмотреть задачу сравнения средних значений двух выборок, для решения которой применяется общая схема проверки статистической гипотезы.
1 и 2 этапы – см. 15.
3 этап – вычисляем наблюдаемое значение статистики критерия. Для этого сначала из двух исходных выборок получаем одну выборку разностей, которую будем обозначать d1, d2, …, dn, где di = xi – yi. По полученной
n
выборке разностей вычисляем среднее значение d = di : n, а также
n 2 i=1
стандартное отклонение Sd = (di – d) : (n – 1), тогда наблюдаемое
i=1
значение статистики критерия вычисляется по следующей формуле:
tнабл. = n d/Sd
4 этап – находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы = n – 1, поэтому для нахождения t-критического необходимо воспользоваться статистической таблицей распределения Стьюдента (см 4 этап 15 параграфа).
5 этап – делаем вывод о правильности той или иной гипотезы по следующему правилу:
1) если –tкр < tнабл. < tкр, то принимается нулевая гипотеза, т.е. делаем вывод о том, что средние значения ГС статистически одинаковы или, другими словами, проведенный эксперимент не оказал влияния на средние значения изучаемого показателя.
2) если tнабл. < - tкр или tнабл. > tкр, то принимается альтернативная гипотеза, т.е. мы делаем вывод о том, что средние значения рассматриваемых ГС статистически различны или, другими словами, эксперимент привел к изменению среднего значения изучаемого показателя. Для того, чтобы выяснить, в какую сторону произошло изменение среднего значения (стало больше или меньше), необходимо сравнить среднее значение двух исходных выборок х и у (арифметически).

формула20

Примечание. 1) рассмотренный критерий должен применяться для выборок, извлеченных из ГС, имеющих нормальное распределение с одинаковыми дисперсиями. 2) если эти условия не выполняются, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 18. 3) рассмотренный в данном параграфе критерий в литературе обычно называется парным t-критерием.

Пример: Был проведен эксперимент по исследованию влияния процесса обучения на уровень знаний студентов колледжа. 100 первокурсникам был предложен тест из 60 вопросов, этот же тест был предложен этим же студентам, но уже выпускникам (когда они уже отучились). В качестве измеряемого показателя рассматривалось количество правильных ответов. Проверить гипотезу о наличии либо отсутствии влияния процесса обучения в колледже на уровень знаний. Решение. В нашем эксперименте исходные данные представляют собой 100 пар значений типа «до – после», т.е. две связанные выборки х1, х2, …, х100 и у1, у2, …, у100. Выбираем уровень значимости = 0,01. По исходным выборкам была вычислена выборка разности, по которой было найдено d = - 7,02 Sd = 8,02 (стандартное отклонение) n = 100 tнабл. = 100 (- 7,02:8,02) = - 8,75. Будем искать по таблице tкр. /2 = 0,01:2 = 0,005 = n – 1 = 100 – 1 = 99.

формула21

Т.е. мы делаем вывод, что процесс обучения в колледже приводит к изменению среднего уровня знаний. d = - 7,02 < 0 d = х – у < 0 = х < у. Таким образом, средний уровень знаний за время обучения в колледже повысился.

17. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Как уже говорилось ранее, если исходные выборки извлечены не из нормальных ГС, то критерий Стьюдента не применим, им нельзя пользоваться. В этом случае используется не параметрический критерий Манна-Уитни. (параметр. – ср. знач. дисперсии; не параметр. – параметры выборки не интересуют). Этот же критерий можно использовать, когда наши исходные данные проранжированы, т.е. измерены в порядковой (ранговой) шкале. Данный критерий позволяет проверить гипотезы о равенстве средних значений двух ГС, когда в качестве исходных данных рассматриваются две независимые выборки. Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы.
1 этап. Выдвигаются две статистические гипотезы: основная нулевая Н0 о том, что средние значения двух рассмотренных ГС статистически одинаковы и альтернативная Н1 о том, что эти средние значения статистически различны:
Н0: х= у
Н1: х/= у
2 этап. Выбираем уровень значимости .
3 этап. Вычисляем необходимое значение статистики критерия. Для этого сначала две исходные независимые выборки (необязательно одинакового объема) х1, х2, …, хn и у1, у2, …, уm объединяем в одну выборку. Полученную объединенную выборку ранжируем, т.е. присваиваем каждому элементу объединенной выборки ранг, который соответствует порядковому номеру этого элемента в упорядоченной объединенной выборке. После этого вычисляем сумму рангов элементов первой выборки, которую обозначим R1 и сумму рангов элементов второй выборки R2. Затем вычисляем промежуточные величины u1=nm+1/2n(n+1) – R1

формула22

Примечания: 1) не имеет значения как ранжируются элементы выборки: по возрастающей или по убывающей. 2) если два или более элемента выборки имеют одинаковое значение, то они называются совпадающие. В этом случае каждому из этих элементов присваивают ранг, равный среднему значению из тех рангов, которые были бы присвоены этим совпадающим значениям в случае их несовпадения.
Пример: у 26 юношей в возрасте от 18 до 24 лет был измерен уровень невербального интеллекта с помощью методики Векслера. 14 юношей были студентами физического факультета, а 12 – психологического факультета. Можно ли утверждать, что одна из групп превосходит другую по уровню невербального интеллекта? Решение:


Физики (хi)

Ранги физ.

Психологи (уi)

Ранги пс.

111
104
107
90
115
107
106
107
95
116
127
115
102
99

15,5
6,5
11,5
1
20,5
11,5
9
11,5
2
22
26
20,5
4,5
3

113
107
123
122
117
112
105
108
111
114
102
104

18
11,5
25
24
23
17
8
14
15,5
19
4,5
6,5

 

R1=165

 

R2=186

1 этап. Решаем задачу двух независимых выборок методом Манна-Уитни, т.к. имеются две группы студентов физ. И псих. Факультетов. х1, х2, …, х14 и у1, у2, …, у12. Необходимо сравнить группы по уровню невербального интеллекта, что означает сравнить средние значения. Чтобы не проводить проверку данных на нормальность, мы воспользуемся рассмотренным критерием Манна-Уитни.

n =14 m=12

102 : (4+5) : 2 = 4,5 104 : (6+7) : 2 = 6,5 107 : (10+11+12+13) : 4 = 11,5 111 : (15+16) :2 = 15,5. Для проверки правильности ранжирования мы должны вычислить величину R = ((n+m)(n+m+1)) : 2. Если мы правильно проранжировали, то эта величина R должна равняться сумме R1+R2.
R = R1 + R2 . В нашем случае R1 – сумма рангов элементов первой выборки = 165; R2 – второй выборки = 186 R1+R2=351 R = ((14+12)(14+12+1)) : 2 =351
3 этап. Вычисляем u1=14 12+1/2 14 (14+1) – 165 = 108 u2= 14 12+1/2 12 (12+1) – 186 = 80 Отсюда имеем, что u=108. Zнабл. = (108 – ½ 14 12) : (14 12 (14+12+1)) : 12 = 1,23.
4 этап. = 0,05 1 - /2 = 1 – 0,05/2 = 0,975. Из таблицы находим, что Zкр = 1,96 (был использован метод Манна-Уитни и был получен результат Zнабл. = 1,23 Zкр = 1,96)

формула23

Так как Zнабл. < Zкр, то мы принимаем нулевую гипотезу Н0, т.е. делаем вывод о том, что по среднему уровню невербального интеллекта студенты-физики не отличаются от студентов-психологов на уровне значимости 0,05.

18. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ СВЯЗАННЫХ ВЫБОРОК

Если исходные данные в виде двух связанных выборок извлечены не из нормальных ГС, то парные критерии из параграфа 16 не применимы. В этом случае используется критерий Уилкоксона. Этот же критерий может использоваться, когда исходные данные измерены в порядковой шкале. Исходные выборки в нашем случае должны быть связаны (зависимы), например: данными типа «до – после». Для решения задачи сравнения средних значений воспользуемся общей схемой проверки статистической гипотезы.
!. Выдвигаются две статистические гипотезы: основная нулевая о том, что средние значения двух рассматриваемых ГС статистически одинаковы на уровне значимости и альтернативная гипотеза о том, что эти средние значения статистически различны Н0 : х = у Н1 : у /= х.
2. Выбираем уровень значимости .
3. Вычисляем наблюдаемое значение статистики критерия. До этого по двум исходным выборкам одинакового объема х1, х2, …, хn и у1, у2, …, уn получаем одну выборку разностей d1,d2,…,dn, где di=xi=yi. В полученной выборке разностей ранжируем абсолютные величины в возрастающем порядке. После этого каждому рангу приписываем знак его разности. Вычисляем сумму положительных рангов, которую обозначают , тогда наблюдаемое значение статистики критерия вычисляются по следующей формуле: Zнабл. = (N – (n(n+1) : 4) : (n(n+1)(2n+1) : 24).
4. Находим критическое значение статистического критерия. В нашем случае статистика критерия имеет стандартное нормальное распределение, поэтому для нахождения критического значения Zкр необходимо воспользоваться статистической таблицей стандартного нормального распределения (см.4 этап параграфа 17).
5. Делаем вывод о правильности той или иной гипотезы по следующему правилу: 1) если – Zкр < Zнабл. < Zкр, то принимается Н0, т.е. делается вывод о том, что среднее значение двух рассматриваемых ГС статистически одинаковы на уровне значения , или, другими словами, в результате эксперимента не произошло изменений среднего значения исследуемого признака. 2) если Zнабл. < - Zкр или Zнабл. > Zкр, то принимается гипотеза Н1, т.е. делаем вывод о том, что эти средние значения статистики различны на уровне значимости или, другими словами, в результате эксперимента произошли изменения среднего значения исследуемого признака.
Примечания: 1) нулевые разности игнорируются. В этом случае необходимо уменьшить соответствующим образом величину n. 2) если в выборке разностей встречаются абсолютные величины, то в этом случае в качестве ранга совпадающим значениям присваивается ранг, равный среднему значению тех рангов, которые получили бы эти величины в случае их несовпадения.
Пример: два сорта пшеницы сравнивают по урожайности. Сорт «а» - обычной разновидности, сорт «б» - новый гибрид. Для этого выбирают 10 участков, каждый из которых делят пополам. На каждом отдельном участке условия роста и созревания одинаковы, случайным образом выбирают одну половину участка и засевают ее сортом «а», а вторую – «б». Результаты сбора урожая приведены в соответствующей таблице. Есть ли подтверждение того, что урожайность сорта «б» выше урожайности сорта «а»?

Сорт «а»

yi

Сорт «б»
xi

Разности «б»-«а»
di=xi-yi

ранги

36,9
35,2
31,2
34,1
36,1
34,1
37,2
36,8
29,6
35,4

36,8
37,1
31,2
34,1
35,9
35,2
37,9
37,2
30,2
36,5

  • 0,1

1,9
0,2
0

  • 0,2

1,1
0,7
0,4
0,6
1,1

  • 1

9
2,5

  • 2,5

7,5
6
4
5

n=9 N=9+2,5+7,5+6+4+5+7,5=41,5
Zнабл.= (41,5 – (9(9+1) : 4)) : (9(9+1)(2 9+1) : 24) = 2,26
=0,05 1 - /2 Zкр = 1,96

формула24

Принимается гипотеза Н1, т.е. средние урожайности сортов «а» и «б» статистически различны на уровне значимости 0,05. Для окончательного ответа на поставленный задачей вопрос необходимо вычислить среднее значение по данным для сорта «б», а также среднее значение по данным для сорта «а». После чего сравнить арифметически эти вычисленные средние значения. В нашем случае, т.к. положительных разностей гораздо больше и они сравнимы по величине с отрицательными, то действительно средняя урожайность сорта «б» выше средней урожайности сорта «а».


19. СРАВНЕНИЕ ДИСПЕРСИЙ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Сравнение средних значений не всегда позволяет составить полную картину изучаемого явления, т.к. средние значения ГС могут быть статистически одинаковыми, а дисперсии статистически различными. Это будет означать, что данные одной ГС имеют больший разброс, чем данные другой ГС. Поэтому после сравнения средних значений нужно решать задачу сравнения дисперсий, для чего воспользуемся общей схемой проверки статистической гипотезы.
1 этап. Выдвигаются две статистические гипотезы. Основная нулевая о том, что дисперсии двух рассматриваемых ГС статистически одинаковы и альтернативная о том, что эти дисперсии статистически различны.
2 2
Н0: х = у
2 2 2 2
Н1: х / = у, где х – дисперсия первой ГС, у – дисперсия второй ГС.
2 этап. Выбираем уровень значимости .
3 этап. Вычисляем наблюдаемое по двум исходным независимым выборкам необязательно одинакового объема х1, х2, …, хn у1, у2, …, уm .
2 2
Вычисляем дисперсии: Sx Sy. Тогда наблюдаемое значение статистики критерия вычисляется по следующей формуле:
2 2
Fнабл. = Sx : Sy
4 этап. Находится критическое значение статистики критерия. В нашем случае статистика критерия имеет F-распределение Фишера со следующими степенями свободы: 1 = n – 1 2 = n – 1. Т.к. распределение Фишера не является симметричным, то нам придется искать два критических значения F1 и F2.
Для F-распределения Фишера имеется не одна, а несколько статистических таблиц, т.к. оно зависит от двух параметров 1 и 2. Поэтому сначала мы должны выбрать таблицу соответственной величине: 1 - /2, (если таблица называется квантили распределения) или величине /2, (если таблица называется верхние процентные точки). После этого в выбранной таблице находят столбец, соответствующий числу степеней свободы 1 и 2. На пересечении выбранных строки и столбца будет находиться критическое значение F2.
Для нахождения критического значения F1 мы сначала должны найти промежуточное значение Fпр. Оно находится в той же таблице, что и F2, только сначала находится столбец, соответствующий числу степеней свободы 2 и строка, соответствующая числу степеней свободы 1. На пересечении выбранной строки и столбца будет находиться промежуточное значение Fпр., тогда F1 = 1/Fпр.
5 этап. Делаем вывод о правильности той или иной гипотезы по следующему правилу, если 1) F1 < Fнабл. < F2, то принимается нулевая гипотеза Н0, т.е. делаем вывод о том, что дисперсии двух рассматриваемых ГС статистически одинаковы на уровне значимости . 2) если Fнабл. < F1 Fнабл. > F2 , то принимается альтернативная гипотеза Н1, т.е. делаем вывод о том, что эти дисперсии статистически различны на уровне значимости .

формула25

Примечание. Рассмотренный в этом параграфе критерий в литературе называется F-критерий Фишера.

20. СРАВНЕНИЕ ДИСПЕРСИЙ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОК

Когда в качестве исходных данных рассматриваются две связанные выборки х1, х2, …, хn и у1, у2, …, уn (т.е. одинакового объема). Например, для данных типа «до-после» мы также можем рассматривать задачу сравнения дисперсий двух ГС. Для решения воспользуемся общей схемой проверки статистической гипотезы.
1. Выдвигаются две статистические гипотезы: Н0: о том, что дисперсии двух рассматриваемых ГС статистики одинаковы. Н1: о том, что эти дисперсии статистики различны.
2 2
Н0 = х = у
2 2
Н1 = х /= у
2. Выбираем уровень значимости .
3. Вычисляем наблюдаемое значение статистики критерия. Для этого
2 2
сначала вычисляем по исходным выборкам дисперсии Sx и Sy, а также коэффициент корреляции rху.

формула26

Пример: 95 учащихся 7 класса и эти же 95 учащихся в 8 классе были подвергнуты тестированию по Стентфордскому тесту. Экспериментатор хотел выяснить, будут ли характеристики учащихся (успеваемость) более постоянными (менее изменчивыми) в 7 или 8 классе. Так как в данном случае рассматриваются одни и те же учащиеся, то наши две исходные выборки х1, х2, …, х95 и у1, у2, …, у95 являются связанными выборками. Так как мы хотим выяснить изменчивость характеристик, то надо проверять гипотезу о равенстве дисперсии. Выбираем = 0,1. По исходным выборкам было вычислено, что 2 2
Sx = 134,56; Sy = 201,64; rxy = 0,876 . Вычисляем tнабл. =
2
(134,56 – 201,64) : (4 134,56 201,64) : (95 – 2) (1 – 0,876) = - 4,07
/2 = 0.1/2 = 0,05 (столбец); = 95 – 2 = 93 (строчка). По таблице находим tкр = 1,66

формула27

Если мы хотим сравнить два исследуемых показателя (или один и тот же, но для двух различных групп лиц по их уровню), то необходимо проверять гипотезу о равенстве средних значений. Если хотим сравнить изменчивость (разброс показателя), то необходимо проверять гипотезу о равенстве дисперсий.

21. АНАЛИЗ ВЗАИМОСВЯЗЕЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА

Исследователя часто интересует, как связаны между собой два изучаемых признака в данной группе лиц. Например: имеют ли ученики, научившиеся читать раньше других, тенденцию к более высокой успеваемости? Связь между двумя признаками можно изобразить графически с помощью диаграммы рассеивания (рассеяния). Для ее построения на координатной плоскости каждый объект изображается точкой. Первая координата, которая соответствует значению первого признака для данного объекта, а вторая – значению второго признака для данного объекта. Для оценки связи между двумя признаками можно использовать ковариацию, которая обозначается Sxy и вычисляется по формуле:

формула28

Вычисленный таким образом коэффициент называется коэффициентом корреляции Пирсона.
Корреляционная связь отражает тот факт, что изменчивость одного признака находится в некотором соответствии с изменчивостью второго признака.
Корреляционная связь не может рассматриваться как свидетельство причинно - следственной связи. Она лишь говорит о том, что с изменением одного признака, как правило, происходят изменения второго признака, но находится причина изменения в одном из признаков или она находится за пределами исследуемой пары признаков, нам не известно.
Корреляционные связи различаются по форме, по направлению и по степени (силе) связи.
По форме. Корреляционная связь может быть прямолинейной и криволинейной. Примеры: прямолинейной может быть связь между количеством тренировок на тренажерах и количеством правильно решенных задач в контрольном эксперименте. Криволинейной может быть связь между уровнем мотивации и эффективностью выполнения задачи. При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигает некоторого оптимального уровня, который соответствует максимальной эффективности, а затем при повышении мотивации эффективность падает. В этих случаях диаграмма рассеивания

формула29

По направлению. Корреляционная связь может быть положительной (прямой) или отрицательной (обратной). При положительной корреляции возрастание значений одного признака приводит к возрастанию значений второго признака, а убывание значений одного признака приводит к убыванию значений второго признака. При отрицательной корреляции увеличение значений одного признака приводит к уменьшению значений второго признака и наоборот. В этих случаях диаграммы рассеивания выглядят следующим образом:

формула30

- 1 - 0,7 - 0,5 0 0,5 0,7 1
Коэффициент корреляции Пирсона является характеристикой линейной корреляционной связи. Например, rxy = - 0,35. Это линейная обратная умеренная. Rxy = 0,695. Это линейная прямая средняя связь.


22. ЗНАЧИМОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

В большинстве случаев вычисление коэффициента корреляции (КК) осуществляется по небольшому объему исходных данных. Вследствие этого может оказаться, что корреляция во всей ГС близка к нулю, т.е. связи между двумя изучаемыми признаками нет. Хотя арифметически КК вычислений по исходным данным одной выборки отличается от нуля.
Поэтому после вычисления коэффициента корреляции нужно выяснить, является ли он значимым, т.е. фактически проверить гипотезу о том, что КК ГС отличен от нуля. Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (ОСПСГ).
1. Выдвигаются две статистические гипотезы. Основная Н0 о том, что коэффициент корреляции ГС статистически равен нулю. Альтернативная Н1 о том, что этот КК статистически отличен от нуля.
Н0: ху = 0, где ху – коэффициент корреляции ГС.
Н1: ху /= 0
2. Выбираем уровень значимости .
3. Находим наблюдаемое значение статистики критерия по следующей формуле: 2
tнабл. = n – 2 (rxy : (1 – rxy))
4. Находится критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы = n – 2. Поэтому для нахождения критического значения tкр нужно воспользоваться статистической таблицей распределения Стьюдента (см. параграф 15).
5. Делаем вывод о правильности той или иной гипотезы 1) если –tкр < tнабл. < tкр, то принимается гипотеза Н0, т.е. делаем вывод о том, что коэффициент корреляции ГС статистически равен 0 на уровне значимости или, другими словами, является незначимым или между рассмотренными признаками линейной связи нет; 2) tкр < tнабл. < - tкр, то принимается гипотеза Н1, т.е. делаем вывод о том, что КК ГС статистически отличен от 0 на уровне значимости или, другими словами, является значимым или между двумя рассматриваемыми признаками имеется линейная корреляционная связь, о силе которой мы можем судить по величине КК rxy

формула31

Т.к. tнабл. > tкр, то мы должны принимать гипотезу Н1, т.е. делаем вывод о том, что КК является значимым. Между инспекторскими оценками новаторства и рассеянности существует умеренная, прямая, линейная корреляционная связь на уровне значимости 0,05.

23. АНАЛИЗ ВЗАИМОСВЯЗИ РАНЖИРОВАННЫХ ПРИЗНАКОВ

Для анализа взаимосвязи ранжированных признаков вычисляют коэффициент ранговой корреляции (КРК). Для его вычисления необходимо располагать двумя выборками, элементы которых могут быть проранжированы. Такими выборками могут быть:

  1. два признака, измеренные для одной и той же группы испытуемых.
  2. Две индивидуальных иерархии признаков, выявленные у двух испытуемых лиц по одному и тому же набору признаков. Например: личностные профили по 16-тифакторному опроснику Кеттела.
  3. Две групповые иерархии признаков.
  4. Индивидуальная и групповая иерархия признаков.

Рассмотрим случай №1. Сначала ранжируются элементы первой выборки, а затем второй. Обычно ранг, равный 1, присваивается элементу выборки, имеющему наименьшее значение. Если рассматриваемые два признака связаны положительно, то лица, имеющие низкие ранги по одному признаку, будут иметь более низкие значения и по второму признаку. Аналогично и для высоких рангов.
Для нахождения КРК Спирмена мы должны сначала вычислить разности между рангами для одного и того же лица, затем определенным образом преобразовать эти разницы и вычесть из 1. Чем меньше будут разности, тем больше будет КРК и тем ближе он будет к +1. Если же корреляция отсутствует, то в этом случае ранги будут перемешаны и между ними не будет никакого соответствия, а сам КРК будет близок к 0.
В случае отрицательной корреляции небольшим рангам по первому признаку будут соответствовать большие ранги по второму признаку и наоборот. В этом случае разности между рангами будут большие и КРК будет близок к –1.
Рассмотрим случай №2. В этом случае ранжируются значения, полученные каждым из двух испытуемых лиц по определенному одинаковому набору признаков. Все признаки должны быть измерены в одних и тех же единицах, иначе ранжирование невозможно. В таких ситуациях, когда разные единицы, обычно сначала «сырые» баллы должны быть приведены к одной шкале (диапазону). Чаще всего это шкала – стены.
Рассмотрим случай №3. В этом случае сначала вычисляется среднее значение каждого признака отдельно по каждой группе, после чего они ранжируются. В результате этот случай сводится к №2.
Рассмотрим случай №4 (индивидуальные и групповые профили). В этом случае сначала вычисляется среднее значение каждого признака по группе лиц, причем как правило при расчете показатели лица, сопоставленного с группой из расчета среднего значения исключаются. После этого ранжируются отдельно значения индивидуального профиля и средние групповые значения. В этом случае ранговая корреляция позволяет проверить, насколько согласованы индивидуальные и групповые профили. В случае положительной корреляции это означает, что рассматриваемое лицо такое как и все. В случае же отрицательной корреляции получаются противопоставления в группе. При проверке значимости КРК важно обращать внимание на то, что выступает в качестве n. В первом случае это будет количество лиц, а во втором, третьем и четвертом – количество признаков, образующих иерархию.
Корреляционную ранговую связь можно изобразить графически. В этом случае данные изображаются в виде двух столбцов точек, после чего одинаковые значения рангов соединяются линией. В случае, если ранги для одного и того же человека по двум признакам совпадают, то между ними получится горизонтальная линия. Если же ранги различны, то линия становится наклонной.

формула32

Алгоритм вычисления КРК Спирмена.
1. Определяем, какие два признака или две иерархии признаков будут выступать в качестве переменных х и у.
2. Ранжируем значения переменной х, присваивая ранг = 1 наименьшему значению. Присвоенные ранги заносим в первый столбец результирующей таблицы.
3. Аналогично ранжируем значения переменной у, после чего полученные ранги заносим во второй столбец таблицы.
4. Вычисляем разность d между рангами по каждой строке и полученные результаты заносим в третий столбец таблицы.
di = xi – yi
5. Возводим каждую разность в квадрат и полученные результаты помещаем в четвертый столбец таблицы.
6. Вычисляем сумму квадратов разности, т.е. сумму элементов четвертого столбца.

7. При наличии одинаковых рангов вычисляем поправки Тх и Ту к сумме квадратов разности.

формула33

Пример 1. Корреляция между двумя признаками. В исследовании, моделирующем деятельность авиадиспетчера, группа испытуемых проходила подготовку на тренажере перед началом работы. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для заданного типа самолета. Связано ли количество ошибок, допущенных испытуемыми в тренировочной сессии с показателем невербального интеллекта, измеренного с помощью методики Векслера?
Решение.

Количество ошибок (х)

Невербальный интеллект (у)

Ранги по х

Ранги по у

Разность между рангами d

2
d

29
54
13
8
14
26
9
20
2
17

106
90
95
116
127
107
104
102
111
99

9
10
4
2
5
8
3
7
1
6

6
1
2
9
10
7
5
4
8
3

3
9
2
-7
-5
1
-2
3
-7
3

9
81
4
49
25
1
4
9
49
9

 

 

 

 

 

240

Тх = 0 Ту = 0 (совпадений нет) n = 10 (чел.)
2
rs = 1 – 6 ((240+0+0) : 10 (10 – 1)) = -0,455. Отсюда видно, что между количеством ошибок и невербальным интеллектом имеется отрицательная умеренная корреляционная связь. Корреляция между двумя групповыми иерархиями (случай №3).
Джозеф Вольпе в книге, написанной совместно с сыном, приводит упорядоченный перечень из наиболее часто встречающихся у современного человека «бесполезных страхов», т.е. таких, которые не несут сигнального значения, а лишь мешают полноценно жить и действовать.
В отечественном исследовании, проведенном М.Э. Раховой, 32 испытуемых должны были по 10-бальной шкале оценить, насколько актуальным для них является тот или иной вид страха из перечня Вольпе.
Обследуемая выборка состояла из студентов Санкт-Петербурга в возрасте от 18 до 25 лет. Данные, полученные по 10-бальной шкале, были усреднены по 32 испытуемым, после чего средние значения были проранжированы. Совпадает ли ранговая последовательность двадцати видов страхов?
Были получены следующие результаты:

 

 

Вид страха

Ранги в американской выборке

Ранги в российской выборке

Разность d между рангами

2
d

1

2
3
4
5
6
7
8
9
10
11
12
13

14
15
16
17
18

19
20

Публичного выступления
Полета
Совершить ошибку
Неудачи
Неодобрения
Отвержения
Злых людей
Одиночества
Крови
Открытых ран
Дантиста
Уколов
Прохождения тестов
Полиции
Высоты
Собак
Пауков
Покалеченных людей
Больниц
Темноты

1

2
3
4
5
6
7
8
9
10
11
12
13

14
15
16
17
18

19
20

7

12
10
6
9
2
5
1
16
13
3
19
20

17
4
11
18
8

15
14

-6

-10
-7
-2
-4
4
2
7
-7
-3
8
-7
-7

-3
11
5
-1
10

4
6

36

100
49
4
16
16
4
49
49
9
64
49
49

9
121
25
1
100

16
36

 

 

 

 

 

802

Тх = 0 Ту = 0 n = 20 (строки, а не люди)
2
Rs = 1 – 6 ((802+0+0) : (20 (20 – 1))) = 0,397. Отсюда видно, что между ранговыми последовательностями имеется положительная умеренная корреляционная связь.

Значимость КРК Спирмена.

Для КРК проверка значимости полностью аналогична проверке значимости КРК Пирсона (см. параграф 22).
Осуществим проверку значимости найденных в вышерассмотренных примерах КРК.
rs = -0,455 n = 10 = 0,65
2 2
tнабл. = n – 2 (rs : 1 – rs ) = 10 – 2 (-0,455 : 1 – (-0,455) ) = -1,466
/2 = 0,05/2 = 0,025 = n – 2 = 10 – 2 = 8 tкр = 2,306

формула34

-tкр < tнабл. < tкр , то мы должны принимать гипотезу Н0, т.е. делаем вывод о том, что на уровне значимости 0,05 КРК Спирмена равен 0, т.е. не является значимым. В результате получаем окончательный вывод о том, что между количеством ошибок на тренажере и невербальным интеллектом корреляционной связи нет.


24. КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ КЕНДАЛЛА

Как и в случае КРК Спирмена исходные данные представляют собой две выборки, каждая из которых содержит n последовательных и несвязанных рангов, т.е. чисел от 1 до n. Кендалл построил свой коэффициент корреляции на количестве пар рангов, которые упорядочиваются в одинаковом направлении как по переменной х, так и по переменной у.
Для некоторой пары лиц констатируется совпадение, если их порядок как по переменной х, так и по переменной у одинаков. Для некоторой пары лиц констатируется инверсия, если их порядок по переменным х и у различен.
КРК Кендалла обычно обозначается и вычисляется по формуле:
= (P – Q) : ((n (n – 1)) :2), где P – общее количество совпадений; Q – общее количество инверсий. Например:

Лицо

х

у

Совпадения

Инверсия

А
С
В
Н
Е
F
D
G

1
2
3
4
5
6
7
8

1
2
5
7
8
4
6

5
6
5
3
1
0
1
0

2
0
0
1
2
2
0
0

 

 

 

Р = 21

Q = 7

При вычислении КРК Кендалла для упрощения расчетов данные располагают по одной переменной (например, х) в порядке возрастания.
Так как для каждой пары может быть или совпадение или инверсия, то после подсчета совпадений количество инверсий равно количеству сравниваемых лиц (исключая себя) минус количество совпадений.
= (21 – 7) : (8 (8 – 1) : 2) = 0,5.
Отсюда видно, что между переменными х и у имеется прямая (положительная) средняя корреляционная связь.
В случае связанных (одинаковых) КРК Кендалла, как и КРК Спирмена, вычисляется по формуле:

= (P – Q) : [ n (n – 1) :2 – Kx ] [ n (n – 1) :2 – Ky ] , где поправки Кх и Ку вычисляются по следующим формулам:
k
Кх = [ fi (fi – 1)] : 2, где k - количество групп совпадающих
i=1
рангов по переменной х; fi - количество значений в i-той группе совпадений.
m
Ky = [gi (gi – 1)] : 2, где m - количество групп совпадающих
i=1
рангов по переменной у, gi - количество значений в i-той группе совпадений.
Наиболее часто на практике используется КРК Спирмена. Следует также отметить, что КРК Спирмена и КРК Кендалла связаны следующим приблизительным соотношением:
rs = 1,3
Значимость КРК Кендалла.
После вычисления КРК Кендалла необходимо проверить полученное значение КРК на значимость. Для этого воспользуемся общей схемой проверки статистической гипотезы.
1. Выдвигаются две статистические гипотезы:
Н0 о том, что КРК Кендалла статистически равен 0 и
Н1 о том, что этот КРК статистически отличен от 0.
Н0 : =0
Н1 : / =0.
2. Выбирается уровень значимости .
3. Вычисляется наблюдаемое значение статистического критерия. Для этого сначала вычисляем величину

формула35

т.е. - Zкр < Zнабл. < Zкр, то в нашем случае делаем вывод о том, что на уровне значимости 0,05 КРК Кендалла статистически равен 0, т.е. не является значимым.
Проверка гипотезы о равенстве двух коэффициентов корреляции.
Иногда может возникать задача сравнения для двух различных групп лиц. Например: сильнее ли коррелированы способности и успеваемость у мальчиков, чем у девочек?
Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы.
1. Выдвигаются две статистические гипотезы, основная нулевая Н0 о том, что КК двух рассматриваемых ГС статистически одинаковы и альтернативная Н1 о том, что эти КК статистически различны.
Н0: 1 = 2, где 1 – КК между двумя исследуемыми показателями в первой ГС
Н1: 1 /= 2, где 2 – КК между двумя исследуемыми показателями во второй ГС.
2. Выбираем уровень значимости .
3. Вычисляется наблюдаемое значение статистики критерия. Для этого сначала по исходным данным вычисляется КК, r1 и r2. После этого вычисленные КК с помощью преобразования Фишера преобразуются величины Z1 и Z2.
Z1 = ½ ln (1+r1) : (1 – r1)
Z2 = ½ ln (1+r2) : (1 – r2)
Тогда наблюдаемое значение статистики критерия вычисляется по следующей формуле:
Zнабл. = (Z1 – Z2) : (1 : (n – 3) + 1 : (m – 3), где n – количество лиц первой группы, а m – количество лиц второй группы.
4. Находится критическое значение статистики критерия. В нашем случае статистика критерия имеет стандартное нормальное распределение, поэтому для нахождения Zкр нужно воспользоваться статистической таблицей стандартного нормального распределения (см. параграф 17).
5. Делаем вывод о правильности той или иной гипотезы по следующему правилу: 1) если –Zкр < Zнабл < Zкр, то принимается гипотеза Н0, т.е. делаем вывод о том, что КК между исследуемыми показателями в двух рассматриваемых ГС статистически одинаковы на уровне значимости . 2) если Zнабл < -Zкр или Zнабл > Zкр, то принимается гипотеза Н1, т.е. делаем вывод о том, что эти КК статистически различны на уровне значимости .

формула36

Так как Zнабл > Zкр, то принимаем гипотезу Н1, т.е. корреляция между интеллектом и скоростью обмена веществ у детей сильнее (т.к. r1 > r2), чем у взрослых.

25. АНАЛИЗ ВЗАИМОСВЯЗИ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Иногда оба признака (переменные) могут быть измерены в номинальной шкале. Рассмотрим частный случай номинальной шкалы, которая называется дихотомической, т.е. признак может принимать только два значения: либо 0, либо 1.
В этом случае исходные данные, т.е. две выборки, представляют собой два столбца, состоящие из 0 и 1, причем каждая строка соответствует значениям двух признаков для одного и того же лица.
Пример: пусть переменная х – это семейное положение, причем 1 – женат и 0 – холост; переменная у – исключение из колледжа, 1 – исключен и 0 – учится.


х

у

0
1
0
0
1
1
0
1
0
0
0
1

0
1
1
0
1
0
0
1
0
1
0
1

Для анализа взаимосвязи между двумя номинальными признаками можно воспользоваться формулой КК Пирсона. Однако в нашем случае эту формулу можно заменить на более простую, эквивалентную. КК для номинальных признаков обычно обозначается . Пусть рх – доля людей, для которых переменная х = 1; gх – доля людей, для которых переменная х = 0. Очевидно, что gх = 1 - рх. pу – доля людей, для которых переменная у = 1.gу – доля людей, для которых у = 0. рху – доля людей, для которых и х и у = 1. Тогда КК вычисляется по формуле:
= (pxy – px py) : px gx py gy
Вычислим этот коэффициент для нашего примера. Для этого сначала найдем рх = 5/12 = 0,4167
gх = 1 – 0,4167 = 0,5833
pу = 6/12 = 0,5
gy = 1 – 0,5 = 0,5
pху = 4/12 = 0,3333
= (0,3333 – 0,4167 0,5) : 0,4167 0,5833 0,5 0,5 = 0,507
После вычисления КК нужно осуществить проверку его значимости. Проверка значимости проводится аналогично проверке значимости КРК Кендалла, только наблюдаемое значение статистики критерия вычисляется по формуле:
Zнабл = n
Проверим на значимость вычисленный в примере выше КК .
= 0,507 n = 12
Zнабл = 12 0,507 = 1,76
= 0,05 из таблицы Zкр = 1,96

формула37

Так как – Zкр < Zнабл < Zкр, то мы должны принимать гипотезу Н0, т.е. делаем вывод о том, что на уровне значимости 0,05 КК статистически = 0.


26. БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ (БКК)

Данный КК вычисляется, когда одна переменная измерена в номинальной дихотомической шкале (0 или 1), а вторая переменная в количественной шкале. Одним из способов описания связи между такими переменными является просто вычисление КК Пирсона по исходным данным. Однако можно воспользоваться более простой формулой для вычисления. В этом случае КК называется точечный бисериальный КК и обозначается prb. Он вычисляется по следующей формуле:
rpb = (x 1 – x 0) : Sx (n1 n0 : n (n – 1) , где x 1 – среднее значение для тех лиц, у которых номинальная переменная у = 1; x 0 – среднее значение для тех лиц, у который номинальная переменная у = 0; Sx – стандартное отклонение для значений по переменной х; n1 – количество лиц, для которых переменная у = 1; n0 – количество лиц, для которых переменная у = 0; n – общее количество лиц, т.е. n = n1 + n0.
Этот КК называется бисериальным, т.к. фактически имеется две серии лиц. Одна серия лиц, для которых номинальная переменная у = 1,а вторая серия лиц, для которых номинальная переменная у = 0.
Пример вычисления бисериального КК.
Пусть переменная х – это рост в см, а переменная у – это пол (1 – мальчики, 0 – девочки). В эксперименте участвовали 15 подростков. Были получены следующие результаты:


х

у

150
170
160
165
140
183
157
152
163
168
180
155
157
160
152

1
0
1
1
0
1
0
0
1
1
1
0
1
0
0

n = 15 n1 = 8 n0 = 7
x 1 = (150+160+…+157) : 8 = 163,25
x 0 = (170+140+…+152) : 7 = 156,57
x = 8,94
rpb = (163,25 – 156,57) : 8,94 8 7; (15 (15 – 1)) = 0,41
n = 15 = 0,05
tнабл = n – 2 rpb : 1 – rpb = 15 – 2 0,41 : 1 – (0,41) = 1,62
/2 = 0,05/2 = 0,025 = n – 2 = 15 – 2 = 13 tкр = 2,16

формула38

27. РАНГОВЫЙ БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Данный КК вычисляется в случае, когда одна переменная (например, х) измерена в номинальной дихотомической шкале, а вторая (например, у) в порядковой (ранговой) шкале. Этот коэффициент был исследован Кертеном и Глассом. Гласс предложил для вычисления ранговой корреляции формулу, которая не требует подсчета совпадений и инверсии.
rrb = 2/n (y 1 – y 0) , где n – общее количество лиц; y 1 – среднее значение по переменной у для лиц, у которых переменная х = 1; y 0 – среднее значение по переменной у для лиц, у которых переменная х = 0.
Пример: пусть у нас имеются следующие исходные данные:

 

 

х (пол)

у (ранги по росту)

0
1
0
1
0
0
1
1
0
0

1
10
2
9
5
8
4
7
3
6

n = 10
y 1 = (10+9+4+7) : 4 = 7,5
y 0 = (1+2+5+8+3+6) : 6 = 4,167
rrb = 2/10 (7,5 – 4,167) = 0,67


Примечание. Если одна переменная, например, х, измерена в порядковой шкале, а вторая переменная у в количественной шкале, то в этом случае не было разработано и исследовано никакого коэффициента корреляции. В такой ситуации рекомендуется преобразовать данные для количественной переменной в порядковую шкалу, т.е. проранжировать и воспользоваться после этого КРК Спирмена или КРК Кендалла.

Таблица выбора необходимого коэффициента корреляции.

у

х

Номинальная дихотомическая

Ранговая (порядковая)

Количественная

Номинальная дихотомическая

Параграф 25

Параграф 27

Параграф 26
(по у )

Ранговая (порядковая)

Параграф 27

Параграф 23 – 24

Примечание параграф 27

Количественная

Параграф 26
(по х )

Примечание параграф 27

Параграф 21 - 22

28. АНАЛИЗ ВЗАИМОСВЯЗЕЙ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ ТАБЛИЦ СОПРЯЖЕННОСТИ

Иногда измерения двух исследуемых признаков производятся в номинальной шкале, т.е. в шкале классификаций. Например, учащихся можно классифицировать по полу, а также по специальности: гуманитарий или естественник. В этом случае информация может быть представлена в виде таблицы, которая получила название таблица сопряженности. Для ее построения сначала выясняем, сколько уровней содержит тот или иной признак. Пусть первый признак имеет Iуровней, а второй признак - J. В этом случае таблица сопряженности имеет следующий вид:

 

Признак 2

Итого по строкам

Признак 1

f11

f12

f1J

f1

f21

f22

f2J

f2

fI1

fI2

fIJ

fI

Итого по столбцам

f 1

f 2

f J

f n

В этой таблице клетки называются ячейками, а числа, стоящие в ячейках – частотами.
Предположим, что всего у нас имеется n объектов (лиц). Частота fij означает, что среди n–исходных лиц имеется fij, для которых первый признак соответствует i-ому уровню, второй - j-тому уровню. Рассмотрим классификацию 120 людей по полу и политической принадлежности:

 

Демократическая партия

Республиканская

Независимая

Итого по строкам

Муж.

29

36

15

80

Жен.

14

24

2

40

Итого по столбцам

43

60

17

n=120

Таблицы сопряженности используются для проверки независимости двух рассматриваемых номинальных признаков (отсутствие или наличие влияния). Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (5 этапов).

  1. этап. Выдвигаются две гипотезы: основная нулевая Н0 о том, что два рассматриваемых признака являются независимыми и альтернативная Н1 о том, что эти два признака являются зависимыми.

2 этап. Выбираем уровень значимости .
3 этап. Вычисляем наблюдаемое значение статистики критерия по следующей формуле:
2 I J 2
набл. = n [ fij : fi fj - 1]
i=1j=1
4 этап. Находим критическое значение статистики критерия. В
2
нашем случае статистика критерия имеет - распределение с числом степеней свободы = (I – 1) (J – 1). Поэтому для нахождения критического
2 2
значения кр необходимо воспользоваться статистической таблицей -
распределения. Находим столбец, соответствующий величине 1 - (если таблицы называются квантили распределения) или величине (если таблицы называются верхние %-ные точки) и строку, соответствующую числу степеней свободы . На пересечении выбранных строки и столбца и
2
находится требуемое нам кр.
5 этап. Делаем вывод о правильности той или иной гипотезы по
2 2
следующему правилу: 1) если набл < кр, то принимается гипотеза Н0, т.е. делаем вывод о том, что два рассматриваемых признака являются независимыми или, другими словами, один признак не влияет на другой. 2)
2 2
если же набл > кр, то принимается гипотеза Н1, т.е. делаем вывод о том, что два рассматриваемых признака являются зависимыми на уровне значимости или, другими словами, один признак влияет на другой.

формула39

Примечание. Уровни признака не должны пересекаться, т.е. один и тот же объект в таблице сопряженности должен попадать только в какую-либо одну ячейку.
Достоверные выводы получатся, если в каждой ячейке частота не меньше 5 fij > 5.
Пример: проведем проверку независимости между политической принадлежностью и полом для исходных данных, приведенных в начале параграфа.
Решение. I = 2; n = 120
J = 3; = 0,01
2 2 2 2 2
набл = 120 [ 29 : 80 43 + 36 : 80 60 + 15 : 80 17 + 14 : 43 40 + 24 : 40 60
2
+ 2 : 40 17 – 1 ] = 4,776
= (2 – 1) (3 – 1) = 2
2
кр = 9,21 – находим из таблицы

формула40

Так как набл > кр, то делаем вывод о том, что сдача зачета зависит от специализации.


29. ОДНОФАКТОРНЫЙ АНАЛИЗ (ОФА)

При исследовании зависимости одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, причем этот фактор имеет только конечное число значений (уравнений). Такие задачи называются задачами однофакторного анализа и могут встречаться на практике.
Например, сравнение по достигнутым результатам нескольких способов действия, направленных на достижение одной и той же цели (учебники, лекарства).
То, что должно оказать влияние на конечный результат, называется фактором или факторами. Конкретную реализацию фактора называют уровнем фактора или способом обработки (конкретный учебник или конкретное лекарство). Значение измеряемого признака, т.е. величину результата, обычно называют откликом.
Для сравнения влияния фактора на отклик необходим исходный статистический материал. Его обычно получают следующим образом: каждый из способов обработки применяют несколько раз (необязательно одинаковое число). Применяем к исследуемым объектам и регистрируем полученные результаты. Итогом таких испытаний являются несколько выборок не обязательно одинакового объема. Наиболее распространенным способом представления исходных данных для факторного анализа является таблица. В зависимости от количества факторов, говорят, что данные представлены в таблице с одним – двумя и т.д. входами.

Уровни фактора

1

2

к

Результаты измерений (отклик)

х11 (1 строка и 1 столбец)

х12

 

х1к

х21 (2 строка и 1 столбец)

х22

 

х2к

xn11

xn22

хnкк

1 класс 1 2 класс 2 к
по 1 учебнику по 2 учебнику

формула41

n1 + n2 + … + nк = n (общее количество наблюдений (людей)).
Зависимости от объема выборки нет.

Стратегия анализа.
Одной из главных конечных целей в задачах ОФА является оценка величины влияния конкретного уровня фактора на изучаемый отклик. Иногда эту задачу можно сформулировать в форме сравнения двух или нескольких уровней фактора между собой.
Однако, прежде чем судить о количественном влиянии фактора на отклик, необходимо сначала выяснить, есть ли такое влияние вообще.
На статистическом языке эта задача означает, что все исходные данные принадлежат одному и тому же распределению. Обычно эту гипотезу выбирают в качестве основной нулевой Н0. Для проверки этой гипотезы могут быть использованы различные статистические критерии: как традиционные, которые требуют нормального распределения исходных данных, так и непараметрические, не требующие такого предположения (Excel Стьюдент).
Если нулевая гипотеза об отсутствии влияния фактора на отклик отвергается, то необходимо провести оценку влияния уровней фактора на отклик. На этом этапе важным является вопрос точности и достоверности полученных оценок.
Если же критерий не позволяет отвергнуть Н0 от отсутствия влияния фактора на отклик, то на этом анализ может быть завершен. Но иногда вывод об отсутствии влияния фактора на отклик нас не может устроить, т.к. он противоречит теоретическим предпосылкам или результатам предыдущих исследований. В этой ситуации следует выяснить, нет ли каких-либо еще факторов, влияющих на отклик. Может быть, влияние фактора не удалось обнаружить вследствие того, что это влияние не заметно на фоне различий, вызванных действием неучтенного фактора.
Можно проводить сравнения между собой только двух уровней фактора с помощью методики проверки статистических гипотез (сравнение средних значений), рассмотренных в параграфах 15 – 18. Это сравнение может показать, какие уровни фактора являются наиболее влиятельными.

30. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ОДА)

Наиболее часто при проведении ОФА рассматривают и анализируют дисперсию, поэтому совокупность таких методов носит название – ОДА.
Однако ОДА может применяться лишь при следующих предположениях:

  1. Исходные данные должны представлять собой случайные выборки.
  2. Эти выборки должны быть извлечены из нормально распределенных ГС.
  3. Эти ГС должны иметь одинаковые дисперсии.
  4. Все выборки исходных данных, т.е. столбцы таблицы, должны быть статистически независимыми.

При проведении ОДА для получения расчетных формул предполагалось, что исходные данные подчиняются линейной аддитивной (сложение) модели следующего вида:
хij = М + i + eij, где M – величина, отражающая некоторый средний уровень отклика. Она является одинаковой для всех данных одной таблицы; j – величина, отражающая влияние j-го уровня факторов. Она является одинаковой для элементов j-го столбца; eij – случайная ошибка модели. Для каждого исходного наблюдения она различна; xij – исходное наблюдение, соответствующее значению отклика для i-го человека при j-ом уровне факторов.
В результате такой модели исходная задача выяснения наличия или отсутствия влияния фактора на отклик сводится к проверке следующих статистических гипотез:
Н0: 1 = 2 = … = k о том, что нет влияния фактора на отклик и
Н1 о том, что хотя бы одно из j отлично от других, т.е. есть влияние фактора на отклик.
Для проверки этих статистических гипотез используется F-критерий Фишера, который является достаточно громоздким, поэтому рассмотрим компьютерный вариант проведения ОДА.
Для его проведения используется раздел «ОДА» пакета анализа данных, имеющегося в Excel. Для этого необходимо сначала ввести исходные данные на рабочий лист в виде таблицы. После этого вызывается раздел ОДА и указываются необходимые параметры.
В результате работы данных раздела полученные результаты ОДА представляются в виде следующих двух таблиц:

Однофакторный дисперсионный анализ. Итоги.

Группы

Счет

Сумма

Среднее

Дисперсия

Столбец 1
Столбец 2
Столбец 3

*

*

*

*

* (число) – это количество наблюдений в соответствующем столбце; сумма – это сумма элементов соответствующего столбца; среднее – это среднее значение элементов соответствующего столбца; дисперсия – это дисперсия элементов соответствующего столбца. ANOVA1 – однофакторный анализ; ANOVA2 – двухфакторный анализ; ANALYSIS OF VARIANCE – анализ дисперсий.
ANOVA

Источник вариации

SS

df

MS

F

P-значение

F-критическое

Между группами

*

*

*

*

*

*

Внутри групп

*

*

*

 

 

 

Итого

*

*

 

 

 

 

SS – сумма квадратов; df - степени свободы; MS – средний квадрат; F – наблюдаемое значение статистики критерия (Fнабл).
По результатам, приведенным в таблице, мы должны сделать вывод о наличии или отсутствии влияния фактора на отклик. Для этого можно воспользоваться двумя способами:
1 способ. Для этого сравниваем две величины F и Fкр, если F < Fкр, то делаем вывод о том, что нет влияния фактора на отклик; если F > Fкр, то делаем вывод о том, что есть влияние фактора на отклик.
2 способ. Для этого сравнивают две величины Р-значения и уровень значимости (который задается в качестве исходного параметра). (В компьютере 0,05 – по умолчанию). Если Р > , то делаем вывод, что нет влияния фактора на отклик; если же Р < , то есть влияние факторов на отклик.


31. ДВУХФАКТОРНЫЙ АНАЛИЗ

Двухфакторный анализ предполагает, что на отклик могут влиять два фактора, каждый из которых принимает конечное число значений (уровней) и интересуется тем, как влияют эти факторы на изучаемый отклик и влияют ли они вообще.
Такие задачи характерны как для психологических экспериментов, так и для других гуманитарных исследований (ближе социологам и психологам).
Бывает, что в рамках однофакторной модели, рассмотренной в параграфе 29, влияние интересующего нас фактора на отклик не проявляется, хотя содержательные соображения указывают на то, что такое влияние должно быть.
Причиной такого является большой разброс внутри группы, на фоне которого действия фактора на отклик является незаметным. Очень часто этот разброс может вызываться не только случайными причинами, но и действием еще одного фактора (учебник – учитель). Если мы в состоянии указать такой фактор, то его стараются включить в модель и таким образом переходят к двухфакторной модели.
Иногда приходится рассматривать модели и более высокого порядка – трехфакторную и т.д. В некоторых случаях факторы делят на важные и мешающие, но это совсем не обязательно. В ряде задач факторы могут быть содержательно равноправны.
Эти нюансы мало влияют на статистические модели. Они могут сказаться только на постановке вопросов и интерпретаций ответа.
В практических ситуациях вполне возможен переход не только от однофакторной модели к двухфакторной, но и наоборот. Если при решении двухфакторного анализа вдруг окажется, что влияние одного из факторов не существенно, то задача сведется к однофакторной.
Исходные данные.
Для проведения двухфакторного анализа исходные данные также представляются в виде таблицы. Предположим, что фактор А имеет k уровней, а фактор В имеет n уровней. k – 2, т.к. девочки и мальчики; n - 3, т.к. 3 уровня соц. ст. высокий, средний, низкий.
Говорят, что фактор В разбивает все объекты наблюдений на n блоков, каждый из которых состоит из наблюдений, проведенных для одного уровня фактора. Внутри каждого блока отклики могут сильно различаться, только за счет различных уровней фактора А.
Уровни фактора А отображаются в таблице исходных данных по столбцам, а уровни фактора В по строкам. В результате таблица исходных данных для двухфакторного анализа может иметь следующий вид:

 

Фактор А

Фактор В

уровни блоки

1 (мальч.)

2 (дев.)

k

1 (выс.)

x11

x12

x1k

2 (ср.)

x21

x22

x2k

n

xn1

xn2

xnk

В качестве хij в таблицу заносятся значения отклика. Такая таблица, в каждой ячейке которой находится только одно значение отклика, называется таблицей двухфакторного анализа без повторений.
Если же в каждой ячейке таблицы исходных данных находится несколько значений, то такая таблица называется таблицей двухфакторного анализа с повторениями.
Основной задачей двухфакторного анализа является выяснение вопроса о том, есть ли влияние каждого фактора на отклик. Однако в случаях двухфакторного анализа может оказаться, что по отдельности факторы на отклик не влияют, но имеется влияние в результате взаимодействия этих двух факторов между собой.

32. ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ДДА)

Наиболее распространенным способом проведения двухфакторного анализа является анализ дисперсии. Также как и ОДА в случае ДДА для получения расчетных формул статистиками использовалась линейная аддитивная модель, но следующего вида:
хij = M + j + i + ( )ij + eij, где xij; M; j; eij см. параграф 30; i – величина, отражающая степень влияния i-того уровня фактора В. Она является одинаковой для элементов i-той строки; ( )ij – величина, отражающая степень влияния на отклик в результате взаимодействия i-того уровня фактора В и j-того уровня фактора А.
Такая модель сводит задачу выяснения влияния фактора на отклик к задаче проверки следующих трех пар статистических гипотез:
1) Н0: 1 = 2 = … = k. Нет влияния фактора А на отклик.
Н1: j (хотя бы одно j отлично от других). Есть влияние фактора А на отклик.
2) Н0: 1 = 2 = … = n. Нет влияния фактора В на отклик.
Н1: j (хотя бы одно i отлично от других). Есть влияние фактора В на отклик.
3) Н0: ( )ij. Все ( ) ij одинаковы. Нет влияния на отклик в результате взаимодействия факторов А и В.
Н1: ( )ij (хотя бы одно ( ) ij отлично от других). Есть влияние на отклик в результате взаимодействия факторов А и В.
Рассмотрим пример. Для проверки этих гипотез используются разделы «ДДА без повторений» и «ДДА с повторениями» пакеты анализа данных Excel. Результаты расчета приводятся в двух таблицах аналогичных ОДА. Итоги.

Группы

Счет

Сумма

Среднее

Дисперсия

Строка 1 (в.)

*

*

*

*

Строка 2 (с.)

*

*

*

*

Строка 3 (н.)

*

*

*

*

 

 

 

 

 

Столбец 1(м.)

*

*

*

*

Столбец 2 (д.)

*

*

*

*

После того, как делается вывод, что есть влияние среднее
ANOVA


Источники вариации

SS

df

MS

F

P-значение

F-критерий

А строки

*

*

*

*

*

*

В столбцы

*

*

*

*

*

*

Погрешность

*

*

*

 

 

 

Итого

*

*

 

 

 

 

Вывод о наличии либо отсутствии влияния соответственного фактора на отклик делается по такому же правилу, что и в случае ОДА (см. параграф 30 оба способа).
Для фактора А берется информация из строки с названием столбцы. А для фактора В из строки с названием строки.
Эти таблицы для случая «ДДА без повторений». В этом случае взаимодействие факторов А и В не рассматривается, т.к. в каждой ячейке таблицы исходных данных находится только одно число, что не позволяет вычислить дисперсию.
Итоговые таблицы для раздела «ДДА с повторениями» аналогичны, только в таблице ANOVA появляется дополнительная строка (взаимодействия).


33. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ ИСХОДНЫХ ДАННЫХ

2
Для решения такой задачи чаще всего используют -критерий Пирсона. В качестве приближенного метода можно воспользоваться методикой проверки нормальности распределения исходных данных, имеющихся в книге Сидоренко Е.В. (с.230-234).

Статистическая обработка исходных данных с помощью Microsoft Excel.
Эта обработка может проводиться тремя способами:

  1. С помощью статистических функций
  2. С помощью пакета анализа данных (ПАД).
  3. Путем программирования самим пользователем необходимых расчетных формул.

С помощью статистических функций. Описательная статистика с помощью статистических функций для этого используется «мастер функций». Прежде, чем вызвать fx, необходимо выделить ячейку, в которую мы хотим поместить результат работы функций. «Мастер функций» вызывается путем нажатия кнопки fx на панели инструментов «стандартная». В появившемся окне в левой половине выбираем категорию «статистические», тогда в правой половине окна будет расположен список всех статистических функций, имеющихся в Excel в алфавитном порядке. Если мы недавно пользовались какой-либо функцией, то повторно ее можно использовать через категорию «10 недавно пользовавшихся».
Для нахождения среднего значения выборки используется функция СРЗНАЧ. В качестве аргумента этой функции необходимо указать диапазон ячеек, в котором находится исходная выборка.
Для вычисления дисперсии выборки используется функция ДИСП. Для вычисления стандартного отклонения выборки используется функция СТАНДОТКЛОН. Функции МАКС и МИН вычисляют соответственно наибольший и наименьший элементы выборки.
Для нахождения медианы выборки используется функция МЕДИАНА (делит упорядоченную выборку пополам). Для нахождения мода используют МОДА. Если выборка не имеет моды, то функция возвращает значение #Н/Д.
К сожалению, если выборка имеет две моды и больше, то функция мода возвращает только одну моду.
Для вычисления асимметрии выборки используется функция СКОС. Если коэффициент асимметрии больше 0, то распределение (гистограмма) является несимметричным с правой асимметрии, т.е. более широкий диапазон значений расположен справа от моды.

формула42

Функция КВАРТИЛЬ возвращает соответственную квартиль выборки. Эта функция имеет два аргумента: 1 «МАССИВ» - указывается диапазон ячеек, где находится исходная выборка; 2 «ЗНАЧЕНИЕ» - минимальное = 0; первый квартиль = 1; медиана = 2; третий квартиль = 3; максимальное значение = 4 (медиана = 2 квартиль).

Подключение ПАД.
Для запуска пакета анализа данных необходимо выполнить команду «СЕРВИС», если в появившемся подменю имеется строка «АНАЛИЗ ДАННЫХ», то ПАД подключен и мы его запускаем путем нажатия этой строки. Если этой строки нет, то мы выбираем строку надстройки в появившемся окне находим строку «ПАКЕТ АНАЛИЗА» и устанавливаем птичку в квадратике, затем нажимаем ОК и смотрим начало подпункта.
Описательная статистика с помощью ПАД.
Для этого используется раздел «ОПИСАТЕЛЬНАЯ СТАТИСТИКА». В отличие от статистических функций ПАД позволяет вычислять основные статистические характеристики для нескольких выборок одновременно. Для запуска данного раздела осуществляется выбор его в окне пакета, после чего нажимается ОК и указываются в появившемся окне необходимые параметры:
1 параметр - входной интервал – указывается диапазон ячеек, где
находятся все исходные данные.

  1. параметр – группирование – указывается как расположены наши исходные выборки (по столбцам или по строкам).
  2. параметр – метки в первой строке. Если этот параметр включен ( ), то во входном интервале необходимо включать названия переменных, которые задаются в 1 строке. Тогда в таблице результатов будут также приведены названия этих переменных. Если же этот параметр не включен ( ), то во входном интервале мы должны указывать только те ячейки (без заголовка), где находятся числа. Тогда в таблице результатов будут указаны стандартные названия переменных (столбец 1, столбец 2 и т.д.). Лучше включать этот режим ( ).
  3. параметры вывода – таблица результатов может располагаться тремя способами: 1) на том же рабочем листе, что и исходные данные. В этом случае делаем активным параметр выходной интервал. Затем в соседнем прямоугольнике указываем координаты левой верхней ячейки, с которой будет располагаться таблица результатов. (Лучше этим режимом не пользоваться). 2) на новом рабочем листе. Для этого делаем активным «новый рабочий лист» и в соседнем прямоугольнике указываем название этого листа. Если это название не указать, то листу будет присвоено «лист…». Лучше пользоваться этим способом. 3) в новой рабочей книге. Делаем активным параметр «новая рабочая книга» (это второй файл; лучше, когда все хранится в одном файле).
  4. итоговая статистика – данный параметр должен быть включен ( ), если мы хотим увидеть таблицу результатов.
  5. уровень надежности к-ый наименьший

к-ый наибольший позволяют находить соответствующие по порядку элементы выборки. В таблице результатов не путать стандартные ошибки (строка 2) со структурными отклонениями (7). Интервал - это размах выборки, 14 строчка – сумма элементов соответствующей выборки; 15 – количество элементов в соответствующей выборке. Сумма – сумма элементов соответствующей выборки; счет – количество элементов в соответствующей выборке.
Построение гистограммы с помощью ПАД.
«Гистограмма» - анализа данных.
«Входной интервал» - указывается диапазон ячеек, где находится исходная выборка.
«Интервал карманов» - если этот параметр не указывать, то автоматически разобьет диапазон значений элементов выборки на необходимое количество интервалов. Однако эти интервалы могут иметь не целые границы. В таком случае мы можем сами выбрать границы. Интервалов, которые в пакете называются «карманами». Эти границы должны быть набраны на том же рабочем листе, где находятся исходные данные. Обязательно перед вызовом отдела гистограммы.
В качестве кармана принято указывать правую границу интервала. Число карманов как правило меньше на 1, чем количество интервалов. Поэтому при включении параметра «интервал карманов» мы должны указать диапазон ячеек, в которых располагаются карманы. Параметр «метки» и параметр «выводы» аналогичны разделу «описательная статистика» (2 способ).
«Парето» (отсортированная гистограмма). Если данный параметр включен ( ), то столбцы гистограммы выводятся в порядке убывания частот.

формула43

«Интегральный процент» - это накопленные частоты в процентах.
«Вывод графика» - этот параметр должен быть включен, если мы желаем увидеть гистограмму.

Вычисление коэффициента корреляции Пирсона.
Его можно вычислить с помощью статистической функции KOPPEL в качестве аргументов массив 1, массив 2, указываются диапазоны ячеек, содержащие первую и вторую исходные выборки, между которыми вычисляется корреляция. Обе выборки должны быть одинакового объема и не должны содержать текстовую информацию. #Н/Д – ошибка.
КК Пирсона можно также вычислить с помощью анализа ПАД, причем пакет позволяет вычислить одновременно несколько КК, для этого необходимо использовать раздел корреляция (ПАД). При этом задаются необходимые параметры:
«вход интервалов», указывается диапазон ячеек, содержащих все исходные данные. Причем в этом диапазоне не должно быть пустых ячеек. Результаты расчета приводятся в таблице «корреляционная матрица» (называется в статистике). Так как она является симметричной, то на экране выводится только ее левая нижняя часть. На главной диагноле всегда будут расположены единички, т.к. это КК каждой переменной с самой собой. (max = 1). Число, стоящее в какой-либо другой ячейке, представляет собой КК Пирсона между переменными, названия которых содержатся в соответствующих строке и столбце.
Проверка значимости КК Пирсона.
К сожалению, в Excel не имеется стандартной процедуры для решения данной задачи. Поэтому необходимые формулы запрограммируем самостоятельно (параграф 22, 3 этап).
2
tнабл = n – 2 rxy : 1 - rxy
Для этого сначала на новом рабочем листе в ячейке А1 введем название (можно русскими буквами) n=, а в ячейке В1 его значение, т.е. количество элементов выборки. После этого в ячейке А2 введем название КК=, а в ячейке В2 вычисленное значение КК (лист 2). В ячейке А3 введем название Тнабл =, а в ячейке В3 вводим формулу для его вычисления

формула44

Пример: проверить значимость КК. С листа 1 запоминаем число, переходим на лист 2 и 10 считается по шаблону.

Вычисления КРК Спиреана.
В Excel не имеется стандартной процедуры для его вычисления, поэтому создадим шаблон для расчета КРК Спирмена.
2 2
rc = 1 – 6 (xi – yi) + Tx + Ty : n (n – 1)
Следовательно, сначала мы должны проранжировать исходные выборки (сервис, анализ данных). Так как раздел «ранг и персентиль» ПАД при ранжировании переставляет исходные данные, то мы им воспользоваться не можем, поэтому ранжирование проводится вручную. Если 300 человек выборки, то сделать «ранг и персентиль» и одинаковые ранги пересчитать и по возрастанию поставить, а не по убыванию (как там стоит).
После ранжирования на новом рабочем листе помещаем ранги первой выборки в столбец А, а ранги второй выборки в столбец В. В столбце С необходимо получить разности этих рангов, поэтому в ячейке С1 введем название разности, а в ячейке С2 вводим формулу = А2 – В2. Теперь тиражируем формулу для остальных ячеек столбца С. Квадрат этих разностей будем получать в столбце Д. Для этого в ячейке Д1 вводим название квадраты, а в ячейке Д2 вводим формулу = С2 С2. Затем тиражируем эту формулу для остальных ячеек столбца Д. Дальнейшие необходимые значения Д. В ячейке Е1 вводим название русскими буквами СУММА =, а в ячейке F1 получаем сумму ячеек столбца Д с помощью f суммирования ( ). В ячейке Е2 вводим обозначение Тх = ; а в ячейке Е3 ту = . В ячейках F2 и F3 вводим значения вычисленных вручную поправок Тх и Ту, если совпадающих значений (рангов) нет, то в качестве поправки выбирается
3
Тх = (аi – ai) : 12
3 3
Tx = ((3 – 3)+(2 – 2)) :12 = 2,5
В ячейке F2 вводим 2,5
3 3
Ту = ((4 – 4)+(3 – 3)) : 12 = 7
В ячейку F4 вводим 7. В ячейку F4 вводим П= , а в ячейку F4 вводим 14. В ячейке Е5 вводим обозначения КРК=, а в ячейке F5 формулу для его вычисления
2 2
rs = 1 – 6 ( (xi – xi) + Tx+Ty) : n (n – 1)
программируем числитель
= 1 – 6 (F1+F2+F3) / (F4 (F4 F4 – 1)) (a/bc/ = a (b c) = a/b c)
Проверка значимости КРК Спирмена полностью идентична проверке значимости КК Пирсона, поэтому можно воспользоваться шаблоном проверки значимости , созданным нами ранее (лист 2). Вычислить КРК Спирмена между психологами Н и психологами В. (Вставляем столбец. Вставка – столбец). 3 2 3
((3 – 3) + (2 – 2) + (2 – 2)) : 12 = 3 КРК = 0,129371

Проверка статистических гипотез с помощью ПАД.
Для проверки статистических гипотез в ПАД имеется следующий раздел:

  1. Двухвыборочный F-тест для дисперсии.
  2. Парный двухвыборочный t-тест для средних.
  3. Двухвыборочный t-тест с одинаковыми дисперсиями.
  4. Двухвыборочный t-тест с различными значениями.
  5. Двухвыборочный Z-тест для средних.

Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.к. требует знания дисперсии ГС, что на практике редко встречается.
Раздел 1 используется для сравнения лисперсий двух независимых выборок. Необходимо задавать параметры. Входные данные в 1 интервале – 1 выборка, во 2 интервале – 2 выборка и включить «метки»(заглавие).
Альфа указывается выбранный нами уровень значимости. По умолчанию в окошке находится 0,05. Вывод о совпадении или различии дисперсий можно сделать по правилу, использующему Р значение. Если 1) Р> , то делаем вывод о совпадении дисперсий; 2) P < , то делаем вывод о статистическом различии дисперсий на уровне значимости . Дисперсии 88 и 45 на уровне значимости = 0,05 не различимы.
Для сравнения средних значений двух независимых выборок используются разделы 3 или 4 в зависимости от того, совпадают дисперсии или нет. Для выполнения этих разделов необходимо задавать соответствующие параметры. Параметры аналогичны разделу 1 за исключением гипотетической средней разности, который в нашем случае должен быть равен. Результаты расчета помещаются в таблице, из которой нам необходимо сравнивать две величины (t-статистика и t-крит. двустороннее).
Н0: Мх – Му = с
Н1: Мх – Му /= с
Н0: Мх = Му
Мх – Му = 0
По следующему правилу:

формула45

Вывод совпадений или различий средних значений можно сделать также с помощью Р-значения по правилу аналогично разделу 1, используя Р-двустороннее (строка 13). Вывод: они не совпадают –4,819 tдвуст. 2,06 (возвращ. на лист 1).
Параметры раздела 4 аналогичны параметрам раздела 3, однако в таблице результатов для раздела 4 не приводится значение объединенной дисперсии, поэтому она меньше на одну строку по сравнению с разделом 3.
2 раздел используется для сравнения средних значений двух связанных выборок для данных типа «до-после». Отметим, что исходные выборки должны быть одинакового объема. Для использования раздела 2 необходимо задать соответствующие параметры, которые полностью аналогичны параметрам разделов 3 и 4. Результирующая таблица полностью совпадает с результирующей таблицей 3, только вместо строк «объединенная дисперсия» имеется строка «корреляция Пирсона» (гипотетическая разность ставим 0).

Факторный дисперсионный анализ.

Для его проведения в ПАД имеются следующие разделы (возвращаемся на 1 лист):

  1. Однофакторный дисперсионный анализ.
  2. Двухфакторный дисперсионный анализ с повторениями.
  3. Двухфакторный дисперсионный анализ без повторений.

Раздел 1 используется для выяснения вопроса есть ли влияние одного фактора на отклик. Для использования этого раздела необходимо задавать соответствующие параметры. Вызываем раздел 1. Во входном интервале указывается диапазон ячеек, где находятся все исходные данные. Результаты расчета приводятся в виде таблицы, использование которой описано в параграфе 30. (В ячейке К набираем низкая и … Р-значение < - есть влияние.)
Для выяснения влияния двух факторов на отклик используются разделы 2 и 3.
Если для каждого сочетания уровней 0 фактора А и В имеется только одно измерение, то мы должны использовать раздел 3. Если измерений несколько, то используется 2.
Результирующая таблица интерпретируется с помощью способа, описанного в параграфе 32.
Параметры раздела 2 идентичны параметрам раздела 3, только добавляется еще один параметр «число строк для выборки».

Литература

Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. – М., 1976.

Сидоренко Е.В. Методы математической обработки в психологии. 2-е изд.– СПб, 2000.

Тюрин Ю.Н., Макаров Н.Н. Статистический анализ данных на компьютере. – М., 1998.

Поллард Дж. Справочник по вычислительным методам статистики. – М., 1982.

Айвазян С.А., Енюков И.С., Мишалкин Л.Д. Основы моделирования и первичная обработка данных. – М., 1983. (Серия «Прикладная статистика»).

Автор:

В. В. СЕЧКО Математические методы обработки психологических данных
Минск 2002

 

Поиск

Все права защищены. При при копировании материалов сайта, обратная ссылка, обязательна! Варианты ссылок:
HTML код:

Код для форумов:


Уважаемые пользователи и посетители сайта!
Спасибо за то, что вы присылаете материал на сайт «Ваш психолог. Работа психолога в школе» по адресу sait.vashpsixolog собачка mail.ru Убедительная просьба, обязательно указывайте автора или источник материала. На многих материалах авторство потеряно, и, если вы, являетесь автором одного из них, пришлите письмо с точной ссылкой на материал. Если на ваше письмо, вы не получили ответ, напишите еще раз, т.к. письма иногда попадают в спам и не доходят.
Смотрите внимательно: авторство или источник указываются, чаще всего, в конце материала (если материал разбит на страницы, то на последней).
С уважением, администрация.