На главную Лекции и практикум по психологии Разное по психологии Математические методы обработки психологических данных - Проверка нормальности распределения исходных данных
Математические методы обработки психологических данных - Проверка нормальности распределения исходных данных
Лекции и практикум по психологии - Разное по психологии
Индекс материала
Математические методы обработки психологических данных
Шкалы измерений
Табулирование данных
Квантиль
Меры центральной тенденции
Меры изменчивости
Нормальное распределение
Предварительный анализ выборки
Сравнение средних значений
Сравнение дисперсий
Значимость коэффициента корреляции
Коэффициент ранговой корреляции Кендалла
Бисериальный коэффициент корреляции (БКК)
Однофакторный анализ (ОФА)
Двухфакторный анализ
Проверка нормальности распределения исходных данных
Все страницы

33. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ ИСХОДНЫХ ДАННЫХ

2
Для решения такой задачи чаще всего используют -критерий Пирсона. В качестве приближенного метода можно воспользоваться методикой проверки нормальности распределения исходных данных, имеющихся в книге Сидоренко Е.В. (с.230-234).

Статистическая обработка исходных данных с помощью Microsoft Excel.
Эта обработка может проводиться тремя способами:

  1. С помощью статистических функций
  2. С помощью пакета анализа данных (ПАД).
  3. Путем программирования самим пользователем необходимых расчетных формул.

С помощью статистических функций. Описательная статистика с помощью статистических функций для этого используется «мастер функций». Прежде, чем вызвать fx, необходимо выделить ячейку, в которую мы хотим поместить результат работы функций. «Мастер функций» вызывается путем нажатия кнопки fx на панели инструментов «стандартная». В появившемся окне в левой половине выбираем категорию «статистические», тогда в правой половине окна будет расположен список всех статистических функций, имеющихся в Excel в алфавитном порядке. Если мы недавно пользовались какой-либо функцией, то повторно ее можно использовать через категорию «10 недавно пользовавшихся».
Для нахождения среднего значения выборки используется функция СРЗНАЧ. В качестве аргумента этой функции необходимо указать диапазон ячеек, в котором находится исходная выборка.
Для вычисления дисперсии выборки используется функция ДИСП. Для вычисления стандартного отклонения выборки используется функция СТАНДОТКЛОН. Функции МАКС и МИН вычисляют соответственно наибольший и наименьший элементы выборки.
Для нахождения медианы выборки используется функция МЕДИАНА (делит упорядоченную выборку пополам). Для нахождения мода используют МОДА. Если выборка не имеет моды, то функция возвращает значение #Н/Д.
К сожалению, если выборка имеет две моды и больше, то функция мода возвращает только одну моду.
Для вычисления асимметрии выборки используется функция СКОС. Если коэффициент асимметрии больше 0, то распределение (гистограмма) является несимметричным с правой асимметрии, т.е. более широкий диапазон значений расположен справа от моды.

формула42

Функция КВАРТИЛЬ возвращает соответственную квартиль выборки. Эта функция имеет два аргумента: 1 «МАССИВ» - указывается диапазон ячеек, где находится исходная выборка; 2 «ЗНАЧЕНИЕ» - минимальное = 0; первый квартиль = 1; медиана = 2; третий квартиль = 3; максимальное значение = 4 (медиана = 2 квартиль).

Подключение ПАД.
Для запуска пакета анализа данных необходимо выполнить команду «СЕРВИС», если в появившемся подменю имеется строка «АНАЛИЗ ДАННЫХ», то ПАД подключен и мы его запускаем путем нажатия этой строки. Если этой строки нет, то мы выбираем строку надстройки в появившемся окне находим строку «ПАКЕТ АНАЛИЗА» и устанавливаем птичку в квадратике, затем нажимаем ОК и смотрим начало подпункта.
Описательная статистика с помощью ПАД.
Для этого используется раздел «ОПИСАТЕЛЬНАЯ СТАТИСТИКА». В отличие от статистических функций ПАД позволяет вычислять основные статистические характеристики для нескольких выборок одновременно. Для запуска данного раздела осуществляется выбор его в окне пакета, после чего нажимается ОК и указываются в появившемся окне необходимые параметры:
1 параметр - входной интервал – указывается диапазон ячеек, где
находятся все исходные данные.

  1. параметр – группирование – указывается как расположены наши исходные выборки (по столбцам или по строкам).
  2. параметр – метки в первой строке. Если этот параметр включен ( ), то во входном интервале необходимо включать названия переменных, которые задаются в 1 строке. Тогда в таблице результатов будут также приведены названия этих переменных. Если же этот параметр не включен ( ), то во входном интервале мы должны указывать только те ячейки (без заголовка), где находятся числа. Тогда в таблице результатов будут указаны стандартные названия переменных (столбец 1, столбец 2 и т.д.). Лучше включать этот режим ( ).
  3. параметры вывода – таблица результатов может располагаться тремя способами: 1) на том же рабочем листе, что и исходные данные. В этом случае делаем активным параметр выходной интервал. Затем в соседнем прямоугольнике указываем координаты левой верхней ячейки, с которой будет располагаться таблица результатов. (Лучше этим режимом не пользоваться). 2) на новом рабочем листе. Для этого делаем активным «новый рабочий лист» и в соседнем прямоугольнике указываем название этого листа. Если это название не указать, то листу будет присвоено «лист…». Лучше пользоваться этим способом. 3) в новой рабочей книге. Делаем активным параметр «новая рабочая книга» (это второй файл; лучше, когда все хранится в одном файле).
  4. итоговая статистика – данный параметр должен быть включен ( ), если мы хотим увидеть таблицу результатов.
  5. уровень надежности к-ый наименьший

к-ый наибольший позволяют находить соответствующие по порядку элементы выборки. В таблице результатов не путать стандартные ошибки (строка 2) со структурными отклонениями (7). Интервал - это размах выборки, 14 строчка – сумма элементов соответствующей выборки; 15 – количество элементов в соответствующей выборке. Сумма – сумма элементов соответствующей выборки; счет – количество элементов в соответствующей выборке.
Построение гистограммы с помощью ПАД.
«Гистограмма» - анализа данных.
«Входной интервал» - указывается диапазон ячеек, где находится исходная выборка.
«Интервал карманов» - если этот параметр не указывать, то автоматически разобьет диапазон значений элементов выборки на необходимое количество интервалов. Однако эти интервалы могут иметь не целые границы. В таком случае мы можем сами выбрать границы. Интервалов, которые в пакете называются «карманами». Эти границы должны быть набраны на том же рабочем листе, где находятся исходные данные. Обязательно перед вызовом отдела гистограммы.
В качестве кармана принято указывать правую границу интервала. Число карманов как правило меньше на 1, чем количество интервалов. Поэтому при включении параметра «интервал карманов» мы должны указать диапазон ячеек, в которых располагаются карманы. Параметр «метки» и параметр «выводы» аналогичны разделу «описательная статистика» (2 способ).
«Парето» (отсортированная гистограмма). Если данный параметр включен ( ), то столбцы гистограммы выводятся в порядке убывания частот.

формула43

«Интегральный процент» - это накопленные частоты в процентах.
«Вывод графика» - этот параметр должен быть включен, если мы желаем увидеть гистограмму.

Вычисление коэффициента корреляции Пирсона.
Его можно вычислить с помощью статистической функции KOPPEL в качестве аргументов массив 1, массив 2, указываются диапазоны ячеек, содержащие первую и вторую исходные выборки, между которыми вычисляется корреляция. Обе выборки должны быть одинакового объема и не должны содержать текстовую информацию. #Н/Д – ошибка.
КК Пирсона можно также вычислить с помощью анализа ПАД, причем пакет позволяет вычислить одновременно несколько КК, для этого необходимо использовать раздел корреляция (ПАД). При этом задаются необходимые параметры:
«вход интервалов», указывается диапазон ячеек, содержащих все исходные данные. Причем в этом диапазоне не должно быть пустых ячеек. Результаты расчета приводятся в таблице «корреляционная матрица» (называется в статистике). Так как она является симметричной, то на экране выводится только ее левая нижняя часть. На главной диагноле всегда будут расположены единички, т.к. это КК каждой переменной с самой собой. (max = 1). Число, стоящее в какой-либо другой ячейке, представляет собой КК Пирсона между переменными, названия которых содержатся в соответствующих строке и столбце.
Проверка значимости КК Пирсона.
К сожалению, в Excel не имеется стандартной процедуры для решения данной задачи. Поэтому необходимые формулы запрограммируем самостоятельно (параграф 22, 3 этап).
2
tнабл = n – 2 rxy : 1 - rxy
Для этого сначала на новом рабочем листе в ячейке А1 введем название (можно русскими буквами) n=, а в ячейке В1 его значение, т.е. количество элементов выборки. После этого в ячейке А2 введем название КК=, а в ячейке В2 вычисленное значение КК (лист 2). В ячейке А3 введем название Тнабл =, а в ячейке В3 вводим формулу для его вычисления

формула44

Пример: проверить значимость КК. С листа 1 запоминаем число, переходим на лист 2 и 10 считается по шаблону.

Вычисления КРК Спиреана.
В Excel не имеется стандартной процедуры для его вычисления, поэтому создадим шаблон для расчета КРК Спирмена.
2 2
rc = 1 – 6 (xi – yi) + Tx + Ty : n (n – 1)
Следовательно, сначала мы должны проранжировать исходные выборки (сервис, анализ данных). Так как раздел «ранг и персентиль» ПАД при ранжировании переставляет исходные данные, то мы им воспользоваться не можем, поэтому ранжирование проводится вручную. Если 300 человек выборки, то сделать «ранг и персентиль» и одинаковые ранги пересчитать и по возрастанию поставить, а не по убыванию (как там стоит).
После ранжирования на новом рабочем листе помещаем ранги первой выборки в столбец А, а ранги второй выборки в столбец В. В столбце С необходимо получить разности этих рангов, поэтому в ячейке С1 введем название разности, а в ячейке С2 вводим формулу = А2 – В2. Теперь тиражируем формулу для остальных ячеек столбца С. Квадрат этих разностей будем получать в столбце Д. Для этого в ячейке Д1 вводим название квадраты, а в ячейке Д2 вводим формулу = С2 С2. Затем тиражируем эту формулу для остальных ячеек столбца Д. Дальнейшие необходимые значения Д. В ячейке Е1 вводим название русскими буквами СУММА =, а в ячейке F1 получаем сумму ячеек столбца Д с помощью f суммирования ( ). В ячейке Е2 вводим обозначение Тх = ; а в ячейке Е3 ту = . В ячейках F2 и F3 вводим значения вычисленных вручную поправок Тх и Ту, если совпадающих значений (рангов) нет, то в качестве поправки выбирается
3
Тх = (аi – ai) : 12
3 3
Tx = ((3 – 3)+(2 – 2)) :12 = 2,5
В ячейке F2 вводим 2,5
3 3
Ту = ((4 – 4)+(3 – 3)) : 12 = 7
В ячейку F4 вводим 7. В ячейку F4 вводим П= , а в ячейку F4 вводим 14. В ячейке Е5 вводим обозначения КРК=, а в ячейке F5 формулу для его вычисления
2 2
rs = 1 – 6 ( (xi – xi) + Tx+Ty) : n (n – 1)
программируем числитель
= 1 – 6 (F1+F2+F3) / (F4 (F4 F4 – 1)) (a/bc/ = a (b c) = a/b c)
Проверка значимости КРК Спирмена полностью идентична проверке значимости КК Пирсона, поэтому можно воспользоваться шаблоном проверки значимости , созданным нами ранее (лист 2). Вычислить КРК Спирмена между психологами Н и психологами В. (Вставляем столбец. Вставка – столбец). 3 2 3
((3 – 3) + (2 – 2) + (2 – 2)) : 12 = 3 КРК = 0,129371

Проверка статистических гипотез с помощью ПАД.
Для проверки статистических гипотез в ПАД имеется следующий раздел:

  1. Двухвыборочный F-тест для дисперсии.
  2. Парный двухвыборочный t-тест для средних.
  3. Двухвыборочный t-тест с одинаковыми дисперсиями.
  4. Двухвыборочный t-тест с различными значениями.
  5. Двухвыборочный Z-тест для средних.

Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.к. требует знания дисперсии ГС, что на практике редко встречается.
Раздел 1 используется для сравнения лисперсий двух независимых выборок. Необходимо задавать параметры. Входные данные в 1 интервале – 1 выборка, во 2 интервале – 2 выборка и включить «метки»(заглавие).
Альфа указывается выбранный нами уровень значимости. По умолчанию в окошке находится 0,05. Вывод о совпадении или различии дисперсий можно сделать по правилу, использующему Р значение. Если 1) Р> , то делаем вывод о совпадении дисперсий; 2) P < , то делаем вывод о статистическом различии дисперсий на уровне значимости . Дисперсии 88 и 45 на уровне значимости = 0,05 не различимы.
Для сравнения средних значений двух независимых выборок используются разделы 3 или 4 в зависимости от того, совпадают дисперсии или нет. Для выполнения этих разделов необходимо задавать соответствующие параметры. Параметры аналогичны разделу 1 за исключением гипотетической средней разности, который в нашем случае должен быть равен. Результаты расчета помещаются в таблице, из которой нам необходимо сравнивать две величины (t-статистика и t-крит. двустороннее).
Н0: Мх – Му = с
Н1: Мх – Му /= с
Н0: Мх = Му
Мх – Му = 0
По следующему правилу:

формула45

Вывод совпадений или различий средних значений можно сделать также с помощью Р-значения по правилу аналогично разделу 1, используя Р-двустороннее (строка 13). Вывод: они не совпадают –4,819 tдвуст. 2,06 (возвращ. на лист 1).
Параметры раздела 4 аналогичны параметрам раздела 3, однако в таблице результатов для раздела 4 не приводится значение объединенной дисперсии, поэтому она меньше на одну строку по сравнению с разделом 3.
2 раздел используется для сравнения средних значений двух связанных выборок для данных типа «до-после». Отметим, что исходные выборки должны быть одинакового объема. Для использования раздела 2 необходимо задать соответствующие параметры, которые полностью аналогичны параметрам разделов 3 и 4. Результирующая таблица полностью совпадает с результирующей таблицей 3, только вместо строк «объединенная дисперсия» имеется строка «корреляция Пирсона» (гипотетическая разность ставим 0).

Факторный дисперсионный анализ.

Для его проведения в ПАД имеются следующие разделы (возвращаемся на 1 лист):

  1. Однофакторный дисперсионный анализ.
  2. Двухфакторный дисперсионный анализ с повторениями.
  3. Двухфакторный дисперсионный анализ без повторений.

Раздел 1 используется для выяснения вопроса есть ли влияние одного фактора на отклик. Для использования этого раздела необходимо задавать соответствующие параметры. Вызываем раздел 1. Во входном интервале указывается диапазон ячеек, где находятся все исходные данные. Результаты расчета приводятся в виде таблицы, использование которой описано в параграфе 30. (В ячейке К набираем низкая и … Р-значение < - есть влияние.)
Для выяснения влияния двух факторов на отклик используются разделы 2 и 3.
Если для каждого сочетания уровней 0 фактора А и В имеется только одно измерение, то мы должны использовать раздел 3. Если измерений несколько, то используется 2.
Результирующая таблица интерпретируется с помощью способа, описанного в параграфе 32.
Параметры раздела 2 идентичны параметрам раздела 3, только добавляется еще один параметр «число строк для выборки».

Литература

Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. – М., 1976.

Сидоренко Е.В. Методы математической обработки в психологии. 2-е изд.– СПб, 2000.

Тюрин Ю.Н., Макаров Н.Н. Статистический анализ данных на компьютере. – М., 1998.

Поллард Дж. Справочник по вычислительным методам статистики. – М., 1982.

Айвазян С.А., Енюков И.С., Мишалкин Л.Д. Основы моделирования и первичная обработка данных. – М., 1983. (Серия «Прикладная статистика»).

Автор:

В. В. СЕЧКО Математические методы обработки психологических данных
Минск 2002



 

Поиск

Яндекс.Метрика
Все права защищены. При при копировании материалов сайта, обратная ссылка, обязательна! Варианты ссылок:
HTML код:

Код для форумов:


Уважаемые пользователи и посетители сайта!
Спасибо за то, что вы присылаете материал на сайт «Ваш психолог. Работа психолога в школе» по адресу sait.vashpsixolog собачка mail.ru Убедительная просьба, обязательно указывайте автора или источник материала. На многих материалах авторство потеряно, и, если вы, являетесь автором одного из них, пришлите письмо с точной ссылкой на материал. Если на ваше письмо, вы не получили ответ, напишите еще раз, т.к. письма иногда попадают в спам и не доходят.
Смотрите внимательно: авторство или источник указываются, чаще всего, в конце материала (если материал разбит на страницы, то на последней).
С уважением, администрация.