На главную Лекции и практикум по психологии Разное по психологии Математические методы обработки психологических данных - Предварительный анализ выборки
Математические методы обработки психологических данных - Предварительный анализ выборки
Лекции и практикум по психологии - Разное по психологии
Индекс материала
Математические методы обработки психологических данных
Шкалы измерений
Табулирование данных
Квантиль
Меры центральной тенденции
Меры изменчивости
Нормальное распределение
Предварительный анализ выборки
Сравнение средних значений
Сравнение дисперсий
Значимость коэффициента корреляции
Коэффициент ранговой корреляции Кендалла
Бисериальный коэффициент корреляции (БКК)
Однофакторный анализ (ОФА)
Двухфакторный анализ
Проверка нормальности распределения исходных данных
Все страницы

12. ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ВЫБОРКИ

К предварительному анализу выборки обычно относят следующие задачи:

  • Восстановление пропущенных наблюдений.
  • Анализ резко выделяющихся наблюдений.
  • Проверка статистической независимости исходных данных (элементов выборки).

Восстановление пропущенных наблюдений.
Будем предполагать, что в нашей исходной выборке отсутствие какого-либо показателя у некоторого лица связано с причинами технического характера, т.е. с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение стало неизвестным.
Однако отметим, что это не связано с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных наблюдений, либо оценить сами пропущенные значения, либо и то, и другое, но вместе. Две последние задачи требуют больших исходных допущений, чем оценка самих параметров.
Методы решения таких задач основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
1. Самым простым подходом к проблеме обработки пропущенных наблюдений является использование исходных данных только для тех лиц, о которых мы имеем полную информацию.

формула16

Данный подход является наиболее целесообразным, если выборка содержит достаточное количество исследуемых объектов, а задача заполнения пропущенных значений не является целью обработки.
2. Однако для выборок небольшого объема, а также в ситуации, когда измерение имеет высокую стоимость, естественно попытаться использовать всю имеющуюся у нас информацию.
Одним из самых старых и простых способов обработки данных с пропущенными наблюдениями является следующий: пропущенное значение некоторого признака заполняется средним арифметическим значением, вычисленным по имеющимся данным. Недостатком этого способа является то, что в результате такого запоминания исходные данные становятся статистически зависимыми.
Анализ резко выделяющихся наблюдений.
Часто при предварительном просмотре исходных данных у исследователя возникают сомнения в истинности отдельных наблюдений, резко выделяющихся на общем фоне. Возникает вопрос, вправе ли мы объяснить обнаруженные отклонения только случайными колебаниями выборки или здесь дело в существенных искажениях стандартных условий сбора статистических данных.
Единственно абсолютно надежным способом решения вопроса резко выделяющихся наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях это принципиально невозможно. Поэтому необходимо обращаться к соответствующим формальным статистическим методам. Иногда резко выделяющиеся наблюдения достаточно хорошо просматриваются с помощью построения графика.

формула15

Рассмотрим аналитический метод исследования одного резко выделяющегося наблюдения. Не нарушая общности будем считать, что речь идет о максимальном наблюдении. Пусть х(1), х(2), …, х(n) – вариационный ряд исходной выборки, когда в качестве резко выделяющегося наблюдения будет рассматриваться х(n). Решающее правило для исключения из выборки этого значения х(n) основано на следующей статистике.
Тn=(x(n) –x):Sx > Tкр, где х – среднее значение выборки, Sx – стандартное отклонение.
Если эта статистика Тn больше соответствующего критического значения Ткр, то делаем вывод о том, что наблюдение х(n) является резко выделяющимся наблюдением и мы должны это наблюдение удалить из исходной выборки. Если х(n) меньше или равно Ткр, то мы делаем вывод о том, что наблюдение х(n) не является резко выделяющимся наблюдением.
Т(n) < Ткр.
Критические значения находятся обычно в соответствующей статистической таблице или мастере функций. Наиболее полное собрание статистических таблиц находится в книге Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М. Наука. 1983.
Если в выборке мы подозреваем несколько резко выделяющихся наблюдений, то сначала рассмотренный выше критерий применяют к максимальному из них. Если это значение будет признано резко выделяющимся, то его удаляют из выборки и рассмотренный критерий применяется к следующему по величине элементу выборки и т.д. до тех пор, пока не будет признано, что резко выделяющихся наблюдений больше нет.
Одним из недостатков рассмотренного критерия является то, что «подозрительные» наблюдения часто расположены близко друг к другу, образуя при этом группу в стороне от основной массы наблюдений. В результате рассмотренная процедура, основанная на использовании среднего значения и стандартного отклонения, становится нечувствительной, т.е. не считает их резко выделяющимися. В таких случаях рекомендуют использовать вместо х и Sx более устойчивые оценки – медиану.
Проверка независимости элементов выборки.
Перед тем, как подвергнуть исходные данные статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку и являются статистически независимыми, т.е. значение любого элемента выборки не зависит от значений других элементов выборки.
Рассмотрим несколько статистических критериев для проверки независимости элементов выборки.
1. Сначала обратимся к критерию серий, основанному на медиане выборки. Пусть х1, х2, …, хn – исходная выборка из некоторой генеральной совокупности. Найдем сначала по этой выборке ее медиану хmed, после этого каждый элемент исходной выборки заменяем на плюс, если этот элемент больше медианы (+ xi > xmed ) и заменяем его на -, если этот элемент меньше медианы (- xi < xmed ). Если же элемент выборки равен медиане, то мы его исключаем из рассмотрения. В результате такой обработки мы получаем некоторую последовательность плюсов и минусов ++ - +++ - - - - + - ++. Под серией будем понимать последовательность идущих подряд плюсов или минусов. В частном случае серия может состоять только из одного плюса или минуса. В этом случае ее протяженность считается равной 1. Тогда исходную выборку можно охарактеризовать двумя параметрами: (n) –общее количество серий и (n) – протяженность самой длинной серии. В нашем примере (n) = 7; (n) = 4. Если наши исходные наблюдения являются статистически независимыми, то чередование + и - в полученной нами последовательности должно быть случайным, т.е. эта последовательность не должна содержать слишком длинных серий, а общее количество не должно быть слишком малым. В результате таких рассуждений приходят к следующему правилу:
- Наша исходная выборка является случайной, т.е. ее элементы являются статистически независимыми, если выполняются два следующих неравенства:
(n) > ½ (n+1-1,96 n-1);
(n) < 3,3 lg (n+1), где n – общее количество + и - в последовательности, а не общее количество исходных данных, х – целая часть числа х.
- Если же хотя бы одно из этих неравенств не выполняется, то мы делаем вывод о том, что элементы исходной выборки являются статистически зависимыми.
2. Второй статистический критерий – критерий «нисходящих» и «восходящих» серий. Как и для рассмотренного выше критерия в данном критерии рассматривается последовательность + и -. Однако в этом случае правило получения такой последовательности несколько иное.
Как обычно в качестве исходных данных рассматривается выборка х1, х2, …, хn. Последовательность + и – получается следующим образом. На i-том месте ставится +-, если хi+1 - xi>0, т.е. последующий элемент выборки больше предыдущего; ставится знак=, если xi+1 - xi<0, т.е. последующий элемент меньше предыдущего. Если два или несколько последующих значений одинаковы, то принимается во внимание только одно из них.
3, 2, 2, 2, 4, 2, тогда последовательность подряд идущих плюсов будет

  • +

соответствовать возрастанию элементов выборки, поэтому она называется восходящей серией. Последовательность подряд идущих минусов будет соответствовать убыванию элементов выборки, поэтому она называется нисходящей серией. Полученную последовательность + и – как и для предыдущего критерия можно охарактеризовать двумя параметрами:
(n) – общее количество серий

  • - протяженность самой длинной серии.

Тогда аналогично предыдущему критерию элементы исходной выборки будут статистически независимыми, если в полученной нами + и – общее количество серий не является слишком малым, а протяженность самой длинной серии не является слишком большой.
Математически это правило формулируется следующим образом: 1. Элементы исходной выборки являются статистически независимыми, если выполняются два следующих неравенства:
а) (n) > 1/3 (2n-1) – 1,96 (16n-29):90
б) (n) < 0 (n)
2. Если же хотя бы одно из этих двух неравенств не выполняется, то элементы нашей исходной выборки считаются статистически зависимыми. В данных неравенствах: n –общее количество + и – ; х - целая часть числа х. Величина 0(n) в зависимости от величины n определяется следующим образом:

 

5, n<26
0(n) = 6, 26<n<153
7, 153<n<1170
Задача. Проверить на статистическую независимость выборку, состоящую из номеров месяца рождения студентов группы. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4,. 1.
Проверим независимость с помощью критерия, основанного на медиане выборки. Для этого найдем медиану выборки. Сначала исходную выборку упорядочим: 1, 1, 1, 2, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 8, 8, 10, 10, 11, 11, 12, 12, 12, 12, 12, 12. Всего 28. xmed=(6+6):2=6 xmed=6. Получим теперь последовательность + и – по исходной выборке: +++++ - + - + - ++ - - + - - + - ++ - - - -. n=28 – 3 =25 (три шестерки = медиане, исключаются). (n) =14;
(n) =5.
Вычисляем теперь первые части неравенства:

  • ½ (n+1 – 1,96 n – 1) = ½ (25+1 – 1,96 25 – 1 = 8,1 =8
  • 3,3 lg (n+1) = 3,3lg (25+1) = 3,3 1,38 = 4,55 =4

Сравниваем теперь (n) и (n) с полученными значениями:
(n) = 14>8 (n) = 5>4
В результате получаем, что второе неравенство нарушено, следовательно, мы должны сделать вывод, что исходные данные являются статистически зависимыми.
Решим эту задачу с помощью критерия «нисходящих» и «восходящих» серий. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4, 1. ++++ - + - + - + - - - + - - ++ - - + - - + - (особенность попарно сравнивать) 25, на 1 меньше 3чел. – 2 пары; 12 и 4 искл., т.к. послед. Знач. одинаковы. n = 28 – 2 – 1 = 25; (n) = 16 (n) = 4. Вычисляем правые части неравенств: 1/3 (2n – 1) – 1,96 (16n – 29) : 90 = 1/3 (2 25 – 1) – 1,96 (16 25 – 29) : 90 = 12,4 = 12. 0(n) = 5 ( 5,25<26)
n

Сравниваем (n) и (n) с полученными значениями правых частей.
(n) = 16>12
(n) = 4<5
В данном случае оба требуемых неравенства выполняются, поэтому делаем вывод о том, что наши исходные данные являются статистическими независимыми (получили по 1-му и выбираете то, что вам нужно).

13. СТАТИСТИЧЕСКИЙ ВЫВОД. ПРОВЕРКА ГИПОТЕЗ

На практике часто приходится делать некоторые выводы по имеющемуся у нас небольшому объему данных (выборки) о свойствах всей генеральной совокупности. Эти выводы осуществляются с помощью определенных статистик и поэтому называются статистическими. Теория статистического вывода занимает центральное место в статистике. Основным способом, с помощью которого делаются статистические выводы, является проверка гипотез.
Существует два вида гипотез: 1) научные 2) статистические. Научная гипотеза – это предполагаемое решение некоторой проблемы. Она обычно формулируется в виде теоремы. Статистическая гипотеза – некоторое утверждение относительно неизвестного параметра или какой-либо характеристики. Например, среднее значение генеральной совокупности равно 125 х=125 или коэффициент корреляции равен 0 =0. Для проверки статистических гипотез используются статистические критерии, которые представляют собой некоторое правило, по которому мы делаем вывод о правильности или неправильности рассматриваемой статистической гипотезы.

14. ОБЩАЯ СХЕМА ПРОВЕРКИ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Она состоит из пяти этапов:
1 этап – выдвигаются две статистические гипотезы: 1) основная нулевая Н0 и 2) альтернативная (конкурирующая) Н1.
Например, Н0 среднее значение ГС = 125.
Н1 среднее значение ГС = 125. Математически это можно записать: Н0: х = 125
Н1: х = 125 ( х < 125 : x > 125).
2 этап – задаемся уровнем значимости . Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска и выступает уровень значимости, который обычно обозначается . Фактически уровень значимости представляет собой долю и процент ошибок, которые мы можем себе позволить при статистических выводах. Чаще всего используют следующие три значения уровня значимости. = 0,1 или 10%; = 0,05 или 5%; = 0,01 или 1%. Наиболее популярным из них является = 0,05 или 5% (допускается 5% ошибок, если всего 100 выборок).
3 этап – по исходным данным, т.е. по выборке вычисляется наблюдаемое значение статистики критерия. В общем случае будем ее обозначать gнабл. Для этого используются статистические таблицы. Выбор необходимой статистической таблицы осуществляется в зависимости от распределения статистики критерия. При проверке статистических гипотез статистика критерия выбирается (статистиками) таким образом, чтобы она имела одну из рассмотренных в параграфе 11 распределений.
5 этап – путем сравнения найденных наблюдаемых критических значений делаем вывод о правильности этой или иной гипотезы. Наиболее часто встречаются следующие ситуации:

 

8 наблюдений

формула17

15. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Часто на практике возникает задача сравнения средних значений исследуемого показателя, признака для двух разных генеральных совокупностей. Например, одинаков ли средний уровень коэффициента IQ для мальчиков и девочек одного и того же возраста. При решении такой задачи необходимо, чтобы исследуемый признак был измерен в количественной шкале. Таким образом, будем считать, что в результате эксперимента в качестве исходных данных у нас имеются две выборки необязательно одинакового объема: х1, х2, …, хn и y1, y2, …, ym, где n = m. Необходимо обращать внимание на то, чтобы эти две выборки были независимыми, т.е. чтобы элементы 1 выборки не влияли на значения элементов 2 выборки. Для решения поставленной задачи воспользуемся общей схемой проверки статистической гипотезы.
1 этап. Выдвигаются две гипотезы: основная нулевая о том, что средние значения исследуемого признака двух рассматриваемых ГС статистически одинаковы и альтернативная гипотеза о том, что эти средние значения статистически различны.
Н0 : х = у, где х – среднее значение 1 ГС
Н1 : х = у, где х – среднее значение 2 ГС
2 этап. Задаемся уровнем значимости .
3 этап. Вычисляется наблюдаемое значение статистики критерия. Для этого сначала по исходным выборкам вычисляется среднее значение х и у
2 2
(см. меры центральной тенденции), а также дисперсии Sх Sy . Тогда наблюдаемое значение статистического критерия вычисляется по следующей формуле: 2 2
tнабл. = (х – у) : ((n - 1) Sx + (m – 1) Sy ) : (n + m – 2) ( 1/n + 1/m)
4 этап. Находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы
= n + m – 2
Поэтому для нахождения критического значения необходимо воспользоваться статистической таблицей распределения Стьюдента. В этой таблице находим столбец, соответствующий величине 1 - /2, если таблица называется квантили распределения или величине /2, если таблица называется верхние процентные точки распределения. В этой же таблице находим строку, соответствующую числу степеней свободы = n + m – 2, на пересечении выбранных строки и столбца и находится требуемое нам критическое значение tкр.
5 этап. Делаем вывод о правильности той или иной гипотезы по следующему правилу:
1) если - tкр< tнабл. < tкр, то принимается нулевая гипотеза Н0, т.е.на основе имеющихся данных мы делаем вывод о том, что средние значения двух рассматриваемых генеральных совокупностей статистически одинаковы на уровне значимости .
2) если же tнабл.< - tкр или tнабл. > tкр, то принимается альтернативная гипотеза Н1, т.е. делается вывод о том, что средние значения двух рассматриваемых ГС статистически различны на уровне значимости .

формула18

Пример: был проведен эксперимент по исследованию влияния усовершенствованного пособия (вводный материал, подготавливаемый к восприятию изучаемого предмета) на успеваемость по определенному разделу математики. 50 учащихся были разбиты случайным образом на две группы: 25 (1 группа) знакомились с усовершенствованным пособием, а 25 (2 группа) не знакомились, в конце эксперимента всем учащимся был предложен тест на усвоение понятий определенного раздела математики. В качестве измеряемых признаков рассматривалось количество правильных ответов. Проверить гипотезу о наличии или отсутствии влияния усовершенствованного пособия на успеваемость по математике.
В нашем случае в качестве измеряемой переменной рассматривалось количество правильных ответов, поэтому она измерена в количественной шкале. Так как учащиеся разбивались на 2 группы случайно, то в результате эксперимента мы получили две независимых выборки. х1, х2, …, х25 и у1, у2, …, у25. По полученным выборкам были найдены средние значения х=7,65;
2 2
у=6,0 и дисперсии Sx=6,5 Sy=5,9 n=25 m=25 =0,05

формула19

tнабл. > tкр., то мы должны принимать альтернативную гипотезу Н1 о статистическом различии средних значений. Имеется влияние усовершенствованного пособия на среднюю успеваемость по математике на уровне значимости 0,05 (5% ошибок допускается). Глядя на соотношение между х и у (в нашем случае х>у), делаем вывод, что усовершенствованное пособие повышает среднюю успеваемость по математике.
Примечания.
1. Рассмотренный в этом параграфе критерий должен применяться для выборок, извлеченных из ГС и имеющих нормальное распределение с одинаковыми дисперсиями.
2. Если исходные выборки извлечены не из нормальной ГС, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 17 или критерием этого параграфа, но при этом помнить, что полученные выводы будут приближенными, т.е. могут оказаться неправильными.
3. Предположение о равенстве дисперсий может легко, если брать обе выборки одинакового объема.
4. Рассмотренный в этом параграфе критерий в литературе обычно называется t-критерий Стьюдента.



 

Поиск

Все права защищены. При при копировании материалов сайта, обратная ссылка, обязательна! Варианты ссылок:
HTML код:

Код для форумов:


Уважаемые пользователи и посетители сайта!
Спасибо за то, что вы присылаете материал на сайт «Ваш психолог. Работа психолога в школе» по адресу sait.vashpsixolog собачка mail.ru Убедительная просьба, обязательно указывайте автора или источник материала. На многих материалах авторство потеряно, и, если вы, являетесь автором одного из них, пришлите письмо с точной ссылкой на материал. Если на ваше письмо, вы не получили ответ, напишите еще раз, т.к. письма иногда попадают в спам и не доходят.
Смотрите внимательно: авторство или источник указываются, чаще всего, в конце материала (если материал разбит на страницы, то на последней).
С уважением, администрация.