Табулирование и наглядное представление данных
Лекции и практикум по психологии - Статистические методы в психологии

Лекция № 2
Табулирование и наглядное представление данных
План:
1. Понятие о генеральной совокупности и выборке.
2. Способы формирования выборки.
3. Распределение частот и табулирование данных.
4. Графическое представление эмпирических данных.
5. Квантили и их интерпретация.

Основные понятия и термины: генеральная совокупность, выборка, объем выборки, репрезентативная выборка, выборка стандартизации, варианта, вариационный ряд, частота варианты, относительная частота варианты, накопленная частота варианты, статистическое распределение выборки, распределение частот, интервальное распределение, полигон частот, гистограмма, точечная диаграмма, квантиль, квартиль, внутриквартильный размах, дециль, процентиль.

1. Понятие о генеральной совокупности и выборке

Генеральная совокупность – это совокупность всех мысленно возможных объектов интересующего исследователя типа, для которых могут быть проведены измерения при данном реальном комплексе условий. Генеральная совокупность является математически абстрактным понятием и содержит такое большое количество объектов, что практически изучить их невозможно. Поэтому реальное исследование проводится на выборочной совокупности [26].
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов из генеральной совокупности для изучения интересующего исследователя свойства [26].
Число элементов в выборке называют объемом выборки и обозначают n. Объем генеральной совокупности обозначают N.
Например, если из 1000 деталей отобрано для обследования 100 деталей, то N = 1000, а n = 100.
Примечание. Полезно знать, что в современной практике статистической обработки данных символ N может использоваться для обозначения объема выборочной совокупности (например, в программных пакетах STATISTICA, SPSS).
В зависимости от количества наблюдений выборочные совокупности подразделяются на три группы [18]:
- малые – до 30 наблюдений;
- средние – от 30 до 200 наблюдений;
- большие – от 200 наблюдений и выше.
Объем выборки определяется теми задачами, которые стоят перед исследователем [18]:
- если разрабатывается диагностическая методика, то объем выборки может варьировать от 200 до 1000 (иногда 2500) наблюдений;
- если сравниваются две выборки, то сумма наблюдений в обеих выборках должна быть не менее 50: n1 + n2 ≥ 50;
- если изучается взаимосвязь между свойствами, то количество наблюдений составляет примерно 30–35;
- чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Изменчивость свойства можно уменьшить, увеличив однородность выборки, например, по полу, возрасту, уровню образования и т.д.
Сущность статистических методов состоит в том, чтобы по результатам исследований, полученных на выборке, можно было судить о свойствах генеральной совокупности в целом. Достоверность выводов, получаемых в результате статистической обработки исходных данных, зависит от того, насколько выборка является репрезентативной (представительной).
Репрезентативной является выборка, элементы которой правильно представляют пропорции генеральной совокупности [7]. В этом случае выборка будет представлять изучаемое явление достаточно полно с точки зрения его изменчивости в генеральной совокупности.
Выборка, на которой разрабатываются нормы выполнения теста, называется выборкой стандартизации. При формировании выборки стандартизации руководствуются следующими правилами: а) выборка должна состоять из респондентов, на которых ориентирован тест, и быть однородной; б) выборка должна иметь большой объем (свыше 200 наблюдений); в) выборка должна быть репрезентативной, для чего отбор испытуемых в выборку должен носить случайный характер [3].

2. Способы формирования выборки

Важнейшим условием повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из генеральной совокупности. Это означает, что все ее объекты имеют одинаковую вероятность попасть в выборку [7].
При отборе объектов из генеральной совокупности для получения выборки используются следующие способы [26]:
1. Простой случайный отбор. Объекты генеральной совокупности, имеющей объем N, нумеруют от 1 до N. Затем, используя таблицу случайных чисел или процедуру жеребьевки (например, корзину с пронумерованными карточками), отбирают n объектов выборки.
2. Простой отбор с помощью регулярной, но не существенной для изучаемого явления процедуры (например, отбор испытуемых по их номеру в списке).
3. Стратифицированный (расслоенный). В этом случае генеральная сово
купность объема N разделяется на непересекающиеся подсовокупности (страты,
слои) N1, N2, …, Nk.

статистические данные3

Из каждого слоя извлекается простая случайная выборка, имеющая объем n1, n2, …, nk соответственно, причем n1 + n2 + … + nk = n.
Стратифицированный отбор применяется, когда объекты внутри каждого слоя являются однородными по изучаемому свойству. Например, все студенты вуза могут быть разделены на 5 страт – студенты 1 курса, 2 курса, 3 курса, 4 курса и 5 курса.
4. Серийный (гнездовой) отбор. Он применяется, если удобно исследовать не отдельные элементы генеральной совокупности, а целые блоки или серии таких элементов. Например, исследуются все ученики одного класса или все семьи в одном доме.
5. Комбинированный (ступенчатый). Он объединяет в себя несколько вышеперечисленных способов отбора, которые составляют различные ступени выборочного исследования.
Например, исследователю необходимо представить репрезентативную выборку первоклассников. Генеральной совокупностью являются все учащиеся 1 класса нашей страны. Первый этап - простой случайный отбор: нумеруют области от 1 до 6 и с помощью жеребьевки определяют одну из них. Второй этап -простой отбор с помощью регулярной процедуры: в пределах области выбирают район, в названии которого содержится пять определенных букв. Третий этап -стратифицированный отбор: в районе делят все школы на городские, поселковые, сельские. Четвертый этап - в городе (поселке) используют серийный отбор: выбирают учащихся 1 класса определенной школы; они и составляют выборку, на которой будет проводиться исследование.

3. Распределение частот и табулирование данных

Пусть из генеральной совокупности извлечена выборка объема n. Исследуется некий признак (например, уровень интеллекта, время реакции и т.д.). Тогда каждый элемент выборки может принимать различные значения исследуемого признака, которые обозначают х1, х2, …, хк, где к ≤n. Значение признака называют вариантой хi, где i- порядковый номер варианты.
Последовательность вариант, упорядоченная по возрастанию, называется вариационным рядом. Число появлений варианты х4 называют частотой варианты и обозначают ni[7].
Например, в результате исследования получены следующие данные: 8, 5, 7, 8, 5, 8, 6. Представим их в виде вариационного ряда: 5, 5, 6, 7, 8, 8, 8. Исследуемый признак принимает четыре значения х1 = 5, х2 = 6, х3= 7, х4, = 8, которые имеют следующую частоту: n1= 2, n2= 1, n3 = 1, т4= 3.
Сумма частот всех вариант равна объему выборки

статистические данные4

Для характеристики вариационного ряда наряду с частотой и относительной частотой варианты используется накопленная частота. Накопленной частотой варианты хi (Σfi) называют величину, которая показывает, сколько значений признака не превышает заданного значения варианты хi [7].
Накопленную частоту варианты хi в упорядоченной выборке можно рассчитать по формуле Σfi = n1 + n2 + … + ni .
Например, для представленного выше вариационного ряда накопленная частота для варианты х3 определяется так: Σf3 = n1 + n2 + n3 = 2 + 1 + 1 = 4.
Первичная обработка данных, полученных в результате измерения, заключается в их описании, упорядочении, табулировании и представлении в виде, удобном для дальнейшей обработки. Для этого выборку представляют в виде статистического распределения, которое может быть задано двумя способами [7]:
а) в виде распределения частот (относительных частот) – перечня вариант и
соответствующих им частот (относительных частот);
б) в виде интервального распределения (распределения сгруппированных
частот) – последовательности интервалов и соответствующих им частот (отно
сительных частот).
Распределение частот, как правило, используется в случае, если измеряемая переменная является дискретной, а интервальное распределение – если переменная непрерывна.
Пример 1. В результате эмпирического исследования получены следующие данные: 1, 2, 1, 3, 5, 6, 7, 1, 2, 4, 5, 6, 3. Задать статистическое распределение выборки.
Решение. Определим объем выборки: n = 13.
Построим вариационный ряд: 1, 1, 1, 2, 2, 3, 3, 4, 5, 5, 6, 6, 7.
Зададим статистическое распределение выборки в виде частот и относительных частот:

хi

1

2

3

4

5

6

7

fli

3

2

2

1

2

2

1

wt

1/13

2/13

2/13

1/13

2/13

2/13

1/13


Контроль: 3 + 2 + 2 + 1 + 2 + 2 + 1 = 13;
3/13 + 2/13 + 2/13 + 1/13 + 2/13 + 2/13 + 1/13 = 13/13 = 1.
Если исследуемая переменная принимает большое число различных значений, то удобнее использовать статистическое распределение в виде интервального распределения. Для этого производят табулирование данных, т.е. представляют исходную выборку в виде таблицы соответствующей структуры. Табулирование данных осуществляется в четыре этапа [13; 26]:
1-й этап - определение размаха выборки R. Для этого из максимального значения выборки вычитают минимальное: R = Xmax - Xmin ;
2-й этап - определение ширины интервала группирования данных h. Прежде чем искать ширину интервала, необходимо определить количество интервалов группирования k≈√n, где n - объем выборки. После этого в качестве требуемого количества интервалов выбирается целое число, полученное в результате округления значения √n в сторону увеличения;
Ширина интервала группирования h получается путем деления размаха выборки на количество интервалов: h = R/k


3-й этап – определение границ частичных интервалов группирования данных. При этом левая граница первого интервала должна быть меньше либо равна xmin . Каждая последующая граница получается из предыдущей путем прибавления ширины интервала. Правая граница последнего интервала должна быть больше либо равна Xmax:

статистические данные5

Границы частичных интервалов

Частота

Относительная частота

Подсчет

[44; 54)

3

3/38

/ / /

[54; 64)

4

4/38

/ / / /

[64; 74)

6

6/38

/ / / / / /

[74; 84)

9

9/38

/ / / / / / / / /

[84; 94)

6

6/38

/ / / / / /

[94; 104)

5

5/38

/ / / / /

[104; 114)

5

5/38

/ / / / /

Сумма частот

38

1

 


Для контроля правильности группирования нужно вычислить сумму частот, которая равна объему выборки.
Анализ интервального распределения позволяет сделать вывод, что основная часть учащихся (21 человек) читает со скоростью 64-94 слова в минуту. Но есть ученики (7 человек), которые читают с невысокой скоростью, а также школьники (10 человек) с высокой скоростью чтения.

4. Графическое представление эмпирических данных

Графическое представление результатов исследования позволяет проводить некоторое обобщение исходных данных. Это дает возможность исследователю [4]:
а) лучше понимать эмпирические данные и делать их более глубокий ана
лиз по сравнению с текстом;
б) производить контроль точности первичной обработки.
Чаще всего используется три основных способа графического представления данных: полигон частот (относительных частот), гистограмма частот, точечная диаграмма.
Полигоном частот (полигоном распределения) называют ломаную, отрезки которой соединяют точки (х1; n1), (х2; n2), … , (хi; ni). Для построения полигона частот на оси абсцисс откладывают варианты хi , а на оси ординат – соответствующие им частоты ni. Полученные точки (хi; ni) соединяют отрезками. Полигон частот позволяет в графическом виде представить варьирование исследуемого признака [7].
Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (х1; w1), (х2; w2), … , (хi; wi). Для построения полигона относительных частот на оси абсцисс откладывают варианты хi , а на оси ординат – соответствующие им частоты wi. Полученные точки (хi; wi) соединяют отрезками [7].
Пример 3. Построить полигон частот для данных из примера 1.
Решение. Воспользуемся распределением частот, полученным в примере 1.

хi

1

2

3

4

5

6

7

Tli

3

2

2

1

2

2

1

wt

1/13

2/13

2/13

1/13

2/13

2/13

1/13

Построим точки с координатами: (1;3), (2;2), (3;2), (4;1), (5;2), (6;2), (7;1) и соединим их отрезками.

координаты1

Рис. 2.2. Полигон частот, построенный на основе статистического распределения эмпирических данных
Гистограммой частот (гистограммой) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы шириной h, а высотой – частота ni (или плотность частоты ni / h). Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними строят прямоугольники высотой ni (или ni / h) [7].
Пример 4. Построить гистограмму частот для данных из примера 2.
Решение. Воспользуемся интервальным распределением, полученным в примере 2.

Границы частичных интервалов

[44; 54)

[54; 64)

[64; 74)

[74; 84)

[84; 94)

[94; 104)

[104; 114)

Частота                     3

4

6

9

6

5

5

координаты2

Рис. 2.3. Гистограмма частот, построенная на основе статистического распределения эмпирических данных
Точечная диаграмма – форма графического представления данных, для построения которой по оси абсцисс откладываются значения признака, а по оси ординат точками отмечается частота встречаемости каждого признака [8].
Пример 5. Построить точечную диаграмму для данных из примера 1.
Решение. Воспользуемся распределением частот, полученным в примере 1.

хi

1

2

3

4

5

6

7

Tli

3

2

2

1

2

2

1

координаты3

Рис. 2.4. Точечная диаграмма, построенная на основе статистического распределения эмпирических данных
Гистограмму и точечную диаграмму можно использовать для построения полигона распределения. Для этого:
а) на гистограмме отмечают середины верхних сторон прямоугольников и
соединяют их отрезками, а концы «замыкают» на xmin и хmax;
б) соединяют вершины состоящих из точек столбцов точечной диаграммы.
При статистической обработке данных с помощью программных пакетов
(STATISTICA, SPSS и др.) для наглядного представления результатов исследования часто используют следующие виды диаграмм:

координаты3

Рис. 2.5. Коробчатая диаграмма, построенная по результатам измерения
изучаемой переменной
- столбиковая диаграмма, которая применяется для представления однородных, но не связанных между собой показателей и является прямоугольниками (столбиками), вытянутыми по вертикали, высота которых соответствует значению показателей;
- круговая (секторная) диаграмма, которая используется для изображения структуры некоторой совокупности и строится путем разделения круга на секторы пропорционально удельному весу частей в целом. Размер каждого сектора определяется величиной угла расчета (1% соответствует 3,6°);
- диаграмма рассеяния, которая применяется для демонстрации наличия (отсутствия) корреляции между двумя переменными и представляет собой совокупность точек на плоскости, координатами которых являются соответствующие значения исследуемых признаков (см. пример 1 темы 8 «Корреляционный анализ»);
- коробчатая диаграмма (диаграмма размаха, или «ящик с усами»), которая является наглядным представлением основных характеристик совокупности эмпирических данных. Она состоит из прямоугольника, длина которого равна внутриквартильному размаху (разности третьего и первого квартилей) (см. ниже пункт 5 «Квантили и их интерпретация»). Квадратик внутри этой фигуры соответствует значению, расположенному точно в середине упорядоченной последовательности статистических данных (т.е. является медианой). Также на коробчатой диаграмме отрезками (своеобразными «усами») отмечаются максимальное и минимальное значения, которые принимает признак. Пример коробчатой диаграммы, построенной по результатам измерения некоторой переменной (PT_POOR), представлен ниже.

Выбор вида диаграммы для наглядного представления данных определяется теми задачами, которые стоят перед пользователем.
При графическом представлении данных исследователю должен руководствоваться следующими правилами:
- необходимо представлять на графике основную информацию, которая позволяет его прочитать (заголовок графика, название осей, единицы измерения, легенды);
- не стоит перегружать график лишней информацией (один график – одна идея); если необходимо представить графически несколько идей, то лучше построить несколько графиков;
- не стоит слишком дробить структуру графика, выделяя более 5-6 частей (особенно на круговой диаграмме), поскольку маленькие сектора будут практически не видны, и их лучше объединить в группы (например, «прочие»);
- для лучшего восприятия информации изображаемые на графике категории данных удобно представлять либо в алфавитном порядке, либо отсортировав их величину по убыванию;
- следует избегать использования на одном графике большого количества разных цветов; лучше применять стандартную цветовую гамму, спокойные цвета, использовать разные цвета для обозначения различных категорий, описываемых графически, и разные уровни интенсивности одного цвета для обозначения подкатегорий;
- сразу после графика целесообразно представить текстовое описание, позволяющее раскрыть его основные идеи и сделать выводы.

5. Квантили и их интерпретация

Одним из эффективных методов описания исходных данных является представление их квантилей [4; 26].
Квантиль – это точка на числовой прямой, которая делит совокупность исходных наблюдений на две части с известными пропорциями в каждой из частей. Показатель одной из пропорций при обозначении квантиля записывается в качестве индекса и называется уровнем или порядком квантиля.
В общем виде квантиль записывается следующим образом: Кр (квантиль уровня p) , где 0< р < 1.
Пример 6. По результатам эксперимента, в котором измерялась скорость чтения, было установлено, что К0,25 = 70 (квантиль уровня 0,25 равен 70). Он характеризует левую часть пропорции исходных наблюдений, показывая, что 0,25 (или 25%) участников исследования
имеют скорость чтения 70 слов в минуту и меньше, или 0,75 (75%) школьников читают со скоростью 70 слов в минуту и больше.

квантиль

Квантиль является общим понятием. Частными случаями квантиля являются квартиль, дециль, процентиль.
Квартиль – это точка на числовой прямой, которая делит исходную совокупность наблюдений на две части, каждая из которых пропорциональна одной или нескольким четвертым частям. Так, квартиль Q1 показывает, что слева от него расположено 1/4 всех исходных наблюдений.

квантиль2

Обычно рассматривают 3 квартиля: Q1, Q2, Q3. Квартиль Q4 не используют, поскольку слева от него расположены 4/4 наблюдений, т.е. все наблюдения, и он равен хmax.
Верхний квартиль Q3 делит пополам верхнюю часть выборки, те значения переменной, которые больше медианы. Нижний квартиль Q1 делит пополам нижнюю часть выборки, те значения переменной, которые меньше медианы. Нижний квартиль часто обозначают символом 25%, поскольку 25% значений исследуемой переменной меньше значения Q1. Аналогично верхний квартиль Q3 обозначают символом 75%.
Для описания исходных данных часто используют внутриквартильный размах. Это интервал, равный разности верхнего и нижнего квартиля (75% – 25%) и содержащий медиану, в который попадает 50% наблюдений [21].
Дециль – это точка на числовой прямой, которая делит исходную совокупность наблюдений на две части, каждая из которых пропорциональна одной или нескольким десятым частям. Например, D3 показывает, что слева от него расположено 3/10 всех наблюдений.

квантиль3

Q3 = Р75 = К0,75 , а вот децилем быть не может.
Р35 = К0,35 , не является квартилем и децилем.
К0,237 , не является квартилем, децилем, процентилем.

Ниже на рисунке представлено соотношение основных квантилей.

квантиль4


Рис. 2.6. Графическое соотношение основных квартилей, децилей и процентилей
Квантили (особенно процентили) используются для определения частоты встречаемости определенных значений измеряемого признака или для выделения подгрупп и отдельных испытуемых, наиболее типичных или нетипичных для данного множества наблюдений [18].


Вопросы для самоконтроля:
1. Дайте определение генеральной совокупности. Приведите примеры.
2. Дайте определение выборочной совокупности. Приведите примеры.
3. Что такое объем выборки? Как он обозначается?
4. Приведите классификацию выборок в зависимости от их объема.
5. Чем руководствуется исследователь при определении необходимого объема в ыборки?
6. Какая выборка называется репрезентативной?
7. Что такое выборка стандартизации?
8. Перечислите основные правила формирования выборки стандартизации.
9. Перечислите основные способы случайного отбора элементов выборки. Приведите примеры.
10. Что называют вариантой и частотой варианты?
11. Дайте определения относительной частоты и накопленной частоты варианты.
12. Какими свойствами обладают частоты и относительные частоты выборки?
13. Что такое вариационный ряд?
14. Охарактеризуйте распределение частот и последовательность его построения.
15. Охарактеризуйте интервальное распределение и этапы табулирования данных.
16. Перечислите основные способы графического представления данных. Какие задачи они решают?
17. Дайте определение полигона частот и опишите последовательность его построения.
18. Дайте определение гистограммы и опишите последовательность ее построения.
19. Дайте определение точечной диаграммы и опишите последовательность ее построения.
20. Как построить полигон частот по гистограмме и точечной диаграмме?
21. Перечислите основные виды диаграмм, которые используются для наглядного представления данных с помощью программных пакетов. Чем определяется выбор вида диаграммы исследователем?
22. Какие правила должен соблюдать исследователь при графическом представлении данных?
23. Что такое квантиль? Приведите примеры квантилей.
24. Дайте определение квартиля. Приведите примеры.
25. Что такое внутриквартильный размах?
26. Дайте определение дециля. Приведите примеры.
27. Дайте определение процентиля. Приведите примеры.
28. Представьте графически отношение между основными квантилями.

Источник: Калачева. И. В. Статистические методы в психологии [Электронный ресурс] : учебно-методическое пособие / И. В. Калачева. – Могилев : МГУ имени А. А. Кулешова

 

Поиск

Яндекс.Метрика
Все права защищены. При при копировании материалов сайта, обратная ссылка, обязательна! Варианты ссылок:
HTML код:

Код для форумов:


Уважаемые пользователи и посетители сайта!
Спасибо за то, что вы присылаете материал на сайт «Ваш психолог. Работа психолога в школе» по адресу sait.vashpsixolog собачка mail.ru Убедительная просьба, обязательно указывайте автора или источник материала. На многих материалах авторство потеряно, и, если вы, являетесь автором одного из них, пришлите письмо с точной ссылкой на материал. Если на ваше письмо, вы не получили ответ, напишите еще раз, т.к. письма иногда попадают в спам и не доходят.
Смотрите внимательно: авторство или источник указываются, чаще всего, в конце материала (если материал разбит на страницы, то на последней).
С уважением, администрация.