Страница 3 из 16
6. ТАБУЛИРОВАНИЕ ДАННЫХ
Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называется вариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке. Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа: 1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный. R= хmax – xmin = x(n) - x(1), где R – размах выборки. 2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа. k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2 . Пример: n=32, k1=32/5=6,4; k2 =32/6=5,3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов. h= R/k, где h – ширина. Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8,3=8 3 этап – определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.
|
левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе. h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56. 4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7,5; k2=38/6=6,3 ; k=7. Находим ширину:h=R/k; h= 68/7=9,7=10.
Границы интервалов |
Частоты
|
40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120
|
11 2 1111 4 11111 5 11111111 8 1111111 7 1111111 7 1111 4 1 1
|
|
38
|
Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке. Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:
zi |
z1
|
z2
|
...
|
zk
|
ni
|
n1
|
n2
|
...
|
nk
|
z1, z2, …, zn - различные значения элементов исходной выборки. x1, х2, …, хn k < n n1, n2, …,nk – частота встречаемости того или иного различного значения в выборке. Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки. 4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26; в виде вариационного ряда (по возрастанию):1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12. В виде частотного ряда:
z(i) |
1
|
2
|
4
|
5
|
6
|
7
|
8
|
10
|
11
|
12
|
n(i)
|
3
|
1
|
2
|
1
|
3
|
1
|
3
|
4
|
1
|
7
|
n=26 (общее количество) ; к=10. Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.
|