Страница 5 из 16
9. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение. Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду. 1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды. 4, 2, 6, 7, 5, 10 – не имеет моды. 4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды. 4, 2, 4, 2, 4, 2, - не имеет моды. 4, 4, 4, 4, 4 – мода равняется 4 хmod=4. 2 ситуация. Когда два соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин. 1, 4, 3, 3, 6, 2, 8, 2, 10 1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка. Хmod= (2+3):2=2,5 1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5 1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена. 3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной). Пример: 4, 2, 3, 6, 4, 2 2, 2, 3, 4, 4, 6 4, 2, 3, 6, 4, 2, 6 2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5 2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4 4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6 Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько. 4, 4, 4, 2, 6, 7 – хmod=4 Медиана – это такое значение, которое делит упорядоченную выборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md. xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль). При вычислении медианы возможны две ситуации: 1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в середине упорядоченной выборки. 3, 8, 6, 5, 4 3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5. 2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки. 2, 3, 5, 8, 7, 10 2, 3, 5, 7, 8, 10 хmed=(5+7):2=6 хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше. Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:
Границы интервалов |
Частоты
|
Накопленные частоты
|
4-6 6-8 8-10 10-12 12-14
|
2 5 4 13 3
|
2 7 11 24 27
|
13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11. Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х. x=(x1+x2+…+xn) : n= xi : n n xi=x1+x2+...+xn i=1 48 х6+х7+…+х48= хi i=6 21 y4+y5+…+y21= yk k=4 n 2 2 2 2 xi = x1 + x2 +...+ xn i=1 Если выборка представлена в виде частотного ряда
zi
|
z1
|
z2
|
...
|
zk
|
ni
|
n1
|
n2
|
...
|
nk
|
k k x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni i=1 i=1 Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3 xmod=3 1, 1, 2, 3, 3, 3, 4, 5, 6, 7 n=10 xmed=(3+3):2=3 x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5 Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:
zi
|
2
|
3
|
4
|
5
|
7
|
10
|
|
ni
|
3
|
1
|
2
|
3
|
4
|
2
|
=15
|
xmod=7 (самое большое число во второй строчке) n=15 xmed=5 x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33
Свойства среднего значения. 1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245. 2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225 0 1 3 5 хнов.=(0+1+3+5):4=9:4=2,25 хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25 3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120 х=(2+3+5+8):4=18:4=4,5 240. 360, 600, 960 хнов.=4,5 120=540 Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)
|
А
|
В
|
С
|
Д
|
1
|
…
|
|
…
|
|
2
|
…
|
|
…
|
|
3
|
…
|
|
…
|
|
…
|
…
|
|
…
|
|
38
|
…
|
|
…
|
|
К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод). Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон) Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции. 1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7. 2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3. 3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n. 4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду. Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:
|
С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом. 1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7 1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7 Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.
|