Нормальное распределение в психологии. Нормальное распределение и его параметры. В математической обработке

Если мы применяем параметрические методы (к примеру, формулу для расчета коэффициента корреляции Браве-Пирсона или дисперсионный анализ) которые следует применять только тогда, когда известно или доказано, что распределение признака является нормальным (Суходольский Г.В., 1972; Шеффе Г., 1980 и др.), то в этом случае нам необходимо убедиться в нормальности распределения результативного признака. Нормальность распределения результативного признака можно проверить путем расчета показателей асимметрии и эксцесса и сопоставления их с критическими значениями (Пустыльник Е.И., 1968, Плохинский Н.А.. 1970 и др.). Рассмотрим применение метода Е.И. Пустыльника на примере.
Действовать будем по следующему алгоритму:
рассчитаем критические значения показателей асимметрии и эксцесса по формулам Е.И. Пустыльника и сопоставим с ними эмпирические значения;
если эмпирические значения показателей окажутся ниже критических, сделаем вывод о том, что распределение признака не отличается от нормального.
Расчет эмпирических показателей асимметрии и эксцесса будем производить по формулам данным ранее.
Сначала сделаем расчет промежуточных значений, который удобно выполнять поэтапно, занося данные в таблицу (Таблица 3.6.).
Таблица 3.6. Расчет промежуточных значений № (*.¦ - *) (х. - х)2 (*, - *) (Л, -*)4 1 и 0,94 0,884 0,831 0,781 2 13 2,94 8,644 25,412 74,712 3 12 1,94 3,764 7,301 14,165 4 9 -1,06 1,124 -1,191 1,262 5 10 -0,06 0,004 -0,000 0,000 6 11 0,94 0,884 0,831 0,781 7 8 -2,06 4,244 -8,742 18,009 8 10 -0,06 0,004 -0,000 0,000 9 15 4,94 24,404 120,554 595,536 10 14 3,94 15,524 61,163 240,982 11 8 -2,06 4,244 -8,742 18,009 12 7 -3,06 9,364 -28,653 87,677 13 10 -0,06 0,004 -0,000 0,000 14 10 -0,06 0,004 -0,000 0,000 15 5 -5,06 25,604 -129,554 655,544 16 8 -2,06 4,244 -8,742 18,009 Суммы 161 102,944 30,468 1725,467
Для расчетов в таблице, необходимо значение среднего арифметического, которое вычисляется по формуле:
Л = - -¦¦¦-
п
где Xj - каждое наблюдаемое значение признака;
п - количество наблюдений. В данном случае:
* = 10,06 16
Стандартное отклонение (сигма) вычисляется по формуле:
п- 1
где х^ - каждое наблюдаемое значение признака; х - среднее значение (среднее арифметическое); п " количество наблюдений. В данном случае:
ст =
,02"944 = Д893 = 2,62
V 16-1
Подставляя в формулы для расчета А и Е полученные значения n, с и соответствующие
значения из таблицы, получаем:
. +30,468 Л _
А = г = +0,106
16 2,62
16 2,62
Теперь рассчитаем критические значения для показателей А и Е по формулам Е.И. Пустыльника:
V(« + l)-(n + 3)
Ар =3"- V "
Е«Р ~5 Л|/_ . ,42
24 я (я - 2) (я - 3) (и + I)2 (я + 3) (и + 5) где п - количество наблюдений.
В данном случае:
(16 + 1) (16 + 3) V 323
I *qrrr
89
-кр
I 2416-(16-2) (16-3) _5 169888 ?кр_5"^(16 + 1)2-(16+3)(16 + 5) V115311
Аамп=0,Ю6
"-эмп^-гл-кр
Еэмп -0,71 1 Еэмп^Екр
Так как эмпирические значения А и Е меньше критических значений, то можно сделать следующий вывод: распределение результативного признака в данном примере не отличается от нормального распределения.

Распределением называется закономерность встречаемости признака и разных его значений. Статистическое распределение может иметь графическое представление в виде полигона частот (ломаной линии, соединяющей точки; гистограммы; графика). Кривые распределения бывают одновершинные и многовершинные. Оценка типа распределения выступает в форме проверки нормальности эмпирического распределения. Форма распределения является некоторой обобщенной характеристикой выборки.

Распределение частоты полученных результатов в виде графиков и гистограмм дает важную предварительную информацию о форме распределения признака, а именно о том, какие значения встречаются реже, какие чаще, насколько выражена изменчивость признака. Выделяют следующие типичные формы эмпирического распределения.

Равномерное распределение - когда все значения встречаются с одинаковой частотой.

Симметричное распределение - когда с одинаковой частотой встречаются крайние значения признака.

Асимметричное распределение - может быть левосторонним (когда преобладает частота малых значений) или правосторонним (когда преобладает частота больших значений).

Нормальное распределение - идеальный стандарт распределения, когда крайние значения встречаются редко и частота встречаемости постепенно повышается от крайних к серединным значениям признака.

Нормальный закон распределения играет важнейшую роль в применении математико-статистических методов в психологии. Он лежит в основе измерений, разработки тестовых шкал, методов проверки гипотез.

Нормальное распределение - вид распределения переменных, характеризуемый тем, что крайние значения признака в нем появляются достаточно редко, а значения, близкие к средней величине, - достаточно часто. Нормальным такое распределение называется потому, что оно очень часто встречалось в естественнонаучных исследованиях и казалось «нормой» всякого массового проявления признаков. Это распределение следует закону, откры-

Рис. 1.

тому в разное время: Муавром в 1733 г. в Англии, Гауссом в 1809 г. в Германии и Лапласом в 1812 г. во Франции. График нормального распределения представляет симметричную унимодальную колоколообразную кривую (верхняя часть колокола), осью которой является вертикаль (ордината), проведенная через точку 0.

Закон нормального распределения имеет следующую формулировку: «Если индивидуальная изменчивость некоторого свойства есть следствие действия множества причин, то распределение частот для всего многообразия проявлений этого свойства в генеральной совокупности соответствует кривой нормального распределения» (Наследов А. Д., 2007, с. 51).

Чтобы установить, подчиняется ли эмпирическое распределение изучаемой величины нормальному закону, необходимо сопоставить сведения о свойствах этой величины и условиях ее изучения со свойствами функций нормального распределения. Это сопоставление вначале является качественным, а потом осуществляется специальными количественными методами (Сыромятников И. В., 2005).

Основой качественного сопоставления является такое условие появления нормального распределения, как действие на изучаемую случайную величину большого числа независимых, одинаковых случайных факторов.

Подтверждение нормального закона распределения будет означать, что полученная эмпирическая кривая не требует нормализации. Распределение можно рассматривать как репрезентативное по отношению к генеральной совокупности и на его основе определить репрезентативные оценочные нормы.

Если распределение отличается от нормального, то это означает, что либо выборка нерепрезентативна генеральной совокупности, либо измерения произведены не в шкале равных интервалов.

Наиболее важным общим свойством разных кривых нормального распределения является одинаковая доля площади под кривой между одними и теми же двумя значениями признака, выраженными в единицах стандартного отклонения.

Для любого нормального распределения существуют следующие соответствия между диапазонами значений и площадью под кривой:

М ± о соответствует 68 % (точно - 68,26 %) площади;

М ± 2о соответствует 95 % (точно - 95,44 %) площади;

М±3а соответствует 100 % (точно - 99,72 %) площади.

Единичное нормальное распределение устанавливает четкую взаимосвязь стандартного отклонения и относительного количества случаев в генеральной совокупности для этого распределения. Например, зная свойства единичного нормального распределения, мы можем ответить на следующие вопросы. Какая доля генеральной совокупности имеет выраженность свойства от -а до +а. Или какова вероятность того, что случайно выбранный представитель генеральной совокупности будет иметь выраженность свойства, на За превышающую среднее значение. В первом случае ответом будет 68,26 % всей генеральной совокупности, так как отклонение от среднего значения X на а включает 0,6826 площади распределения. Во втором случае ответ - (100-99,72)/2 = 0,14%.

Полезно знать, что если распределение является нормальным, то:

90 % всех случаев располагается в диапазоне значений М ± 1,64 о;
95 % всех случаев располагается в диапазоне значений М± 1,96 а;
99 % всех случаев располагается в диапазоне значений М±2,58 о.

Большинство экспериментальных исследований, связанных с измерениями, в том числе и в психологии, способных принимать практически любые значения в заданном интервале (что зависит от величины выборки) описываются моделью случайных непрерывных величин и соответственно – непрерывном распределении.

Одним из непрерывных распределений, имеющим основополагающую роль в математической статистике является нормальное (или Гауссово) распределение. Нормальное распределение является самым важным в статистике, что объясняется рядом причин:

Многие экспериментальные наблюдения можно успешно описать с помощью близкого к нормальному распределению.

Большинство распределений, связанных со случайной выборкой, при увеличение объёма последней переходят к нормальному распределению.

Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивающих его широкое применение в статистике:

Имеет колоколообразную форму, симметричную относительно точки M=X,cточками перегиба, абсциссы которых отстоят отMна +.
Для нормального распределения математическое ожидание, дисперсия и стандартное отклонение генеральной совокупности равно (сигма).
нормальное распределение полностью определяется двумя параметрами: математическим ожиданием (средним) и стандартным отклонением.
мода, медиана и среднее арифметическое нормального распределения совпадают и равны математическому ожиданию M.

Исходя из того, что нормальное распределение полностью определяется двумя параметрами Mи(сигма), то при измерении этих параметров можно получить целое семейство нормальных кривых. Чтобы избежать неудобств, связанных с расчётами для каждого конкретного случая, в психологии используют так называемоенормированное (или чаще стандартное)нормальное распределение , которое и применяется для стандартизации шкал (психометрических линеек).

Нормированное нормальное распределение, имея параметры M= 0 и= 1, имеет колоколообразную форму.

Особенностью данной кривой является то, что площадь под кривой имеет постоянное значение (как показано на рисунке 1). Эта особенность является основной для стандартной интерпретации в эмпирических исследованиях с целью постановки психологического диагноза: так при изучении проявления, какого – либо признака, при попадании индивидуального результата в диапазон составляет 68,2% от всех случаев (т.е. у 68,2% испытуемых генеральной совокупности, степень проявления изучаемого признака будет находиться именно в этом диапазоне), что может оцениваться как среднее проявление изучаемого признака и интерпретироваться какнорма , в проявлении признака.

Рис.1. Процентное распределение случаев под нормальной кривой.

Стандартизированные шкалы.

Показатели психометрических тестов, применяемых в практической психологии с целью постановки психологического диагноза, переводятся из первичных ("сырых" – не подвергнутых обработке) и полученных испытуемым по данному тесту в стандартные показатели, которые рассчитываются на основе линейного или нелинейного преобразования первичных показателей (при условии их распределения близкого к нормальному закону). При этом исторически сложилось наличие ряда наиболее распространённых стандартных показателей, связанных с особенностями преобразования, и отсюда – наличие "семейства" стандартных шкал, переводимых друг в друга и несводимых кZ-шкале.

Z-шкала образуется в результате центрирования, понимаемого как линейная трансформация величин признака, при которой средняя величина распределения становится равная нулю, и процедуры нормирования посредством среднеквадратических отклонений.

Z-шкала состоит из непрерывного континуумаZ-показателей, определяемых в виде разности между индивидуальными первичными результатами и средним значением для генеральной совокупности, делённые на стандартное отклонение распределения.

где X– необработанные, сырые баллы,

– Среднее,

 – стандартное отклонение.

При этом полученная Z-шкала будет иметь среднюю точкуM=0 и единицу измерения (масштаб) 1стандартного (единичного) нормального распределения как показано на рисунке 2.

Z-показатель может принимать как положительные, так и отрицательные значения. Большинство случаев (99,72%) значения показателей уменьшаются в пределах -3+3 и могут принимать любые значения. К достоинствамZ-показателя относится простота интерпретации и сравнения индивидуальных результатов: чем больше показатель, тем дальше от среднего (нормы) он может находиться, при этом знак указывает (+) – выше среднего; (-) – ниже среднего. Но недостатки, особенно в области прикладной (практической) психологии, к которым относят: сложность интерпретации для испытуемого (клиента), крупность масштаба единиц измерения, оперирование отрицательными и положительными величинами, побудили разработчиков тестов использовать нормализованные преобразования по форме:
, гдеZp– преобразованный стандартный показатель;b– стандартное отклонение преобразованного распределения;Z–Z-показатель;A– среднее значение преобразованного распределения. Такой переход правомерен, так как стандартная шкала представляет собой интервальную шкалу, что позволяет выполнить линейные преобразования, при условии, что константыbиA– действительные числа.

Разберём процедуру получения преобразованных стандартных показателей на ряде примеров:

Было проведено эмпирическое исследование уровня уверенности в себе (опросник Рейзаса – 0-90) на выборке учителей (50 человек) из различных школ г. Н. Новгорода. В результате первичной статистической обработки были получены результаты:

Распределение первичных результатов ("сырых баллов") по форме близко к нормальному распределению (после процедур группировки и анализа кривой распределения – полигона частот).

Вычислены характеристики для данной выборки –

Предлагается провести линейное преобразование и определить для различных шкал значение одного первичного результата X=45 ("сырой балл" одного из испытуемых).

Преобразование в Z-показатель производится по формуле:

где Z– стандартныйZ-показатель;

X– первичный результат тестового измерения;

M x – средняя величина результатов выборки (в нашем случае медианаMe);

S x – стандартное отклонение для данной выборки. Найдите полученный показатель наZ-шкале (рисунок 2) и сделайте вывод о проявлении изучаемого признака у данного испытуемого.

Преобразование в T-шкалу для опросников Мак-Колла производится по уже известной формуле (Zp=A+bZ), подставляя вместо константA=M = 50;b== 10 – полученные Мак-Коллом в результате нормализации эмпирических распределений собственных опросников, переведём результат испытуемого (X=45) в стандартныеT-баллы по формуле:

Таким образом, результат – 25 T-баллов (стандартных баллов).

Преобразование в шкалу станайнов Гилфорда (англ.standardnine– стандартная девятка), где оценкам присваивают целые значения от 1 до 9, приM = 5, = 2 производятся по формуле:

В данном случае результат испытуемого будет 1 станайн (т.к. полученный результат C = 0 попал в интервал 1-го станайна).

Данная C-шкала обладает таким замечательным свойством (см. рисунок 2), что в 1 и 9 станайны попадает по 4% испытуемых всей выборки, во 2 и 8 станайны – по 7%, и т.д. Таким образом, при ранжированном упорядочивании в сторону возрастания первичных тестовых результатов и условии их нормального (или близкому к нормальному) распределения первым 4% данных присваивается 1 станайн, последующим 7% данных – 2-ой станайн, следующим 12% данных – 3-й станайн и т.д., таким образом, данные будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

Преобразование в шкалу стенов Кэттела (от англ.standardten– стандартная десятка) для опросника 16PF, где оценкам присваивают целые значения от 1 до 10, приM = 5;= 2 производят по формуле:

В данном случае результат испытуемого попадает в интервал 1-го стена.

В тестировании интеллекта используются нормализованные шкалы:

Шкала Векслера представленнаяIQ-стандартными баллами:

Шкала структуры интеллекта Амтхауэра по формуле:

С целью интерпретации данных для работников образования представляет интерес шкала Линерта:

Шкала школьных оценок Линерта:

Рис.2. Нормальная кривая и стандартные показатели.

1. Понятие нормального распределения. Историческая справка

2. Стандартизация и нормализация данных

3. Проверка нормальности распределения

4. Разработка тестовых шкал

5. Функция Лапласа и ее использование. Правило 3σ.

1. Нормальный закон распределения играет важнейшую роль в применении статистических методов в психологии. Он лежит в основе измерений, разработки тестовых шкал, методов проверки гипотез.

Нормальное распределение подчиняется закону, который был открыт в разное время учеными Муавром (в 1733 г.), Гауссом (в 1809 г.) и Лапласом (в 1812 г.)

Де Муавр пытался решить следующую задачу: предположим, что подбрасывается симметричная монета 10 раз. Какова вероятность того, что в результате подбрасываний “орел” может выпасть 0 раз, 1 раз, …, 10 раз? Вероятности можно вычислить (по формуле Бернулли), но вычисления для большого количества подбрасываний становятся достаточно трудными. Задача, которую ставил перед собой де Муавр, состояла в том, чтобы найти уравнение кривой, которая бы хорошо аппроксимировала кривую, полученную соединением концов отрезков на графике распределения вероятностей получения определенного числа “орлов” при 10 подбрасываниях монеты:

Если бы такую кривую удалось бы найти, то проблемы вычисления вероятностей можно было бы замениять простым считыванием точек с кривых или просмотром чисел в математической таблице. Ему удалось показать, что уравнение кривой, проходящей совсем близко от кривой, соединяющей концы точек на графике (рис.1) имеет следующую формулу:

f(x)= , (*)

где π=3,14, е=2,718 – постоянные величины. Эта формула и соответствующая ей кривая впоследствии получили название нормального распределения.

История применения закона нормального распределения в социальных и биологических науках начинается с работы бельгийского ученого А.Кетле «опыт социальной физики» (1835г.). В ней он доказывал, что такие явления, как продолжительность жизни, рост человека, возраст вступления в брак и появления первого ребенка и т.д., подчиняется строгой закономерности, которую он назвал «законом уклонения от средней величины». Ф.Гальтон, двоюродный брат Ч.Дарвина, проявление нормального закона рассматривал в связи с биологической изменчивостью, наследственностью и отбором. В дальнейшем он и его последователи доказали, что психологические особенности, например способности, также подчиняются нормальному закону. Поэтому дальнейшее развитие измерительного подхода в психологии и статистического аппарата проверки гипотез происходило на базе этого общего закона.

Т.е., начиная со второй половины XIX века измерительные и вычислительные методы в психологии разрабатываются на основе следующего принципа: если индивидуальная изменчивость некоторого свойства есть следствие действия множества причин, то распределение частот для всего многообразия проявлений этого свойства в генеральной совокупности соответствует кривой нормального распределения . Это и есть закон нормального распределения.

2. Каждому биологическому (в т.ч. и психологическому) свойству соответствует свое распределение в генеральной совокупности. Чаще всего оно является нормальным.

График уравнения (*) – симметричная, колоколообразнаякривая, которую называют нормальной кривой с параметрами М и σ, которые отличают друг от друга бесконечное множество нормальных кривых. Величина М соответствует среднему распределения частот генеральной совокупности (математическому ожиданию) и задает пололжение кривой на числовой оси, а σ – стандартному отклонению этого распределения и задает ширину этой кривой.

2 3 σ 1 =σ 3 , σ 1 <σ 2

Если М=0, σ=1, то такое нормальное распределение называется нормированным (стандартным, единичным нормальным), т.е.

Все многообразие нормальных распределений может быть сведено к одной кривой, если применить стандартизацию данных ко всем возможным измерениям свойств. Стандартизация – это процедура унификации, т.е. приведение к единым нормативам.

Стандартизация или z-преобразование данных – это перевод измерений в стандартную Z-шкалу со средним М z =0 и σ z =1. Сначала для переменной, измеренной на выборке, вычисляется и стандартное отклонение σ х. Затем все значения переменной x i пересчитываются по формуле: z i = . Величина z= называется единичным стандартным отклонением .

В результате преобразованные значения (z-значения) непосредственно выражаются в единицах стандартного отклонения от среднего. Если для одной выборки несколько признаков переведены в z-значения, появляется возможность сравнения уровня выраженности разных признаков у того или иного испытуемого. Для того, чтобы избавиться от неизбежных отрицательных и дробных значений, можно перейти к любой другой известной шкале: IQ ( σ=15), Т-оценок ( σ=10), 10-бальной стенов - ( σ=2) и др. Перевод в новую шкалу ос уществляется путем умножения каждого z-значения на заданную σ и прибавления среднего:

s i = σ s z i + s .

При стандартизации каждое свойство будет иметь среднее 0 и стандартное отклонение 1, т.е. будет являться единичным нормальным распределением, которое используется как стандарт (эталон).

Свойства стандартного распределения:

1. Единицей измерения является стандартное отклонение.

2. Кривая приближается к оси Z по краям асимптотически – никогда не пересекая ее.

3. Кривая симметрична относительно М=Z=0. Ее Е k =А s =0, т.к. она симметрична и средневершинна.

4. Кривая имеет характерный изгиб: точка перегиба лежит точно на расстоянии в одну σ от М.

5. Площадь между кривой и осью Z равна 1.

3 -2 -1 0 1 2 3 Z

Вершина нормированной кривой f≈0,3989.

Пятое свойство объясняет название единичное нормальное распределение, благодаря нему площадь под кривой интерпретируется как вероятность, или относительная частота. Действительно, вся площадь под кривой соответствует вероятности того, что признак примет любое значение из всего диапазона его изменчивости (от - ∞ до +∞).

Нормированная кривая позволяет увидеть общее свойство любых кривых нормального распределения – это то, что они имеют одинаковую долю площади под кривой между одними и теми же двумя значениями признака, выраженными в единицах стандартного отклонения, а именно:

1. ≈68% площади под кривой находится в пределах одной σ от среднего, т.е. М ;

2. ≈95% площади под кривой находится в пределах двух σ от среднего, т.е. М ;

3. ≈99,73% площади под кривой находится в пределах трех σ от среднего, т.е. М .

М-3σ М-2σ М-σ М М+σ М+2σ М+3σ Z

Для единичного нормального распределения значение Х указывает, что точка отстоит от среднего на Х единиц. Зная свойства единичного нормального распределения, можем ответить на вопросы: какая доля генеральной совокупности имеет выраженность свойства, например, от –σ до +σ; или какова вероятность того, что случайно выбранный представитель ген. совокупности будет иметь выраженность свойства, на 3σ превышающую среднее значение и т.д. В первом случае – это 68%, а во втором – (100 – 99,72)/2=0,14%. (См. график)

Существует специальная таблица, позволяющая определить площадь под кривой справа от любого положительного значения z. Пользуясь ею, можно определить вероятность встречаемости значений признака из любого диапазона. Это широко используется при интерпретации данных тестирования.

Пример 1. Значение IQ по шкале Векслера (М=100, σ=15) некоторого испытуемого равнно 125. Вопрос: как часто встречаются значения IQ выше 125?

Перейдем от шкалы IQ к единицам стандартного отклонения:

z=(125 – 100)/15=1,66.

По таблице находим площадь под кривой справа от этого значения, она равна 0,0485. Это значит, что IQ 125 и выше встречается редко – менее, чем в 5% случаев.

Пример 2. Какова вероятность того, что случайно выбранный человек будет иметь IQ по шкале Векслера в интервале от 100 до 120.

В единицах стандартного отклонения z 1 =0 и z 2 =1,33. Площадь справа от z 1 равна 0,5 и справа от z 2 - 0,918, тогда площадь между z 1 и z 2 равна 0,918– 0,5 = 0,4082. Т.е. вероятность того, что случайно выбранный человек будет иметь IQ по шкале Векслера в интервале от 100 до 120, равна 0, 41.

Иногда складывается неправильное мнение, что существует обязательная связь между нормальным распределением – идеальным описанием некоторых распределений частот – и практически любыми данными. Нормальная кривая – это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была (и не будет) получена совокупность данных, которые бы были точно нормально распределены. Но иногда полезно утверждать, допуская незначительную ошибку, что рассматриваемая переменная распределена нормально. Существует множество методов, позволяющих анализировать данные без всякого предположения о виде распределения, как выборки, так и генеральной совокупности. Но есть три важных аспекта применения нормального распределения:

1. Проверка нормальности выборочного распределения для принятия решения о том, в какой шкале измерен признак – в метрической или порядковой.

2. Разработка тестовых шкал.

3. Статистическая проверка гипотез, в том числе – при определении риска принятия неверного решения.

3 . Для проверки нормальности используют различные процедуры, позволяющие выяснить отличается ли выборочное распределение измеренной величины от нормального или нет. Необходимость такого сопоставления возникает, когда мы сомневаемся, в какой шкале представлен признак, что очень важно для выбора методов анализа данных. Если исследователь принимает решение ранжировать данные, принимая их измеренными в порядковой шкале, то он может потерять часть исходной информации о различиях между испытуемыми, о взаимосвязях между признаками и т.д. Кроме того, метрические данные позволяют использовать значительно широкий набор методов анализа.

Как следствие закона нормального распределения можно рассматривать следующий вывод:

Если выборочное распределение не отличается от нормального, то это значит, что измеряемое свойство измерено в метрической шкале (чаще всего в интервальной).

Общей причиной отклонения формы выборочного распределения признака от нормального чаще всего является особенность процедуры измерения: используемая шкала может обладать неравномерной чувствительностью к измеряемому свойству в разных частях диапазона его изменчивости. Например, при измерении некоторого признака при решении задач за определенное время, если задачи простые, то большая часть испытуемых, решит все или почти все задания, и такая процедура измерения будет чувствительна только к тем, кому они достаточно трудны. В итоге получим распределение с правосторонней асимметрией.

Другой причиной отклонения от нормальности может являться наличие экстремальных значений. Такими можно считать значения признака, отличающиеся от среднего более чем на 2σ (при 50) и более чем на 3σ (при Если таких значений не много, то можно исключить из выборки.

Существует несколько способов проверки нормальности, рассмотрим некоторые из них.

Графический способ. Строят либо квантильные графики, либо графики накопленных частот. Квантильные графики строятся следующим образом. Сначала определяются эмпирические значения признака, соответствующие 5,10, …, 95-процентилю. Затем по таблице для каждого их них находятся z-значения (теоретические). Эти два ряда чисел задают координаты точек на графике: эмпирические значения откладываются на оси ОХ, а соответствующие им теоретические – на оси ОУ. Для нормального распределения все точки должны лежать на одной прямой или рядом с ней. Чем ближе точки расположены к прямой, тем больше распределение соответствует нормальному.

Аналогично строятся графики накопленных частот. При этом на оси ОХ через равные интервалы откладываются значения накопленных частот, например 0,05; 0,1;…0,95. Затем определяются эмпирические значения, соответствующие каждому значению накопленной частоты, которые переводятся в z-значения. По таблице определяются накопленные частоты для каждого z-значения, которые и откладываются на оси ОУ. Если точки лежат почти на одной прямой, то данное распределение соответствует нормальному.

Критерии асимметрии и эксцесса . Эти критерии определяют допустимую степень отклонения эмпирических значений асимметрии и эксцесса от нулевых значений, соответствующих нормальному распределению. Величина допустимых отклонений определяется так называемыми стандартными ошибками асимметрии и эксцесса. Для асимметрии и эксцесса стандартные ошибки определяются по формулам: А ssd =3 , Е k sd =5 , где – объем выборки.

Выборочные значения асимметрии и эксцесса не отличаются от нуля, если они не превышают по абсолютной величине значения своих стандартных ошибок. Это и будет признаком соответствия выборочного распределения нормальному закону.

Статистический критерий нормальности Колмагорова-Смирнова . Данный критерий позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность р≤0,05, о данное эмпирическое распределение существенно отличается от нормального, а если р>0,05, то делают вывод о приблизительном соответствии данного эмпирического распределения нормальному.

4 . Тестовые шкалы разрабатываются для того, чтобы оценить индивидуальный результат тестирования путем сопоставления его с тестовыми нормами, полученными на выборке стандартизации. Выборка стандартизации специально формируется для разработки тестовой шкалы – она должна быть репрезентативна генеральной совокупности, для которой планируется применять данный тест. Впоследствии будем считать, что и испытуемый, и выборка стандартизации принадлежат одной и той же генеральной совокупности.

Исходным принципом при разработке тестовой шкалы является предположение о том, что измеряемое свойство распределено в генеральной совокупности по нормальному закону. Поэтому измерение в тестовой шкале данного свойства на выборке стандартизации должно обеспечивать нормальное распределение, а значит, тестовая шкала будет являться интервальной. Если же это не так, то свойство удалось отразить в шкале порядка. Т.е., основная проблема стандартизации теста заключается в разработке такой шкалы, в которой распределение тестовых показателей на выборке стандартизации соответствовало бы нормальному распределению.

Исходные тестовые оценки – это количество ответов на вопросы тестов, время или количество решенных задач и т.д. Это первичные, «сырые» оценки. Итогом стандартизации являются тестовые нормы – таблицы пересчета «сырых» оценок в стандартные тестовые шкалы.

Существует множество стандартных тестовых шкал: z –шкала, стены, процентили, шкала Векслера (IQ) и др. Общим для них является соответствие нормальному распределению, а различаются они только средним значением и стандартным отклонением (который выступает, как масштаб, определяющий дробность шкалы).

4σ -3σ -2σ -σ М +σ +2σ +3σ

Тестовый показатель

4 -3 -2 -1 0 1 2 3

1 2 3 4 5 6 7 8 9 10

Процентили

1 5 10 20 30 40 50 60708090 95 99

Шкала Векслера

(IQ) 55 70 85 100 115 130 145

Стенайны

Общая последовательность стандартизации (разработки тестовых норм – таблицы пересчета «сырых» данных в стандартные тестовые) состоит в следующем:

1) определяется генеральная совокупность, для которой разрабатывается методика и формируется репрезентативная выборка стандартизации;

2) по результатам применения первичного варианта теста строится распределение «сырых» баллов;

3) проверяют соответствие полученного распределения нормальному закону;

4) если распределение «сырых» баллов соответствует нормальному, производится линейная стандартизация;

5) если распределение «сырых» баллов не соответствует нормальному, то производят перед линейной стандартизацией эмпирическую нормализацию или проводят нелинейную нормализацию.

Линейная стандартизация заключается в том, что определяются границы интервалов «сырых» оценок, соответствующие стандартным тестовым показателям. Эти границы вычисляются путем прибавления к среднему «сырых» оценок (или вычитанием из него) долей стандартных отклонений, соответствующих тестовой шкале.

Например. Пусть получено распределение «сырых» оценок, соответствующее нормальному, со средним М х = = 22 и σ х =6. В качестве стандартной тестовой шкалы выбрана 10-бальная шкала стенов, предложенная Р. Кеттелом (М st =5,5; σ st =2). Результатом линейной стандартизации должна быть таблица пересчета из шкалы «сырых» оценок в шкалу стенов. Для этого каждому стандартному значению ставится в соответствие интервал «сырых» оценок. Границы интервала определяются следующим образом. Среднее «сырых» оценок должно делить шкалу стенов пополам (1-5 ниже среднего, 6-10 – выше среднего). Т.е. среднее «сырых» оценок М х ==22 – это граница стенов 5 и 6. Следующая граница справа – отделяющая стены 6 и 7 – отстоит от среднего на σ st /2. Этой границе должна соответствовать граница «сырых» оценок М х + σ х /2= 22+3=25. Аналогично, определяются границы оставшихся интервалов, а границы крайних интервалов остаются открытыми. Результатом являются тестовые нормы – таблица пересчета «сырых» баллов в стандартные тестовые оценки:

Пользуясь этой таблицей тестовых норм «сырой» балл переводят в шкалу стенов, что позволяет интерпретировать выраженность измеряемого свойства.

В общем случае границы интервалов определяются по формуле z-преобразования:

z= = x i = M x + ( ,

где - искомая граница интервала «сырых» баллов, граница интервала в стандартной тестовой шкале, M x , - средние и стандартные отклонения «сырых» баллов (х) и стандартной шкалы (st).

Эмпирическая нормализация применяется, когда распределение «сырых» баллов отличается от нормального. Она заключается в изменении содержания тестовых заданий. Например, если «сырая» оценка – это количество задач, решенных испытуемыми за данное время, и получено распределение с правосторонней асимметрией, то это значит, что слишком большая доля испытуемых решает больше половины заданий. В этом случае необходимо либо добавить более трудные задания, либо сократить время решения.

Нелинейная нормализация применяется, если эмпирическая нормализация невозможна или нежелательна. Тогда перевод «сырых» оценок в стандартные производится через нахождение процентильных границ групп в исходном распределении, соответствующих процентильным границам групп в нормальном распределении стандартной шкалы. Каждому интервалу стандартной шкалы ставится в соответствие такой интервал шкалы «сырых» оценок, который содержит ту же процентную долю выборки стандартизации. Величины долей определяются по площади под единичной нормальной кривой, заключенной между соответствующими данному интервалу стандартной шкалы z-оценками.

Например, для того, чтобы определить, какой «сырой» балл должен соответствовать нижней границе стена 10, необходимо сначала выяснить, какому z-значению соответствует эта граница (z=2). Затем по таблице нормального распределения определяем, какая доля площади под кривой находится правее этого значения (0,023). После этого находим, какое значение отсекает 2,3% наибольших значений «сырых» баллов выборки стандартизации. Найденное значение и будет соответствовать границе 9 и 10 стена.

Пример . Пусть данный тест предполагает решение 20 заданий. Объем выборки стандартизации n=200 человек. Таблица распределения частот «сырых» оценок с правосторонней асимметрией:

В качестве стандартной возьмем шкалу стенайнов, для каждой градации которой известны процентные доли. Исходя их этих процентных долей и таблицы частот, строится таблица тестовых норм. Сначала отбираются 4% испытуемых, решивших наименьшее количество заданий. Это 8 человек, которые решили менее 4 заданий. Это число заданий будет соответствовать 1-му стенайну. Второму – результат следующих 7% (14) испытуемых: от 4 до 6 заданий и т.д. В итоге нелинейной стандартизации – таблица перевода «сырых» баллов шкальные, стенайны:

Изложенные основы психодиагностики позволяют сформулировать математически обоснованные требования к тесту. Тестовая методика должна содержать :

· описание выборки стандартизации;

· характеристику распределения «сырых» баллов с указанием среднего и стандартного отклонения;

· наименование, характеристику стандартной шкалы;

· тестовые нормы – таблицы пересчета «сырых» баллов в шкальные.

5 . Вспомним, нормальное распределение имеет следующую формулу

f(x)= , тогда функция распределения (из теории вероятостей) F(х)= , тогда функция распределения единичного нормального распределения F(х)= . Учитывая симметричность нормированного распределения, рассматривают следующую функцию

Ф(х)= , которая называется функцией Лапласа . Очевидно, что она нечетна, т.е. Ф(-х)=-Ф(х). Значения этой функции определяются по таблице. Эта функция помогает определить вероятность встречаемости значений признака в определенном интервале (а, в).

По теории вероятностей

Р(а<Х<в)= F(в)- F(а)= , если , то получим

Р(а <Х<в)=Ф() - Ф().

Тогда вероятность того, что отклонение значений признака от своего среднего не превысит утроенного стандартного отклонения, будет равна

Р(М-3σ <Х<М+3σ)= Ф() - Ф()= Ф() - Ф() = Ф()+ Ф() =2Ф(3)≈2 0,4987≈0,9973.

Т.е. вероятность того, что отклонение значений признака от своего среднего превысит утроенное стандартное отклонение, очень мала 0,0027, т.е. это может произойти только в 0,27% случаев, т.е. практически невозможно. В этом заключается правило 3σ :

если признак распределен по нормальному закону, то абсолютная величина его отклонения от своего среднего не превосходит утроенного среднеквадратичного отклонения .

На практике это используется следующим образом: если распределение изучаемой величины неизвестно, но правило 3σ выполняется, то есть основание полагать, что изучаемый признак распределн нормально (в противном случае – нет).

Закон нормального распределения, или как его еще называют – кривая Гаусса, является одним из основных столпов в теории вероятности. Его применение можно проследить практически во всех сферах современного человеческого знания, от физики до философии. Я же попробую в кратком обзоре на примерах, объяснить как можно применить этот принцип, при аналитике народных процессов в социологии.

Хотя точное вычисление кривой Гаусса и требует решения довольно сложного уравнения, в этом тексте знания высшей математики вам не потребуются. И так, давайте для начала поймем, в общих чертах, в чем смысл этого графика, на примере изображения, показанного в заголовке статьи. Закон нормального распределения показывает вероятность некоторого значения из некоторой градации этих самых значений. Ось X является цифровым представлением этой самой градации и уходит от нуля в обе стороны до относительной бесконечности (но в некоторых случая она жестка ограничена). Ось Y является показателем величины вероятности значения из градации и может быть от нуля до одного. Сложно? Нет, все просто, взгляните вот на этот график и вам станет все довольно ясно.

Допустим, вы идете по улице, хотите спросить что-то умное у прохожего, и обращаясь к случайному человеку, вы можете быть уверены в том, что с максимально вероятностью он будет человеком среднего ума, в меньшей вероятности, что он будет дураком или умником и в практически минимальной возможности – гением или откровенным тупицей.

Одним словом этот график показывает вероятностное распределение интеллектуальности общества. Таким образом, обратившись к любой позиции на графике, можно сказать, какова вероятность при переборе людей, встретить гения, умного или дурака.

Естественно этот график является просто примером, и может не иметь никакого отношения к реальности. Для реальной же картины подобного рода, должен работать целый статистический комитет. Как можно понять из приведенного примера, график может деформироваться, в ту или иную сторону, и представлять уже иную вероятность. Показанный же график, называется – Стандартным нормальным распределением, потому что такая форма кривой вероятности установлена самой природой. И если мы обратимся в мир биосферы, и будем оценивать разные вероятности, то обнаружим, что данная форма кривой будут доминировать.

В определении ЗНР я указал, что ось X уходит по обе стороны в бесконечность. Дело в том, что оценка, каких либо общественных величин методом живой статистики, является явлением, находящемся только в настоящем времени. Общество не стоит на месте, оно постоянно движется, развивается или деградирует, поэтому сейчас оно одно, завтра другое, а значит, будет и другая форма и положение кривой Гаусса. Если не уходить с позиции стандартного нормального распределения, то для демонстрации вышесказанного можно опереться на ту же кривую вероятности интеллектуальной развитости общества.

График представляет собой пример оценки интеллектуального развития общества за некоторый необъявленный промежуток времени. Зеленая кривая, находящаяся на нуле, показывает положение дел «раньше». Красная и синяя кривые показывают момент «сейчас». Две кривые (красная и синяя) показаны исключительно в качестве иллюстрации, так как в реальной ситуации будет только одна из них, ведь общество не может одновременно развиться и деградировать по одному и тому же критерию оценки. Разбор одной из кривых, например красной, покажет вот такую картину. Общество поумнело на две единицы градации, что стало причиной того, чтоте люди, которые раньше считались очень умными, стали обычным явлением, те, кого раньше считали гениями, стали частенько встречаться и уже не являются чем-то необычным, а не очень умные в былые времена люди стали считаться чуть ли не дегенератами. Полностью противоположная картина будет при оценке синей кривой. Ее кстати очень хорошо продемонстрировал фильм «Идиократия», в котором «человек со средним умом» попав в будущее, оказался умнейшим человеком на земле, потому что за столетия, общество умственно деградировало настолько, что уровень дегенерата в нем стал среднестатистическим.

На основе понимания и умения выстраивать эти графики, можно не только оценивать движение общества в прошлом, но и строить планы на будущее на основе осознания того, как должно быть. Например, усиленно рассматриваемую мной в последнее время проблему алкоголизации общества, можно привести вот в такой форме. (Это чисто мое субъективное мнение, сформированное не математической статистикой, а тем, что я лично вижу вокруг себя.)

Тут присутствует жесткое ограничение оси X , за пределами которого, толкование кривой становится бессмысленно. На приведенном графике я определил четкие границы рассматриваемого явления – от идейного трезвенника до запойного алкоголика. Ясно, что попытка оценить точку кривой за этим диапазоном невозможна, из-за отсутствия величины оценки. В умственном развитии, конечно, тоже есть границы диапазона, но правда такова, что он настолько велик, что проще определить его как бесконечность, нежели как ограниченную величину. Так же на графике видна деформация одной из кривых, что является естественным положением дел в отношении описываемого явления.

И так, на графике красной кривой, показано приблизительное положение дел с алкоголизацией Российского общества на данный момент времени. Зеленой линией демонстрируется положение вещей с употреблением алкоголя «как должно быть» в нормальном (здоровом и думающем) обществе. Таким образом, мы видим, очень печальное положение вещей в данный момент. Если начать перебирать людей поштучно, мы выясним, что наиболее часто среди них будут встречаться пассивные алкоголики (термин определенный мной в прошлой статье «Алкогольная арифметика с картинками», обозначающий человека регулярно (через день, раз в неделю, раз в месяц, неважно, важно то, что ему это нравиться и он на этом сидит) выпивающего независимо от количества выпиваемого).Приблизительно с равной вероятностью будут встречаться позволяющий себе выпить (т. е. равнодушные – предложат, выпьет, не предложат не будет) и алкоголики. С еще чуть меньшей вероятностью – совсем падшие и запойные алкоголики. Трезвенник при таком положение вещей - откровенный рецидив, а идейный трезвенник, так вообще явление крайне редкое. (Идейный трезвенник – человек который не просто ведет трезвый образ жизни, а несет при этом некую идеологию, например, прямо заявляет о принципах здорового общества.)

В нормальном же обществе (зеленая кривая), трезвенник должен быть нормой. С минимальным отрывом от него должен идти идейный трезвенник. А вот равнодушный человек, позволяющий не отказаться от рюмочки, уходит в область рецидива, и становиться чуть ли не врагом общества. Пассивных алкоголиков как вы понимаете в том обществе вообще нет, так как они не смогут в нем существовать (они будут откровенными врагами народа, из-за того что понижают этику и демографию общества). Последнее как раз и выражено деформацией зеленой кривой Гаусса.

Ясное дело, что в этом крохотном тексте просто невозможно уложить всю полноту возможных вариантов применения закона нормального распределения в социологии. Но я надеюсь, что почву для размышлений я дал.

На мой взгляд, знанием данного закона, должен обладать любой человек, хотя бы чуть-чуть задумывающийся о своем будущем. А ведь, как известно – свое будущее, прямо зависит от будущего общества в целом, т. е. среды, в которой мы все живем. И если каждый будет знать, куда, а главное как нужно идти, то это уже гарантия уверенности, что мы идем к чему-то лучшему.

________________________________________ ________________________________________ ____

Нормальное распределение в психологии. Нормальное распределение и его параметры. В математической обработке

Стандартизированные шкалы.