Типы статистических шкал. Типы и виды данных. Шкалы измерения. Унифицированное представление разнотипных данных

1.1.2. Основные шкалы измерения

Почему необходима теория измерений? Теория измерений (в дальнейшем сокращенно ТИ) является одной из составных частей прикладной статистики. Она входит в состав статистики объектов нечисловой природы .

Использование чисел в жизни и хозяйственной деятельности людей отнюдь не всегда предполагает, что эти числа можно складывать и умножать, производить иные арифметические действия. Что бы вы сказали о человеке, который занимается умножением телефонных номеров? И отнюдь не всегда 2+2=4. Если вы вечером поместите в клетку двух животных, а потом еще двух, то отнюдь не всегда можно утром найти в этой клетке четырех животных. Их может быть и много больше - если вечером вы загнали в клетку овцематок или беременных кошек. Их может быть и меньше - если к двум волкам вы поместили двух ягнят. Числа используются гораздо шире, чем арифметика.

Так, например, мнения экспертов часто выражены в порядковой шкале (подробнее о шкалах говорится ниже), т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно, более опасен. Экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер (объекта экспертизы) в упорядоченном ряду значений характеристики у различных объектов. Такой ряд в статистике называется вариационным. Формально ранги выражаются числами 1, 2, 3, ..., но с этими числами нельзя делать привычные арифметические операции. Например, хотя в арифметике 1 + 2 = 3, но нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - оценки учащихся. Вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2 + 2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = 4 - 2). Поэтому очевидно, что для анализа подобного рода качественных данных необходима не всем известная арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть ТИ.

При чтении литературы надо иметь в виду, что в настоящее время термин "теория измерений" применяется для обозначения целого ряда научных дисциплин. А именно, классической метрологии (науки об измерениях физических величин), рассматриваемой здесь ТИ, некоторых других направлений, например, алгоритмической теории измерений. Обычно из контекста понятно, о какой конкретно теории идет речь.

Краткая история теории измерений. Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С. Стивенс основное внимание уделял шкалам измерения. Во второй половине ХХ в. сфера применения ТИ стремительно расширяется. Посмотрим, как это происходило. Один из томов выпущенной в США в 1950-х годах "Энциклопедии психологических наук" назывался "Психологические измерения". Значит, составители этого тома расширили сферу применения РТИ с психофизики на психологию в целом. А в основной статье в этом сборнике под названием, обратите внимание, "Основы теории измерений", изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения. В этой статье упор был сделан на "гомоморфизмах эмпирических систем с отношениями в числовые" (в эти математические термины здесь вдаваться нет необходимости), и математическая сложность изложения возросла по сравнению с работами С.С. Стивенса.

Уже в одной из первых отечественных статей по РТИ (конец 1960-х годов) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, как правило, измерены в порядковой шкале. Отечественные работы, появившиеся в начале 1970-х годов, привели к существенному расширению области использования РТИ. Ее применяли к педагогической квалиметрии (измерению качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

Итоги этого этапа были подведены в монографии . В качестве двух основных проблем РТИ наряду с установлением типа шкалы измерения конкретных данных был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования).

Метрологи вначале резко возражали против использования термина "измерение" для качественных признаков. Однако постепенно возражения сошли на нет, и к концу ХХ в. ТИ стала рассматриваться как общенаучная теория.

Шесть типов шкал. В соответствии с ТИ при математическом моделировании реального явления или процесса следует прежде всего установить типы шкал , в которых измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований шкалы . Допустимые преобразования не меняют соотношений между объектами измерения. Например, при измерении длины переход от аршин к метрам не меняет соотношений между длинами рассматриваемых объектов - если первый объект длиннее второго, то это будет установлено и при измерении в аршинах, и при измерении в метрах. Обратите внимание, что при этом численное значение длины в аршинах отличается от численного значения длины в метрах - не меняется лишь результат сравнения длин двух объектов.

Укажем основные виды шкал измерения и соответствующие группы допустимых преобразований.

В шкале наименований (другое название этой шкалы - номинальная ; это - переписанное русскими буквами английское название шкалы) допустимыми являются все взаимно-однозначные преобразования. В этой шкале числа используются лишь как метки. Примерно так же, как при сдаче белья в прачечную, т.е. лишь для различения объектов. В шкале наименований измерены, например, номера телефонов, автомашин, паспортов, студенческих билетов. Номера страховых свидетельств государственного пенсионного страхования, медицинского страхования, ИНН (индивидуальный номер налогоплательщика) измерены в шкале наименований. Пол людей тоже измерен в шкале наименований, результат измерения принимает два значения - мужской, женский. Раса, национальность, цвет глаз, волос - номинальные признаки. Номера букв в алфавите - тоже измерения в шкале наименований. Никому в здравом уме не придет в голову складывать или умножать номера телефонов, такие операции не имеют смысла. Сравнивать буквы и говорить, например, что буква П лучше буквы С, также никто не будет. Единственное, для чего годятся измерения в шкале наименований - это различать объекты. Во многих случаях только это от них и требуется. Например, шкафчики в раздевалках для взрослых различают по номерам, т.е. числам, а в детских садах используют рисунки, поскольку дети еще не знают чисел.

В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между объектами. Простейшим примером являются оценки знаний учащихся. Символично, что в средней школе применяются оценки 2, 3, 4, 5, а в высшей школе ровно тот же смысл выражается словесно - неудовлетворительно, удовлетворительно, хорошо, отлично. Этим подчеркивается "нечисловой" характер оценок знаний учащихся. В порядковой шкале допустимыми являются все строго возрастающие преобразования.

Установление типа шкалы, т.е. задания группы допустимых преобразований шкалы измерения - дело специалистов соответствующей прикладной области. Так, оценки привлекательности профессий мы в монографии , выступая в качестве социологов, считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с нами, полагая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.

Оценки экспертов, как уже отмечалось, часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию.

Почему мнения экспертов естественно выражать именно в порядковой шкале? Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах.

В различных областях человеческой деятельности применяется много других видов порядковых шкал. Так, например, в минералогии используется шкала Мооса, по которому минералы классифицируются согласно критерию твердости. А именно: тальк имеет балл 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10. Минерал с большим номером является более твердым, чем минерал с меньшим номером, при нажатии царапает его.

Порядковыми шкалами в географии являются - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком - такое бывает и в Москве) ровно в 5 раз слабее, чем землетрясение в 10 баллов (полное разрушение всего на поверхности земли).

В медицине порядковыми шкалами являются - шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия… Иногда выделяют стадии 1а, 1б и др. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.

Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.

При оценке качества продукции и услуг, в т.н. квалиметрии (буквальный перевод: измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Аналогичный смысл имеет сортность продукции - высший сорт, первый сорт, второй сорт,…

При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует). Аналогично в эколого-медицинской шкале: нет выраженного воздействия на здоровье людей - отмечается отрицательное воздействие на здоровье.

Порядковая шкала используется и во многих иных областях. В эконометрике это прежде всего различные методы экспертных оценок. (см. посвященный им материал в части 3).

Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.

Порядковая шкала и шкала наименований - основные шкалы качественных признаков . Поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам.

Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная . По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: 0 С = 5/9 (0 F - 32), где 0 С - температура (в градусах) по шкале Цельсия, а 0 F - температура по шкале Фаренгейта.

Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями шкале отношений являются подобные (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена. Примером является пересчет цен из одной валюты в другую по фиксированному курсу. Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту самой экономически мощной державы мира - юани, используя фиксированный курс пересчета. Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Это очевидно из общих соображений. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого очевидного условия. Надо проверять, что оно выполнено. Результаты подобной проверки для средних величин описаны ниже (раздел 2.1.3).

В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей , если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова. Так, согласно новой статистической хронологии , разработанной группой известного историка акад. РАН А.Т.Фоменко, Господь Иисус Христос родился примерно в 1054 г. по принятому ныне летоисчислению в Стамбуле (он же - Царьград, Византия, Троя, Иерусалим, Рим).

Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы). Кроме перечисленных шести основных типов шкал, иногда используют и иные шкалы.

Обсуждение шкал измерения будет продолжено далее в более широком контексте – как одного из понятий статистики нечисловых данных.

Предыдущая

Введение

Истоками математической статистики (М.С.) является большой объем статистических данных и потребность после их специальной обработки сделать прогноз развития исходной ситуации.

Первый раздел М.С. – описательная статистика – предназначена для сбора, представления в удобном виде и описания исходных данных. Описательная статистика обрабатывает два вида данных: количественные и качественные.

К количественным относятся рост, вес и т.д. к качественным – тип темперамента, пол.

Описательная статистика позволяет описать, обобщить, свести к желаемому виду свойства массивов данных.

Второй раздел М.С. – теория статистического вывода – это формализованная система методов решения задач, сводящихся к попытке вывести свойства большого массива данных путем обследования его малой части.

Статистический вывод строится на описательной статистике и от частных свойств выборки данных мы переходим к частным свойствам совокупности.

Третий раздел М.С. - планирование и анализ эксперта. Разработана для обнаружения и анализа причинных связей между переменными.

Измерение, шкалы и статистика

Измерение – это приписывание чисел объектам в соответствии с определенными правилами. Числа – это удобные в обработке объекты, в которые мы преобразуем определенные свойства нашего восприятия.

Шкала наименований или номинальная шкала. Номинальное измерение сводится к разбиению совокупности объектов на классы в каждом из которых сосредоточены объекты, идентичные по какому-нибудь признаку или свойству, например, по национальности, по полу, по типу темперамента.

При данных измерениях каждому из классов присваивается число, но оно используется исключительно как название этого класса и никаких операций над этими числами производить не предполагается.

Порядковое измерение возможно только тогда, когда в квалифицируемых объектах можно различить разную степень признака и свойства, на основе которого производится квалификация (например, конкурс красоты «Умники и умницы»). В данном случае числа используют только одно свое свойство – способность упорядочиваться.

Интервальная шкала принимается тогда, когда можно определить не только количество, свойства или признака в объекте, но также зафиксировать равные различия между объектами, то есть можно ввести единицу измерения для свойства или признака (например, температура, возраст).

Числа при интервальных измерениях имеют свойство упорядоченности и однозначности. Равные разности чисел соответствуют равным разностям значений измеряемого свойства или признака объекта.

Шкала отношений отличается от интервальной только тем, что точка отсчета не произвольна, а указывает на полное отсутствие измеряемого свойства или признака объекта.

Переменные и их измерение

Переменные бывают дискретные и непрерывные. При измерениях, особенно непрерывных свойств или признаков, можно достигнуть только косвенного значения переменной, то есть приближенного к точному и степень этого приближения будет определяться чувствительностью измерения.

Чувствительность определяется минимальной единицей цифровой шкалы, имеющейся в нашем распоряжении.

Пределы для точного значения устанавливаются путем прибавления и вычитания половины чувствительности измерительного процесса.

Множество чисел записывается с использованием произвольной величины с индексом, который указывает порядковый номер величины в цепи данных (xi).

Обозначение S и его свойства

4.

5.

Табулирование и представление данных

Перед анализом и интерпретацией данных их обобщают.

Обобщение – запись данных в виде таблицы. Самый элементарный этап.

Ранжирование – упорядочение переменных от максимального до минимального или наоборот. Такое упорядочивание называется несгруппированным рангом.

Распределение частот . Проранжированный список сворачивают, указывая все полученные измерения подряд, однократно, а в соседней графе указывают частоту, с которой встречается данная оценка

Распределение сгруппированных частот применяется при большом количестве оценок (100 и более). Оценки группируются по признакам и каждая такая группа называется разрядом оценок. В случае полного поглощения этими группами всех данных, мы говорим о распределении сгруппированных частот.

Построение распределения сгруппированных частот

Интервал

Каждое измерение над объектом производится в определенной шкале. Различные координаты одного вектора наблюдений могут быть выражены в разных шкалах. Так, в § 5.1 приведен пример вектора наблюдений (табл. 5.1), у которого первые координаты носят характер условных меток (социальная принадлежность семьи, пол и профессия главы семьи, качество жилищных условий), в то время как остальные выражаются числами (число членов семьи, количество детей, среднегодовой доход и т. п.). Свойства этих шкал сильно различаются между собой. Так, про пол главы семьи можно сказать только, что он или мужской или женский и что пол мужской отличается от пола женского; про жилищные условия - что они совпадают или отличаются и что в отдельных случаях одни жилищные условия лучше других; про расходы можно сказать, что расходы на питание одной семьи меньше, равны, больше расходов другой, можно оценить разность в расходах между семьями и подсчитать, во сколько раз расходы одной семьи отличаются от расходов другой.

Ниже описываются основные типы шкал и математические приемы унификации данных, выраженных в разных шкалах, которые обычно предшествуют применению методов многомерного анализа.

10.2.1. Номинальная шкала.

Эта шкала используется только для того, чтобы отнести индивидуум, объект в определенный класс. Если описаны заранее возможные классы и правила отнесения объекта в них, то говорят о категоризованной шкале, если нет, то о некатегоризованной. Примером категоризованной шкалы является пол. В исследовании индивидууму приписывается одно из двух значений: буква М или Ж, специальный знак или число 1 или 2. В принципе можно было бы приписывать и другие буквы и цифры, важно только, чтобы сохранялось взаимно-однозначное соответствие между кодами. Для ввода категоризованных данных удобно использовать «меню», т. е. перечень возможных категорий с их кодами. Примерами некатегоризованных номинальных переменных являются имя, фамилия, место рождения.

Другой важный источник некатегоризованных номинальных данных указан в § 5.3. Это случай, когда наблюдение задается над парой объектов, и переменная указывает только, принадлежат ли объекты, к одному классу или нет, и не указывает, к каким классам они принадлежат.

Последнее обстоятельство не надо рассматривать в качестве курьеза. Конечно, если классы заранее определены и нетрудно каждый объект отнести в определенный класс, то это следует сделать и записать, к какому классу объект принадлежит. Но иногда классы заранее не описаны, создание их полной классификации как раз и является целью работы, а вместе с тем оценить принадлежность объектов одному классу можно. Например, можно говорить о «близком», «похожем» течении болезни у двух больных, хотя все варианты течения заболевания и не описаны. Более того, выделение эмпирически близких вариантов течения болезни может служить отправным пунктом для выделения и описания всех возможных вариантов развития патологического процесса. То же относится к выделению социально-экономических групп и т. п.

Одна и та же переменная может в зависимости от цели использования выступать в разных качествах. Так, например, некатегоризованная номинальная переменная - имя программы - служит только для индивидуализации программы и, если программ немного, может быть найдена прямым просмотром списка программ. Вместе с тем если имена программ в списке каким-либо образом упорядочить (например, в алфавитно-цифровом порядке), то имя программы как поисковый образ несет в себе элементы порядковой величины. Про каждые два имени можно сказать, что они или совпадают, или одно из них предшествует другому при принятом способе упорядочивания. При изменении способа упорядочивания меняется и отношение следования.

Арифметические операции над величинами, измеренными в номинальной шкале, лишены смысла. Следовательно, и медиана, и среднее арифметическое не могут быть использованы в качестве осмысленной меры центральной тенденции. Более подходящая статистика здесь мода.

10.2.2. Порядковая (ординальная) шкала.

В дополнение к функции отнесения объектов в определенный класс эта шкала также упорядочивает классы по степени выраженности заданного свойства. Каждому классу приписывается свой собственный символ таким образом, чтобы заранее установленный порядок символов соответствовал порядку классов. Так, если классам будут приписаны числовые значения, то классы будут упорядочены согласно числовой последовательности; если буквы, то классы будут упорядочены в алфавитном порядке, а если слова, то классы будут упорядочены согласно значениям слов.

Например, в § 5.3 приводится пример порядковой шкалы для описания качества жилищных условий с четырьмя градациями (классами): «плохое», «удовлетворительное», «хорошее», «очень хорошее». Естественно, что эти классы могли бы быть занумерованы числами 1,2,3,4, или 4,3,2,1, или буквами а,б,в,г и т. п.

Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско - Василенко - Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк -1, гипс - 2, кальцит - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которой минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т. д.).

Структура порядковой шкалы не разрушается при любом взаимно-однозначном преобразовании кодов, которое сохраняет порядок. Так же, как и в случае номинальной шкалы, арифметические операции не сохраняют своего смысла при преобразовании порядковых шкал, поэтому желательно ими не пользоваться. Нетрудно показать, что если опираться только на свойства шкал и не привлекать дополнительных, внешних по отношению к шкалам соображений, то единственными разрешенными статистиками при использовании порядковых шкал являются члены вариационного ряда .

10.2.3. Количественные шкалы.

Шкала, в которой можно отразить, на сколько по степени выраженности заданного свойства один из объектов отличается от другого, называется интервальной. Для того чтобы задать интервальную шкалу, надо определить объекты, соответствующие начальной точке и единице измерения. И далее при измерении ставить в соответствие каждому объекту число, показывающее, на сколько единиц измерения этот объект отличается от объекта, принятого за начальную точку. Простейшим примером интервальной шкалы является температура в градусах Цельсия, где 0° - начальная точка и 1° - единица измерения.

Структура интервальной шкалы не меняется при линейных преобразованиях вида Эффект такого преобразования заключается в сдвиге начальной точки на b единиц и умножении единицы измерения на а.

Например, путем преобразования , где - температура в можно перейти к температуре в градусах Фаренгейта.

Если начало в интервальной шкале является абсолютной нулевой точкой, то возникает возможность отразить в шкале, во сколько раз одно измерение отличается от другого. Соответствующая шкала называется шкалой отношений. Шкала отношений допускает преобразования вида . Большинство шкал, используемых в физике, являются либо интервальными (для измерения температуры, потенциальной энергии), либо шкалами отношений (для измерения времени, массы тела, заряда, расстояния).

Поскольку количественные шкалы допускают арифметические преобразования, среднее арифметическое может использоваться для описания интегральной тенденции в группировке данных.

10.2.4. Унифицированное представление разнотипных данных.

Каждому типу шкалы соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать -критерий для полиномиальных распределений, -критерий для проверки отсутствия ассоциаций в таблицах сопряженности, критерии для проверки гипотез о вероятности в биномиальном распределении. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез типа ) и т. п.). При интервальной шкале может быть использован весь арсенал статистических методов.

Более того, разработаны статистические процедуры для случаев, когда наблюдаются векторы, одни координаты которых измерены в одной шкале, а другие - в другой. Типичным примером является обычный дисперсионный анализ (см. § 3.5), в котором факторы измеряются в номинальной шкале, а соответствующие их комбинациям отклики - в интервальной.

Тем не менее в целом ряде статистических методов, особенно в современных методах многомерного анализа, предполагается, что данные измерены в однотипных шкалах. Чтобы иметь возможность применять эти методы в общем случае разнотипных данных, были предложены различные приемы унификации данных. Познакомимся с важнейшими из них.

Сведение к двоичным переменным. В основе этого метода лежит введение вместо каждой исходной случайной переменной серии случайных величин, принимающих только два значения: 0 и 1.

Для номинальной величины имеющей k градаций вводится k таких величин что когда когда

Этот же прием иногда используют и при сведении к двоичным переменным случайной величины, измеренной в порядковой шкале. Однако в ряде случаев оказывается удобным выделять не событие , а событие Для сравнения относительных достоинств этих двух способов рассмотрим следующую модельную задачу. Пусть - равномерно распределенная на отрезке случайная величина, - малое число;

Функция моделирует, очевидно, первый способ перехода к двоичным переменным, а функция - второй. После несложных подсчетов получаем:

Основной недостаток изложенной техники - это введение большого числа новых переменных и частичная потеря информации, содержащейся в данных, как из-за квантования, так и из-за искусственного снижения уровня используемой шкалы.

Оцифровка номинальных и порядковых переменных. Этот метод прямо противоположен только что изложенному, в нем все переменные поднимаются, подтягиваются до уровня количественных путем приписывания их градациям числовых значений. Иногда приписываемые значения называют метками.

Выбор меток существенно зависит от цели, с которой производится оцифровка. Так, если изучается величина связи между двумя номинальными признаками, то метки можно выбрать из условия максимизации коэффициента корреляции между ними , . Если речь идет об отнесении наблюдений к одному из заранее определенных классов (дискриминантный анализ), то выбор меток можно связать с условием максимизации нормированного расстояния в многомерном выборочном пространстве между центрами изучаемых популяций (расстояния Махаланобиса). Иногда эту задачу упрощают и метки приписываются покоординатно так, чтобы максимизировать только нормированное расстояние между средними значениями данной координаты. Статистическое сравнение на примере одной частной задачи эффективности глобального и покоординатного подхода к оцифровке в дискриминантном анализе может быть найдено в .

Изложенные приемы оцифровки, когда метки выбираются из условия максимизации соответствующим образом подобранного функционала, укладываются в рамки упомянутого в § 1.2 экстремального подхода к формулировке основных проблем математической статистики.

В целом оцифровка качественных переменных является задачей сложной как в вычислительном, так и в чисто статистическом плане. Отдельные аспекты этой проблемы обсуждаются в работах .



В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):

Pol: 1 = мужской

2 = женский

Семейное положение: 1 = холост/не замужем

2 = женат/замужем

3 = вдовец/вдова

4 = разведен(а)

Курение 1 = некурящий

2 = изредка курящий

3 = интенсивно курящий

4 = очень интенсивно курящий.

Вес. И т.д.

Рассмотрим сначала графу Пол. Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами.

Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале . В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название- дихотомическая.

Такая же ситуация и с переменной Семейное положение. Здесь также соответствие между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической - у нее четыре категории вместо двух.

Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.

В качестве следующего примера рассмотрим переменную Курение. Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале .

Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.

Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.

Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Рассмотрим теперь переменную Рост. Его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ивана рост равен 180, а у Федора - 170, а у Петра - 160, можно сказать, что Иван в сравнении с Федором выше, и еще выше Петра. Такие переменные, у которых есть разность (интервал) между двумя значениями и она имеет эмпирическую значимость, относятся к интервальной шкале . Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных. К таким переменным относятся Вес, Размер и т.д.

Очень часто переменныеинтервальной шкалы , к которой относятся данные, могут называться шкалой отношений . Поэтому в настройках Define Variable (определение переменных) обе эти шкалы определяютсяя как Scale (Метрическая).

Теперь необходимо обосновать и определить тип шкал для наших переменных:Vozrast (Возраст); Ves (Вес); Rost (Рост); Noga (Размер буви); Pol (Пол); Volos (Цвет волос); Glaz (Цвет глаз).

Vozrast (Возраст),Ves (Вес), Rost (Рост) - интервальная шкала .

Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз).- номинальная шкала.

После выяснения этого важнейшего вопроса необходимо ввести тип шкалы в таблицу для наших переменных. Делается все очень просто: двойной клик по наименованию переменной и появляется окно Define Variable (определение переменных). В этом окне выбираем рамку Measurement (измерение) и устанавливаем кнопку в одно из трех состояний для каждой переменной.

Переменные: Vozrast (Возраст),Ves (Вес), Rost (Рост) будут иметь значение Scale.

Переменные: Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз) будут иметь значение Nominal.

Переменных относящихся к шкале Ordinal (порядковая) у нас не будет.

Со шкалой переменных мы разобрались. Теперь продолжим дальше определение переменных.

Type (тип переменных), чтобы задать тип переменной, щелкните по кнопке Туре . Откроется диалоговое окно Define Variable Type (Определение типа переменной). Примите предлагаемую настройку Numeric (Численный) и установите длину "2" для переменной Vozrast и количество десятичных разрядов "0", так как в этой переменной будут храниться только значения возраста. Подтвердите настройку кнопкой ОК и перейдите к следующему полю переменной Ves. Учитывая цифровую кодировку значений переменных, наши переменные все будут Numeric.

Labels ..(Метка переменной) - это название, позволяющая описать переменную более подробно. После клика по кнопке Labels .. появляется диалоговое окно, и в него вы можете занести до 256 символов. В метках переменных различаются прописные и строчные буквы. Они отображаются в том виде, в каком были введены. Для переменной Vozrast введите в качестве метки «данные о возрасте студента (ки)».

В этой же опции введем Метки значений (Values). Метки значений - это название, позволяющее более подробно описать возможные значения переменной. Так, например, в случае переменной Pol можно задать метку "женский" для значения "1" и метку "мужской" для значения "2". Подтвердите настройку по умолчанию. Впрочем, ввод данных также можно подтвердить клавишей .

Missing values (Пропущенные значения). В SPSS допускаются два вида пропущенных значений:

Пропущенные значения, определяемые системой (System-defined missing values): Если в матрице данных есть незаполненные численные ячейки, система SPSS самостоятельно идентифицирует их как пропущенные значения. Этот факт отображается в матрице данных с помощью запятой (,).

Пропущенные значения, задаваемые пользователем (User-defined missing values): Если в определенных случаях у переменных отсутствуют значения, например, если на вопрос не был дан ответ, ответ неизвестен, или существуют другие причины, пользователь может с помощью кнопки Missing объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений. В нашем примере пропущенным значением, определяемым пользователем мы объявим вариант ответа "0" (нет данных) для переменной Pol.

Column Format (формат столбцов). Поле Columns определяет ширину, которую будет иметь в таблице данный столбец при отображении значений. Ширину столбца также можно изменить непосредственно в окне редактора данных. Для этого поместите указатель мыши на разделитель между двумя заголовками столбцов с именами переменных. Вид указателя изменится. Появившаяся двойная стрелка указывает, что соответствующий столбец можно расширить или сузить путем перетаскивания.

Таким образом, определив все параметры переменных вы можете приступать к вводу собранных данных по своей группе.

Переменные различаются между собой тем, «насколько хорошо» они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Известно, что в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить в данном измерении. Тип шкалы, в которой проведено измерение, является еще одним фактором, определяющим количество информации, содержащейся в переменной. Различают следующие типы шкал: номинальная, порядковая (ординальная), интервальная относительная (шкала отношения). Соответственно мы имеем четыре типа переменных.

Шкала наименований (номинальная шкала) фактически не связана с понятием «величина» и используется только для качественной классификации с целью отличить один объект от другого: номер животного в группе или присвоенный ему уникальный шифр и т.п. Данные переменные могут быть измерены только как принадлежность к некоторым, существенно различным классам; при этом вы не сможете упорядочить эти классы. Например, индивидуумы принадлежат к разным национальностям. Типичные примеры номинальных переменных - пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Категориальные переменные часто представляют в виде частот наблюдений, попавших в определенные категории и классы. Если классов всего два, то переменная будет называться дихотомической. Например, при исследовании выборки было установлено, что к первой категории Пол женский отнесено 30 испытуемых с повышенным АД, а ко второй категории Пол мужской отнесено 25 испытуемых с повышенным АД. Возможности обработки переменных, относящихся к номинальной шкале, очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Пол , совершенно бессмыслен.

Порядковая шкала (шкала рангов) – шкала, относительно значений которой нельзя говорить ни о том, во сколько раз измеряемая величина больше (меньше) другой, ни на сколько она больше (меньше). Такая шкала только упорядочивает объекты, приписывая им те или иные баллы (результатом измерений является нестрогое упорядочение объектов). При этом указывается, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать «на сколько больше» или «на сколько меньше». Порядковые переменные иногда также называют ординальными. Номера домов на улице измерены в порядковой шкале. Типичный пример порядковой переменной - социоэкономический статус семьи. Для размера одежды используют следующую порядковую шкалу: S, M, L, XL,XXL, XXXL, XXXXL. Шкала твердости минералов Мооса также является порядковой. Аналогично построены шкалы силы ветра Бофорта и землетрясений Рихтера. Шкалы порядка широко используются в педагогике, психологии, медицине и других науках, не столь точных, как, скажем, физика и химия. В частности, повсеместно распространенная шкала школьных отметок в баллах (пятибалльная, двенадцати балльная и т.д.) может быть отнесена к шкале порядка. В медико-биологических исследованиях шкалы порядка встречаются сплошь и рядом и подчас весьма искусно замаскированы. Например, для анализа свертывания крови используется тромботест: 0 – отсутствие свертывания в течение времени теста, 1 –«слабые нити», 2 – желеподобный сгусток, 3 – сгусток, легко деформируемый, 4 – плотный, упругий, 5 – плотный, занимающий весь объем и т.п. Понятно, что интервалы между этими плохо отличимыми и очень субъективными позициями произвольны. В этом случае сравнивать средние значения в двух выборках не имеет смысла!! Масса подобных шкал все еще встречается в экспериментальной токсикологии, экспериментальной хирургии, экспериментальной морфологии. Порядковыми шкалами в медицине являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья. Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Шкала Цельсия, как известно, была установлена следующим образом: за ноль была принята точка замерзания воды, за 100 градусов – точка ее кипения, и, соответственно, интервал температур между замерзанием и кипением воды поделен на 100 равных частей. Здесь утверждение, что температура 40°С в два раза больше, чем 20°С, будет неверным. В шкале интервалов сохраняется отношение длин интервалов. Вы можете не только сказать, что температура 40°С выше, чем температура 30°С, но и что увеличение температуры с 20°С до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. Такие переменные могут обрабатываться любыми статистическими методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.

Шкалами отношений измеряются почти все физические величины – время, линейные размеры, площади, объемы, сила тока, мощность и т.д. Это самая мощная шкала. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. В медико-биологических исследованиях шкала отношений будет иметь место, например, когда измеряется время появления того или иного признака после начало воздействия (порог времени, в секундах, минутах), интенсивность воздействия до появления какого-либо признака (порог силы воздействия в вольтах, рентгенах и т.п.). Естественно, к шкале отношений относятся все данные в биохимических и электрофизиологических исследованиях (концентрации веществ, вольтажи, временные показатели электрокардиограммы и т.п.). Сюда же, например, относятся и количество правильно или неправильно выполненных «заданий» в различных тестах по изучению высшей нервной деятельности у животных. Например, температура по Кельвину образует шкалу отношения, и при этом можно утверждать, что температура 200 градусов не только выше, чем 100 градусов, но при этом она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. Для двух последних шкал возможно вычисление таких числовых показателей, как среднее значение, стандартное отклонение.

Рассмотрим еще несколько конкретных примера переменных в эмпирическом исследовании. Пусть они кодируются следующим образом:

Таблица 1.1

Типы шкал

Мы видим, что кодирование переменной пол с помощью цифр 1 и 2 абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами. Это не значит, что женщины стоят на ступеньку ниже мужчин. В этом случае говорят о переменных, относящихся к номинальной шкале. Такая же ситуация и с переменной семейное положение . Здесь также соответствие между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от пола, эта переменная не является дихотомической - у нее четыре кодовых цифры вместо двух.

Переменная курение отсортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Эти переменные относятся к порядковой шкале. Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего, редко курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим, изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты. Классическими примерами переменных с порядковой шкалой являются также переменные, полученные в результате объединения величин в классы, такие, как месячный доход в нашем примере.

Рассмотрим теперь коэффициент интеллекта (IQ). И его абсолютные значения отображают порядковое отношение между респондентами, и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Федора IQ равен 80, у Петра – 120 и у Ивана – 160, можно сказать, что Петр в сравнении с Федором настолько же интеллектуальнее насколько Иван в сравнении с Петром (а именно – на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Федора в два раза меньше, чем у Ивана, нельзя сделать вывод, что Иван вдвое умнее Федора. Такие переменные относятся к интервальной шкале.

Наивысшей статистической шкалой, на которой эмпирическую значимость приобретает и отношение двух значений, является шкала отношений. Примером переменной, относящейся к такой шкале, является возраст: если Андрею 30 лет, а Алексею 60, можно сказать, что Алексей вдвое старше Андрея. Шкалой отношений является температурная шкала Кельвина с абсолютным нулём температур.

На практике, в том числе при обработке данных в пакете Statistica, различие между переменными, относящимися к интервальной шкале и шкале отношений обычно несущественно.

От более богатой или мощной шкалы всегда можно перейти к более бедной. Так, непрерывные переменные можно категоризировать. Например, непрерывную случайную величину (СВ) Рост можно из шкалы отношений перевести в порядковую шкалу с градациями: низкий, средний, высокий.

Допустим, весь диапазон изменения интервальной переменной был разделен на область высоких, средних и низких значений и каждое наблюдение было отнесено к одной из трех категорий. Это означает, что явление, которое вначале описывалось в интервальной шкале, может быть описано также и в шкале наименований, а, следовательно, можно использовать для анализа этого явления все те статистические методы, которые требуют использования переменных в шкале наименований. Но надо учитывать, что при переходе к шкале наименований от шкал более высокого порядка, мы теряем часть информации о наблюдениях. Наблюдения, которые отличались друг от друга при описании их в интервальной шкале, могут восприниматься как одинаковые при описании их в шкале наименований. Поэтому рекомендуется применять шкалу наименований лишь тогда, когда нет возможности использовать шкалу более высокого порядка.