Головна
ГоловнаCоціологіяМетоди збору та аналізу соціологічних даних → 
« Попередня Наступна »
Г. Г. Татарова. Методологія аналізу даних в соціології (введення), 1999 - перейти до змісту підручника

АНАЛІЗ ХАРАКТЕРУ «ПОВЕДІНКИ» ОЗНАКИ

Емпірична крива розподілу. Показники середньої тенденції для різних типів шкал. Дескриптивная статистика. Мода. Медіана. Середнє арифметичне значення, зважене середнє. Міри розсіювання навколо середніх. Дисперсія. Коефіцієнт варіації як міра однорідності. Квартильное розмаху. Заходи якісної варіації. Коефіцієнт якісної варіації. Середнє геометричне. Ентропія.

Регулярно на екрані телевізора ви бачите візуально представлені розподілу якого-небудь ознаки (стовпчики з позначенням відсотків). Наприклад, результати вивчення громадської думки з претендентам на президентський пост або місце в парламенті. Ці картинки називаються гістограмами - графічне зображення або візуалізація розподілів. Вони будуються за певними правилами і в основному потрібні не стільки самому соціологу, скільки замовнику соціологічного дослідження (красиво і наочно). Соціологу вони потрібні лише на попередньому етапі роботи з емпірією для того, щоб на комп'ютері швидко переглянути характер розподілів. Існує безліч способів візуалізації. Наприклад, в роботі [2] наводиться 15 способів візуального зображення (графіки, діаграми) одних і тих же даних - одновимірного розподілу ознаки.

На рис. 3.2.1 зображена гістограма, відповідна

розподілу студентів по майбутнім професіям. На горизонтальній осі, починаючи з будь-якої точки, відкладаються на рівній відстані вісім (див. таблицю 3.1.1) професій. Над кожною «професією» споруджується стовпчик висотою рівний відносної частоті цієї професії. Стовпчики можуть відстояти один від одного і на якійсь відстані. У нашому випадку вони примикають один до одного. Гістограму можна будувати по частостей або за відсотками. Вони співпадуть при відповідному виборі масштабу. Для цього на вертикальній осі одна і та ж точка повинна відповідати або одиниці, або ста відсоткам.

Сума площ всіх прямокутників дорівнює одиниці, якщо вона побудована за частостей і дорівнює ста, якщо гістограма побудована за відсотками. Вертикальна вісь служить тільки для завдання масштабу, тому гистограмму починають будувати з будь-якої позиції по горизонталі. Ламана лінія (позначена на рис. 3.2.1 пунктиром) називається емпіричної кривої розподілу, або полігоном. Вона з'єднує середини верхньої сторони прямокутників. Ця крива і її характеристики говорять соціологу про «поведінку» ознаки. Другий з цих термінів мало

вживається на практиці.

Відсоток / частость /

Рис. 3.2.1 Гістограма і емпірична крива розподілу студентів за професійними групами

30 - 25 20 / \ 10 .. - \ ю 5. *. ft? *. в. . ? ? -W 1 2 3 4 5 6 7 8

(майбутня професія студентів)

Аналогічним чином будується гістограма і емпірична крива розподілу для другої ознаки, тобто для розподілу студентів за ступенем їхньої задоволеності навчанням. Вони зображені на рис. 3.2.2. Якщо для номінальних і порядкових шкал гістограми емпірична крива розподілу служить тільки для візуалізації, то для метричних вони мають особливий сенс.

Відсоток / частость А 30, 25 т-у 'Ч 20 .. ? * '/ .. а * ш С - ^> (ступеня задоволеності навчанням студентів)

Рис. 3.2.2 Гістограма і емпірична крива розподілу за ступенем задоволеності навчанням

Побудуємо гістограму та емпіричну криву розподілу для ознаки «тривалість витрат часу на навчання». У цьому випадку гістограма будується трохи інакше. Як ви помітили, кожен стовпчик гістограми за площею був дорівнює числу респондентів. Візуально передається не висота стовпчика, а його площа. Ширина стовпчика дорівнювала одиниці і для номінального, і для порядкового ознак. У даному випадку ширину не можна вибрати однаковою, так як наші інтервали різні. Тому гістограма будується по щільності розподілу. Щільність в інтервалі-це число респондентів, що припадають на одиницю інтервалу. Позначимо щільність в наших шести інтервалах через

Р'Р2, Рз, Р4, P5, Рб

Тоді Р1 = 27/1 = 27; Р2 = 75/1, 5 = 50; Рз = 150/1, 5 = 100;

Р 4 = 348/3 = 116; Р5 = 250/1 = 250; Ре = 150/1 = 150

ПЛОТНОСТЬ

. п

О 1 2,5 4 7 8 9 (години)

Рис. 3.2.3 Гістограма за тривалістю витрат часу на навчання

У даному випадку емпірична крива розподілу не має змістовного сенсу, бо передає характеру розподілу. Тому таку криву будують при діленні на рівні інтервали. Число інтервалів при цьому визначається вже виходячи з формальних критеріїв. Для порядкової і метричної шкали гистограмму та емпіричну криву розподілу можна побудувати і за накопиченою частоті. Тільки в цьому випадку для емпіричної кривої розподілу існує специфічну назву. Вона називається кумуляту, а накопичену частоту називають кумулятивної. Побудуємо її за даними, поданими в таблиці 3.2.1.

Таблиця 3,2,1

Розподіл по тривалості навчання (рівні інтервали) Тривалість навчання Показники 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 Разом Абсолютна

частота 27 50 75 100 48 100 200 250 150 1000 Відносна частота у відсотках. 2,7 5,0 7,5 10 4,8 10 го 25 15 100 Накопичена частота 2,7 7,7 15,2 25,2 50 40 60 85 100 На рис. 3.2.4 зображені гістограма і кумуляту по

тривалості витрат часу на навчання (інтервали рівні, їх дев'ять). Кумуляту - це завжди зростаюча крива. Поки на пунктирні лінії не звертайте уваги.

Г рафіческой зображення розподілів у вигляді емпіричних кривих розподілу (полігони та кумуляти) потрібні соціологу залежно від типу шкал для різних цілей. Для номінальної шкали ми можемо впорядкувати (провести ранжування) різні професійні групи з і показності (об'ємом) в наші данни і відповідно виділити модал ні (найбільші за обсягом) групи. Для порядкової шкали, крім цього, визначається і ступінь одностайності студентів в оцінці своєї задоволеності навчанням. Згадуємо шкалу Терстоуна, для Побудови якої за допомогою медіани і квартал ного розмаху оцінювався ступінь одностайності експертів. Найважливішу роль

грають емпіричні криві розподілу для метрично ознак. Але ця роль пов'язана не з первинним аналізом і не з вивченням поведінки емпірично індикаторів, а з аналізом поведінки

показників / коефіцієнтів / індексів. 7 - у У /. -1 І г .. 1 2 3 Q | 4 5 м, е 7Q3 g д

Рис. -? .24 К.умулята за тривалістю витрат часів »на навчання

При статистичному підході до аналізу розподілів кожен такий показник теоретично може мати закон розподілу з певними параметрами і по емпіричної кривої розподілу можна судити про те, який цей закон. Знання законів дає можливість застосування до аналізу емпірії всього багатства коштів, накопичених в математичній статистиці. Законів дуже багато, і звідси назви: нормальний закон розподілу (рис. 3.2.5), логарифмічний закон розподілу (рис. 3.2.6), лінійний закон розподілу (рис. 3.2.7) і т.д. Закони ви проходили і в школі. Рівняння прямої, параболи, гіперболи інтерпретуються як математичні закони, що зв'язують дві величини X і Y. Деякі закони не можна записати в явному вигляді, тобто у вигляді математичної формули.

Що стосується самого факту існування закону розподілу якогось показника, то це потребує доведення. Наприклад, у вигляді перевірки статистичних гіпотез. Цю тему відносимо до подальших етапах у вашому освіті.

Мода

Найбільш часто зустрічається значення ознаки називається модою. Таких значень може бути і декілька. У нашому випадку третя професія

Перейдемо до розгляду характеристик, що описують (звідси назва дескриптивная статистика) «поведінка» ознаки в цілому, у вигляді деякої емпіричної тенденції. Тому вони й називаються заходами центральної тенденції.

Є модальної. Соціолог ніколи не працює з однією єдиною модою, а вживає поняття «модальні значення». Для нашого прикладу професії 3 і 8 є модальними. Аналогічна ситуація у разі порядкових шкал. Мода дорівнює 2 (найбільш часто зустрічаються студенти, ступінь задоволеності навчанням яких дорівнює двом). В якості модальних значень має сенс розглядати все ж два значення, 2 і 4, тобто найбільш поширені дві групи за ступенем задоволеності. І це незважаючи на те, що за обсягом вони різні. Однак у порівнянні з іншими групами вони досить великі. Можна вважати, що наявність таких модальних груп специфічно, характерно, типово для досліджуваної сукупності студентів-гуманітаріїв. Це найпростіша емпірична закономірність.

Знаходження модального значення у випадку метричної шкали неможливо з рис. 3.2.3, бо ширина інтервалів різна і це модальне значення може перебувати в будь-якому інтервалі. Тому перш за все виникає завдання визначення модального інтервалу - інтервалу, що містить моду. Для цього необхідно перейти від ділення на інтервали, заснованого на змістовних критеріях, до поділу на інтервали за формальними критеріями. При цьому інтервали повинні мати рівну довжину і їх число повинне залежати від ступеня мінливості ознаки. Чим більше ступінь мінливості, тим більше потрібно інтервалів для визначення модального. На рис. 3.2.8 наведена гістограма, побудована для випадку ділення «тривалості» на дев'ять рівних інтервалів. Абсолютні частоти в цих інтервалах були наведені вище в таблиці 3.2.1. Щільність в кожному інтервалі пропорційна цим абсолютним частотам. Ширина інтервалу дорівнює 1. Емпірична крива розподілу в цьому випадку називається емпіричною функцією розподілу щільності.

Існує математична формула для обчислення моди, але ми наведемо лише геометричний спосіб знаходження моди в модальному інтервалі. Модальним інтервалом є інтервал в 7-8 годин. Значення моди обчислюється геометрично (перетин пунктирних ліній на рис. 3.2.8) і приблизно дорівнює 7,3 години (див. стрілочку на тому ж малюнку). Є логічним, що мода має знаходитися ближче до того кінця модального інтервалу, який примикає до інтервалу з великим числом об'єктів. Виникає питання, як підрахувати значення моди, якщо модальний інтервал перший або останній за рахунком. Тоді за моду приймається середина цих інтервалів.

Модальні значення певним чином говорять про характер поведінки ознаки і в основному про число «горбів». Наприклад, згадуємо задачу ранжирування по перевагах різні сортів пива. З якими ситуаціями ми стикалися? З достатньою одностайністю (один горбик, одна мода), з двома протилежними тенденціями (два горбика, дві моди) і з повним різноманітністю (практично рівномірний розподіл -

моди немає). Щоб якось просунутися в аналізі переваг, ми використовували ще одну характеристику - медіану, до розгляду якої і переходимо.

Медіана

Цей захід центральної тенденції, або характеристика розподілу, має сенс тільки для порядкових і метричних шкал. З медианой ми стикалися при побудові шкали Терстоуна і знову ж у процедурі ранжирування. У загальному випадку медіана - значення ознаки, відповідне середині упорядкованого ряду. Наприклад, нехай у нас є дані по кожній області - частки голосів у%, відданих виборцями на виборах пану Ікс. Тоді значення медіани, рівне 15%, інтерпретується таким чином. У половині областей віддано за пана Ікс більше 15% голосів, а в половині - менше 15%. Чи не правда, це дуже важлива характеристика для інтерпретації результатів виборів?

Для обчислення медіани в цьому випадку ми повинні були впорядкувати всі області в порядку зростання або зменшення числа голосів. Якщо число областей непарне, то в середині ряду - одна єдина область. Медіана тоді дорівнює числу голосів, відданих пану Ікс в цій галузі. Якщо число областей парне, то середину ряду складають дві області та медіана обчислюється як середнє значення по цим двох областям.

У разі нашого прикладу метричної шкали - тривалість витрат часу на навчання - медіана може бути обчислена таким же чином. Для цього проведемо впорядкування студентів за зростанням / спаданням цих витрат і знайдемо середину аналогічним чином. Медіану можна обчислити і за кумуляту (див.

шкалу Терстроуна).

Для порядкових і метрично шкал необ одим є поняття медіанного інтервалу, тобто інтервалу містить медіану. Як правило, ви не любите формули, тому наведемо вербальне опис формули для обчислення медіани в медіанному інтервалі. Це робиться з двох міркувань. Перше - показати, що математична формула завжди відображає зміст. Друге - математичною формулою іноді користуватися зручніше для уникнення дуже довгі описів. Отже, медіана в медіанному інтервалі обчислюється за формулою: г нижня ширина 1 січня

 полотна частота \ чаептта> \ Me = межа Заважали від числа накопичена медіанному медіанного інтервалу X об'єктів до інтервалі інтервалу медаяшого інтервалу J і і 1 < І І (Х) (H L (п / 2) (Р) - (Р) Цю формулу можна записати дуже просто з використанням позначень, наведених внизу: 

 n - P 

2

 Me = x +1- 

P

 Чим вище рівень вимірювання, тим багатше можливості опису «поведінки» ознаки. Якщо ознака виміряно по метричній шкалі, то крім моди і медіани для опису поведінки ознаки використовується відома всім міра центральної тенденції - середня арифметична. 

 Середнє арифметичне 

 Для будь-якої сукупності значень ознаки це сума всіх значень, поділена на їх число. Повернемося до прикладу ознаки - тривалість витрат часу на навчання. Позначимо число студентів-гуманітаріїв через n (для нашого випадку n = 1000), а через X - значення цієї тривалості для i-го студента. Тоді середня арифметична тривалості буде дорівнює: -

 1 n X

 = -? X, 

 П i = 1 

 Таким чином можна визначити середню тривалість витрат часу на навчання в група студентів з будь-який «майбутньою професією», з будь-яким ступенем задоволеності навчанням і т. д. 

 Соціолог часто зустрічається з ситуацією, коли конкретні значення ознаки по окремих об'єктах невідомі. Початково є тільки інтервали зміни ознаки і частота (абсолютна або відносна) зустрічальності об'єктів в цих інтервалах. Наприклад, та ж тривалість може бути задана у вигляді інтервалів і частоти в них. Це може бути у двох випадках. Перший - дані про тривалість отримані за допомогою прямого запитання анкети: «Скільки часу Ви в середньому в тиждень витрачаєте на заняття, пов'язані з навчанням?». При цьому пропонуються задані заздалегідь інтервали. По суті, ми маємо справу з порядкової шкалою. У цьому випадку також можна обчислити середнє значення тривалості для деякої групи студентів. Тільки вона називається середня зважена і обчислюється дещо по-іншому. 

 Другий випадок, коли у соціолога відсутні конкретні значення по кожному об'єкту в ситуації вторинного аналізу. Вторинним аналізом соціолог називає аналіз «чужих» даних для вирішення своїх власних, нових завдань. Тоді часто доводиться працювати вже з обчисленими до нього середніми арифметичними. Наприклад, результати дослідження бюджетів часу зазвичай публікуються у вигляді середніх витрат часу із зазначенням обсягу групи, для якої вони отримані. У процесі вторинного аналізу виникає необхідність об'єднання якихось груп і, відповідно, в підрахунку загальної середньої. У цій ситуації також необхідна середня зважена для обчислення «середньої середніх». 

 Обчислимо середню тривалість витрат часу на навчання студентами-гуманітаріями за даними таблиці 3.1.3. Для цього передбачається, що тривалість для кожного респондента, віднесеного до інтервалу, дорівнює середині інтервалу. Для наших шести інтервалів їх середини відповідно рівні: 

 Х1 = 0,5; X2 = 1,75; X3 = 3,25; X4 = 5,5; X5 = 7,5; X6 = 8,5. 

 Нам відомо число студентів у кожному інтервалі: 

 n1 = 27; n2 = 75; n3 = 150; n4 = 348; n5 = 250; n6 = 150. 

 Тоді тривалість витрат часу на навчання в середньому на студента або середня зважена тривалість дорівнює: 1

 = (0,5 х27 +1,75 х75 +3,25 х150 +5,5 х348 +7,5 х250Н-8, 5х150) / 1000 = 5,7 Формула для обчислення середньої зваженої виглядає для до інтервалів наступним чином: 

к

 ? njxj X =, 

 ? nj j = 1 

 де Xj - середина j-го інтервалу. 

 Аналогічно обчислюється «середня средни». Припустимо, перед соціологом стоїть завдання обчислення середньої тривалості життя чоловіків в Росії за даними окремих областей. Ці дані становлять середню тривалість життя чоловіків по кожній області. Природно, «середню середніх» обчислюємо з вагами, рівними 

 чисельності чоловіків у кожній області. 

 Всі розглянуті характеристики: мода, медіана, середня 

 арифметична, середнє зважене - є середніми. Вони характеризують центральні тенденції одновимірного розподілу. Є й інші середні, але вони в соціології застосовуються рідко. Тому середню арифметичну називають просто середньої, а мода і медіана зберігають свої назви. Без процедури усереднення соціолог-емпірик існувати не може. Інша справа, за допомогою яких середніх він проводить цю процедуру. 

 Самі по собі значення «середніх» мало про що говорять, якщо соціолог не бачить емпіричну криву розподілу, наприклад, на екрані комп'ютера. У ситуації «небачення» йому допомагають інтерпретувати будь-які середні так звані заходи варіації, міри розсіювання об'єктів навколо цих середніх. Спочатку ми розглянемо міру варіації для випадку метричної шкали, а потім для порядкової і номінальною. 

 Перш ніж перейти до цієї проблеми, зауважимо, що будь-яка середня характеризує центральну тенденцію розподілу тільки тоді, коли об'єкти в основному зосереджені навколо цих середніх, т, е, яка вивчалася сукупність об'єктів однорідна щодо ознаки, Однорідність - це дуже важливе поняття для всіх, хто працює з емпірією, Соціолог стикається з проблемою однорідності в різних контекстах, Якраз ось тут пара понять «якість - кількість» дуже важлива, Поділ понять якісна однорідність і кількісна однорідність має величезний сенс, Наприклад, хіба є сенс у середньому доході або в середньому віці росіянина ? Звичайно ж, ні, І в той же час є сенс в середній заробітній платі сільських лікарів або в середньому віці чоловіків-пенсіонерів, Необхідна якісна однорідність для того, щоб розпочати аналіз кількісних характеристик розподілу ознаки, 

 Самі кількісні характеристики можуть вказувати / показувати на відсутність кількісної однорідності по аналізованому ознакою. Це в свою чергу буде говорити про наявність якісної неоднорідності. 

 Дисперсія 

 Розглянемо міру варіації / розсіювання / розкиду / мінливості для метричної шкали. За емпіричної кривої розподілу або гістограмі на рис. 3.2.3 бачимо, що сукупність студентів неоднорідна за тривалістю витрат часу на навчання. З одного боку, очевидно, що середня тривалість навчання як характеристика має сенс, оскільки цілком правомірно порівняння середньої тривалості навчання для виділених нами груп студентів: соціологів, політологів, 

 культурологів і т. д. З іншого боку, в ситуації неоднорідності таке порівняння змістовно ні про що не говорить. 

 Яка може бути міра неоднорідності / однорідності по 

 тривалості? Про це можна судити за ступенем відхилення тривалості витрат часу на навчання окремого студента від середньої тривалості, яка в нашому випадку дорівнює 5,7 (в годинах). Індивідуальні відхилення (X, - X) не можна просто підсумовувати, щоб 

 судити про загальний відхиленні. Відхилення в одну сторону будуть погашатися відхиленнями в іншу. Щоб цього не було, індивідуальні відхилення зводяться в квадрат, а потім складаються. Ця сума ділиться на число респондентів, і виходить характеристика, звана дисперсією (а2). Це міра варіації значень ознаки в середньому і навколо середньої арифметичної. 

 (Х, - X) 

?

 i = 1 

 Слід зауважити, що при невеликому числі об'єктів ділити потрібно не на n, а на (n -1). Для соціолога це не принципово, так як він працює зазвичай з досить великим числом об'єктів. 

 Корінь квадратний з дисперсії називається среднеквадратическим відхиленням (а - сигма). По ній можна порівнювати міри розсіювання різних ознак, однієї ознаки для різних сукупностей. Пряме порівняння дисперсій, среднеквадратических відхилень мало що дає. Розглянемо приклад з нашого дослідження. Обчислимо середнє арифметичне і середньоквадратичне відхилення тривалості витрат часу на навчання для декількох груп студентів. Припустимо, що для 

 соціологів (X = 6, а = 4), психологів (X = 5,4, а = 3,5), політологів (X = 4,5, а = 3,5), істориків (X = 6, а = 2). Які висновки можна зробити за цими даними? 

 Соціологи та історики витрачають на навчання в середньому однаковий час, але сукупність соціологів менш однорідна, тому що середньоквадратичне відхилення більше. Психологи витрачають на навчання в середньому більше часу, ніж політологи, і вони більш однорідні, ніж група політологів. Дисперсія однакова в цих групах, щодо різних за значенням середніх. Коли середні і дисперсії в порівнюваних групах різні, на допомогу приходить коефіцієнт варіації. 

 Коефіцієнт варіації 

 Цей коефіцієнт при наших позначеннях дорівнює V == * 100 

X

 Він являє собою частку варіації у відсотках (%), що припадає на одиницю середньої. У нашому випадку відповідно чотирьом групам: V1 = 66,7% (для соціологів), V2 = 64,8% (для психологів), V3 = 77,8% (для політологів), V4 = 33,3% (для істориків) . Таким чином, група істориків більш однорідна за тривалістю витрат часу на навчання, ніж всі інші групи. Сама неоднорідна група - політологи. Це означає, що серед них опинилися і дуже багато, і дуже мало займаються. 

 Середнє арифметичне і дисперсія інтерпретуються завжди разом. Наприклад, існує так зване правило «трьох сигм», дуже важливе при роботі з емпірією. Воно означає, що якщо всі значення ознаки знаходяться в інтервалі від-За до +3 а, то вважається, що закон розподілу ознаки нормальний, тобто, як мінімум, емпірична крива має унімодальних характер (одна мода, один горб). На рис. 3.2.5 зображений ідеальний нормальний закон розподілу. Запам'ятайте його, бо математичний апарат для аналізу нормальних розподілів дуже багатий. Для ідеально нормального розподілу мода, медіана і середнє арифметичне рівні. 

 Якщо для аналізу розподілів використовувати «мову» статистичного аналізу, то самі розглянуті характеристики, наприклад X, є величинами, що мають свій власний закон розподілу, Уявімо собі, що кожен з вас для одного і того ж дослідження сформував вибіркову сукупність, Нехай у кожного буде сама з найбільш «хороша» (репрезентативна) вибірка, Якщо підрахувати, наприклад, середній вік опитаних за цими вибірками, то значення будуть різні, Середнє цих значень і буде істинним значенням середнього віку в генеральній сукупності, Аналогічні міркування і в разі середньої тривалості витрат часу на навчання, 

 Відхилення середніх від «істинної середньої» буде носити випадковий характер. Виявляється, цю випадковість можна оцінити. На цьому заснований підрахунок так званих довірчих інтервалів, тобто інтервалів, в яких знаходиться істинне (для генеральної сукупності) значення ознаки. Але це тільки для тих величин (характеристик), для яких відомий закон розподілу. Вони називаються статистиками. Середнє арифметичне і є статистикою з нормальним законом розподілу. Для неї легко визначається довірчий інтервал. 

 Інші заходи варіації 

 Розглянемо міру варіації, міру відхилення, міру розсіювання значень ознаки навколо медіани. Такою мірою є квартильное розмах, з яким ми зустрічалися при побудові шкали Л. Терстоуна. Згадаймо, що змістовно це інтервал, в якому навколо медіани зосередилося 50% експертів. Це єдина міра варіації для порядкових шкал. На рис. 3.2.4 три пунктирні лінії проведені для визначення медіани та відповідного їй квартильное розмаху {він дорівнює (Q3 - Q1) / 2}, Без порівняльного контексту важко сказати, мало це чи багато. Для соціолога пізнавальна можливість будь-якого математичного конструкту, а це поки найпростіші формули на рівні буденного розуміння, визначаються тільки в порівняльному контексті, т.

 е. при порівнянні значень, отриманих у різних умовах. 

 Перейдемо до найважчим для розуміння заходам - заходам якісної варіації, тобто заходам варіації для ознак, виміряних по номінальним шкалами. Найголовніше, що будь-яка така міра характеризує ступінь відхилення розподілу ознаки від рівномірного, тобто коли кожної градації ознаки відповідає одне і те ж число об'єктів. Максимальне значення заходи зазвичай відповідає ситуації рівномірного розподілу, а мінімальне - ситуації, коли всі об'єкти зосереджені в одній градації. 

 Як ми знаємо, будь номінальний ознака зводиться до сукупності бінарних, дихотомічних, тобто приймають значення 0 або 1. У цьому випадку стовпець нашої вихідної матриці даних «об'єкт-ознака», відповідний одній ознаці, перетворюється як би в декілька стовпців, кожен з яких відповідає окремому властивості (бути соціологом, бути політологом і т. д.). Аналізувати ми повинні тепер поведінка «властивості», а не ознаки. По всіх об'єктах це сукупність з нулів та одиниць. 

 0000 1 1 1 1 1 1 ... 00 1 1 1 

 Припустимо, що цей ряд отриманий по властивості - бути в майбутньому соціологом. Якщо i-й студент - соціолог, то йому відповідає хі = 1, а якщо він не соціолог, то хі = 0. Виявляється, для такого виду даних має сенс середнє арифметичне. Вона дорівнює X = k / n, де k - число майбутніх соціологів, an - число всіх студентів-гуманітаріїв. 

 Чому має сенс середня арифметична для дихотомічної шкали? Тому що вона змістовно інтерпретується. Якщо X = 0, то це означає, що всі студенти-гуманітарії в нашій вибірці соціологи. Якщо X = 1, то всі студенти - соціологи. Якщо X = 0,5, то половина студентів X майбутні соціологи, а половина - НЕ соціологи. Продовжуючи наші міркування, можна зробити висновок і для випадків, _когда 0  5  Таким чином, як це не парадоксально, можна обчислювати середнє арифметичне за ознакою «стать». Тільки важливо правильно інтерпретувати отриманий результат, виходячи з того, яким чином закодований ця ознака. Зрозуміло, соціологу немає ніякого сенсу у використанні такого роду середньої, що відбиває «центральну тенденцію». Він прекрасно працює з відносними частотами в%. Наведена середня цікава не для цілей первинного аналізу, а для аналізу з застосуванням складних математичних методів. Наприклад, для такої середньої можна підрахувати дисперсію. Якщо для дихотомічних ознак має сенс використання характеристик метричної шкали, значить, можливе використання і математичних методів, що працюють з метричними даними. Дисперсія в даному випадку дорівнює: 

 Ця дисперсія і є мірою варіації для бінарного (дихотомічного) ознаки. При цьому вона дорівнює нулю, якщо всі об'єкти або мають, або не володіють аналізованих властивістю. Що природно, тому що в цих випадках розкиду в даних не спостерігається. Максимальне значення цієї дисперсії досягається у випадку рівномірного розподілу (k = n / 2), і воно дорівнює 1/4. При цьому X = 1/2, а = 1/2, V = 100%. 

 Нагадаю вам одне правило зі шкільної арифметики. Якщо є два цілих числа, то середнє геометричне цих чисел завжди менше або дорівнює середньому арифметичному. Рівність досягається, коли числа рівні. 

 Jab <(а + b) / 2 

 Цим співвідношенням і скористаємося для введення коефіцієнта якісної варіації. Спочатку припустимо, що номінальний ознака має тільки дві градації, причому в першу градацію потрапило Ni об'єктів, а в другу-N2 об'єктів {число всіх об'єктів одно n = Ni + N2,). І якщо тепер у співвідношення між середньою арифметичною і середньої геометричної підставити 

 а = N12; b = Nт отримаємо N1 - N2 <(n12 + N2) / 2 Максимальне значення N, - N2 буде тільки у випадку N1 = N2, і воно буде дорівнює п2 / 4. А це ж випадок рівномірного розподілу. Коефіцієнтом якісної варіації і буде ставлення реального значення твору (N, - N2) до максимального його значенню, рівному п / 4. 

 Коефіцієнт дорівнює нулю, якщо всі об'єкти в одній градації, і одиниці, якщо розподіл рівномірний. Коефіцієнт легко узагальнюється на випадок, коли число градацій одно k. Уявімо собі, що з усієї 

 сукупності об'єктів ми утворили всілякі пари. Згадаймо 

 метод парних порівнянь Терстоуна і обчислення числа всіляких пар 

 для порівняння об'єктів. Тут ситуація аналогічна. Пари не повторюються, 

 об'єкт сам з собою пару не утворює. У випадку двох градацій твір 

 (N1 - N2) є не що інше, як число пар, різних між собою. 

 Якщо градацій три і по них частоти рівні (N1, N2, N3), то число 

 різних пар дорівнюватиме (NrN + NrN + N2-N3). Число членів у цій 

 сумі обчислюється як число парних поєднань з трьох елементів по два. 

 Згадуємо, що це число дорівнює k (kl) / 2, коли число елементів одно к. 

 Тоді коефіцієнт варіації обчислюється як відношення: 

 € реального числа різних пар, рівного (N1-N2 + N1-N3 + N2-N3); 

 € до максимального (випадок рівномірного розподілу), рівному 

 {(N2 / 9) (3 - 2/2)}. У перших круглих дужках - те, у що перетворюється 

 кожен член суми, а в других - число членів у цій сумі. 

 У загальному випадку для до градацій реальне число пар дорівнює 

 Пк-1 до П г т 

 ?? ? NiNj про а максимальне - {(n2/к2) (к (до -1) / 2)}. Таким чином, 

 ? i = 1 j = 2? 

 формула для обчислення коефіцієнта якісної варіації наведена по частинах, тобто окремо чисельник (реальне) і окремо знаменник (максимальне). 

 Коефіцієнтом варіації (R) може служити і величина, що дорівнює середньому геометричному з відносних частот в частках (частості) помноженому на число градацій, тобто 

 Для обчислення цієї величини необхідно позбутися від порожніх градацій, інакше вона звернеться в нуль. R = l при рівномірному розподілі. 

 Наведемо ще один приклад обчислення заходи якісної варіації. У якості такого заходу служить ентропія, про яку ми згадували в контексті «мови» аналізу розподілів, що спирається на інформаційний підхід. Ентропія - це основне поняття так званої теорії інформації. Розподіл ознаки інтерпретується як якесь повідомлення, що несе певний обсяг інформації. Цей обсяг можна оцінити ентропією як мірою 

 «Визначеності» / «невизначеності». Її важко пояснити і важко зрозуміти без знання логарифмів і логарифмічних законів розподілу. Більш того, чудові властивості цієї заходи можуть бути оцінені тільки при багатовимірному аналізі. Поки вам доведеться просто цьому повірити. Отже, ентропія Н (х) при числі градацій рівному до і при позначенні i-й частости (частки) через р.; дорівнює: 

 Н (х) = -? Pi log Pi 

 i = 1 

 Логарифм може бути взятий за будь-якої підстави, бо неважко перейти від однієї підстави до іншого. Нагадаємо, що є натуральний логарифм (по підставі «е»), десятковий (по підставі «10»), двійковий (по підставі «2»). 

 Ентропія - позитивна величина, незважаючи на те, що перед сумою варто мінус. Він погашається іншим мінусом, які з'являтимуться за рахунок того, що логарифм береться від правильного дробу (це вам відомо зі шкільної математики). Значення ентропії дорівнює нулю, якщо всі об'єкти зосереджені в одній градації (але щоб це показати, потрібні знання про «межах» - lim). Справді, тоді міра невизначеності мінімальна. Ентропія дорівнює log k, якщо розподіл рівномірний, тобто в цьому випадку максимальна невизначеність. Щоб значення заходи не залежало від числа градацій, можна використовувати в якості міри якісної варіації нормовану величину ентропії. 

 Термін нормировка буде далі зустрічатися часто. Це процедура перетворення деякої величини в необхідний для дослідника вигляд. Вона потрібна для того, щоб якісь показники / коефіцієнти / індекси змінювалися або від 0 до 1, або від -1 до +1. Тоді робиться можливим порівняння їх значень, отриманих за різних умов, наприклад, для різних сукупностей об'єктів. 

 На практиці користуються в порівняльному контексті тільки одним заходом якісної варіації, бо кожна міра відображає своє власне розуміння варіації. Тому значення, отримані за різними заходам, не має сенсу порівнювати. 

 Аналіз «поведінки» динамічних рядів 

 Коротко зупинимося на аналізі динамічних рядів. Емпірична крива розподілу в цьому випадку будується за конкретним значенням ознаки. На рис. 3.2.9 зображений динамічний ряд - зміна коефіцієнта народжуваності за сто років в деякій країні X. По горизонталі позначені 10 точок, кожна з яких відповідає п'ятирічному інтервалу. По вертикалі відкладені значення коефіцієнта народжуваності в середньому за відповідну п'ятирічку. Приклад модельний. Ми не знаємо, яка це країна і яке це сторіччя. 

 0.5 0 

2

 1,5 

 Рис. 3.2.9 Динамічний ряд зміни народжуваності 

 2,5 

 Всі розглянуті вище заходи центральної тенденції можуть використовуватися і для аналізу часових рядів. Якщо зміни значення ознаки спостерігаються (як у нашому випадку), то основним питанням при аналізі часових рядів є його «вирівнювання» і визначення «тренда», тобто кривої, що характеризує загальну тенденцію зміни ознаки, тобто закон поведінки коефіцієнта народжуваності . Іншими словами, з'являється необхідність в описі емпіричної кривої з допомогою математичної функції або визначення теоретичного закону розподілу, максимально наближеного до емпіричної кривої. Тільки після визначення тренда можна передбачити значення ознаки в наступних часових точках. До речі сказати, знайти закон не завжди вдається. Тоді аналіз проводиться по окремих частинах емпіричної кривої розподілу. 

 Якщо на емпіричної кривої розподілу спостерігаються циклічності, то вирівнювання замінюється згладжуванням «ковзної середньої» із значень, число яких охоплює цикл. Можна вивчати і «лаги». «Лаг» - показник випередження або відставання одного явища (в нашому випадку коефіцієнта народжуваності) від іншого. Наприклад, від заходів, прийнятих для підвищення народжуваності. 

 Існує ціла галузь науки, яка займається проблемами аналізу динамічних рядів. У соціології такі ряди зустрічаються при роботі з першим із п'яти виділених нами типів інформації, а саме з державною статистикою. В основному з тимчасовими рядами працюють фахівці в області аналізу соціальних систем і соціальної демографії. 

 Завдання на семінар або для самостійного виконання 

 Завдання виконується індивідуально і складається з наступних етапів: 1.

 За даними перших двох таблиць, отриманих кожним студентом в 

 рамках попереднього завдання, необхідно побудувати гістограми. Переконатися в тому, що гістограми побудовані для ознаки по 

 абсолютним частотам, часткам і відсоткам, будуть збігатися при виборі певного масштабу. 2.

 Підрахувати для третьої ознаки щільність в кожному інтервалі. Побудувати гістограму по щільності. 3.

 Зобразити на гистограммах емпіричну криву розподілу. 4.

 Побудувати за накопиченою частоті гистограмму для порядкової шкали і зобразити кумуляту і геометрично визначити медіану в медіанному інтервалі. Г еометріческі визначити квартальний розмах. 5.

 Розбити метричну шкалу на рівні інтервали (порядку 15-ти 

 інтервалів). Обчислити щільність в кожному інтервалі і побудувати, 

 гистограмму. Окреслити модальний інтервал і в ньому геометрично 

 визначити значення моди. 6.

 Підрахувати по метричній шкалі середнє арифметичне 

 значення і середнє зважене за розподілом. Порівняти їх значення. 7.

 Обчислити дисперсію і середньоквадратичне відхилення третьої ознаки для груп, виділених при різних значеннях першої ознаки. 8.

 Порівняти ступінь однорідності цих груп (п. 7) за значеннями коефіцієнта варіації. 9.

 Підрахувати ентропію першої ознаки для двох груп, вибраних за різним значенням другої ознаки. 10.

 Обчислити для цих же груп (п. 9) значення коефіцієнта якісної варіації. Провести порівняльний аналіз. 3.

« Попередня Наступна »
= Перейти до змісту підручника =
 Інформація, релевантна "АНАЛІЗ ХАРАКТЕРУ« ПОВЕДІНКИ »ОЗНАКИ"
  1. Ставлення протилежності
      ознаки, а інше - ознаки, несумісні з ним. Наприклад, відносини між поняттями «високий» (А) і «низький» (В) (рис. 6). Пунктиром і суцільний кривої зображено родове поняття «зростання». Поняття В містить ознаки, несумісні з ознаками поняття А. Рис.
  2. 7.3. Основні розумові операції
      аналізом, синтезом, порівнянням, узагальненням, конкретизацією і абстрагуванням. У зв'язку з останнім ці операції відносять до операційних компонентів мислення. Аналіз - це уявне розчленування предмета або явища на складові властивості або частини. Уявного аналізу завжди передував практичний. Вже в розбиванні горіха мавпою є зачатий 1лава 7. Мислення 75 ки аналізу. Для
  3. Визначення і порівняння понять
      аналізувати цілий ряд ознак предмета явища і виділити з них найбільш суттєві. Ступінь точності визначення залежить від ознак, які вибирає обстежуваний для характеристики того чи іншого предмета або явища. Найбільш точним вважається (М. Л. Кононова, 1963) визначення, при якому відзначається родове і видове розходження (наприклад, «стіл - це меблі, необхідна в побуті або
  4. Ставлення протиріччя
      ознаки, а інше ці ж ознаки виключає. Наприклад: «студент» і «не студент». Рис.
  5. 1.1. Загальна характеристика понять
      аналізі відносин між
  6. Склад злочину
      характеру зв'язку між його 'елементами. Тому для більш глибокого розкриття методологічної функції складу злочину необхідно зупинитися на проблемі зв'язку між суб'єктивною й об'єктивною
  7. 3.1. Інтерпретація вихідних даних - ключовий момент вимірювання
      аналіз ..., 1987, гл. I]. Саме в понятті інтерпретації даних по суті відбивається «стикування» емпіричного і теоретичного (про ці категоріях див., наприклад, [Мітін, Рябушкин, 1981; Швирьов, 19781). У це поняття кожен дослідник включає щось своє, яке визначається його апріорним баченням досліджуваних об'єктів і явищ. Проте існують деякі такі аспекти інтерпретації, які
  8. ФА як спосіб одновимірного шкалювання
      аналізу в одновимірному соціологічному шкалировании. Отже, суть тестового підходу до виміру латентної змінної в розглянутому випадку (ми розглядаємо одномірне шкалювання, тобто н принципі мова йде лише про одну латентної змінної, або, як кажуть у факторному аналізі, - про одного латентному факторі) визначається такими передумовами: - існує деяка (єдина)
  9. 2. Класифікація способів захисту цивільних прав
      характеру, застосовувані до порушників цивільних прав компетентними державними чи іншими
  10. § 6. Чи може «хотіти» Небуття?
      ознакою слабкості, якої не повинно володіти Небуття? Обмовимося, що є два типи «хотіння». Перший - ознака слабкості, другий - ознака могутності. Ознака слабкості проявляється у бажанні «бути більше і значніше» того, чим є насправді. А це до Небуття ніяк не може ставитися, адже будучи за розмірами нескінченним, а за силою - всемогутнім, воно володіє всіма формами досконалості.
  11. 53. Поняття і сутність злочину.
      характер суспільної небезпеки (кач ознака) і ступінь суспільної небезпеки (кількісний ознака). Характер суспільної небезпеки визначається об'єктом посягань. Ступінь заг Опан залежить від тяжкості злочину, який визначається розміром і хар-ром шкоди, заподіяної суб'єктом, способом вчинення злочину. Запрещенность УЗ (протиправність) Протиріччя діяння
  12. 17. Тлумачення норм права: поняття, види
      аналіз юридичного тексту з використанням правил мовознавства - граматики, орфографії. Правила граматичного тлумачення: словам і формулювань надається загальновживане значення якщо в законодавстві існує нормативне визначення терміна (формулювання), слід використовувати термін саме в цьому значенні значення терміна, нормативно встановлене для однієї галузі права, не можна без
  13. 3.1. Правова система і правова сім'я
      ознаки. При цьому одні правові системи мають більше таких ознак, ніж інші. Для позначення окремих груп правових систем на основі спільності їх ознак використовується поняття «правова сім'я». Кожна правова система і правова сім'я складалися під впливом традицій, правосвідомості, способу мислення і культурного рівня людей і т. п. Проте основним критерієм класифікації
© 2014-2022  ibib.ltd.ua