Головна |
« Попередня | Наступна » | |
ЗАХОДИ ЗВ'ЯЗКУ: ЗАСНОВАНІ НА МОДЕЛІ ПРОГНОЗУ І РАНГОВЕ |
||
Модальні заходи Гуттмана, Порівняння розподілів допомогою заходів Л, Гудмена і Е, Краскала, Коли соціолог має справу з ранжируваних рядами? Принцип порівняння ранжируваних рядів, пов'язані ранги, Коефіцієнти рангової кореляції Д, Гудмена і Е, Краскала, Р, Сомерс, М, Дж, Кендалла, Спочатку ми наведемо приклади коефіцієнтів зв'язку для ознак, що мають по- раніше номінальний рівень вимірювання. Особлива увага до такого роду заходам цілком виправдано. Специфіка соціологічних даних така, що соціолог в основному працює з номінальним рівнем вимірювання. Виняток становлять перший (державна статистика) і третій (бюджети часу) типи соціологічної інформації. Як і раніше, як приклад розглядаємо зв'язок між майбутньою професією студента і задоволеністю навчанням. Це попри те, що другий з них виміряно по порядкової шкалою. Поки цю впорядкованість ніяк не використовуємо. Соціологу доводиться часто так чинити, бо він завжди працює з емпірією в ситуації разнотипности шкал. Заходів, що враховують цю різнотипність, мало, і вони не завжди задовольняють потребам соціолога. В силу цього доводиться навмисно йти на «огрубіння» даних і працювати в ситуації номінального рівня вимірювання навіть тоді, коли йдеться про порядкові і «метричних» шкалах. Слід вас застерегти, У багатьох роботах, згаданих у списку літератури, містяться різного роду неточності і деякі помилки в написанні формул, Тому при самостійному вивченні слід перевіряти ще формули, порівнюючи їх з аналогічними з інших джерел, Перш все розглянемо заходи, засновані на так званій моделі прогнозу. Це вже ніби інший «мова» аналізу таблиць спряженості. Для соціолога поняття «прогноз» носить не тільки багатозначний характер, але до цього поняття ставлення дуже обережне і трепетне. Якщо на основі емпіричних даних і можна щось прогнозувати, передбачати, то в досить вузькому сенсі розуміння прогнозу. При цьому хід міркувань приблизно такий. Якщо нічого не зміниться, то може бути те-то і те-то. Соціологи-математики (такі теж є) термін «прогноз, передбачення» вживають в ще більш вузькому сенсі, але дуже часто [4, 5]. Ми також будемо користуватися поняттям «прогноз» в дуже вузькому сенсі. Спробуємо коротко і грубо прояснити, в якому сенсі. У нас з вами є одномірне розподіл якогось ознаки. Нагадуємо, що під ознакою розуміємо як окремо взятий емпіричний індикатор (спостережуваний ознака), так і похідний від емпіричних індикаторів показник. Нехай таким ознакою буде задоволеність навчанням (У). Розподіл цієї ознаки можемо інтерпретувати так. Є значення ознаки (різні ступеня задоволеності навчанням), і є ймовірності цих значень (відносні частоти в долях або частості). А, точніше, оцінки ймовірності, отримані за вибіркою. Все, що розраховується за вибіркової сукупності, називається оцінками істинних (існуючих для досліджуваної генеральної сукупності) значень. Зрозуміло, соціолог може опускати термін «оцінка», якщо розуміє, про що йде мова. Для простоти ми будемо чинити так само. Отже, наші ймовірності P0j рівні маргінальним частотам за стовпцями (саме вони відповідають ознакою (У) - задоволеність навчанням), діленим на загальне число опитаних студентів-гуманітаріїв no - (n00). У вигляді формули це виглядає так: Р0. = - ^. Тоді, за наведеною n00 нижче таблиці 3.5.1 (це та ж таблиця спряженості, з якою ми постійно працюємо), ймовірності п'яти ступенів задоволеності навчанням рівні:
Ці ймовірності можна інтерпретувати як ймовірності статистичного передбачення (У). Ми ж їх отримали по «хорошою» вибірці. Тому якщо з нашої досліджуваної генеральної сукупності студентів-гуманітаріїв випадково виберемо деякого студента, то ймовірність того, що у цього випадкового студента виявиться максимальна задоволеність навчанням, дуже мала. Це тому, що за вибіркою вона дорівнювала всього лише 0,05. Імовірність «відгадати» всі інші варіанти задоволеності навчанням теж невелика бо вони, як бачите, не більше, ніж 0,3. При цьому саме поняття «ймовірність» можна трактувати на рівні буденної свідомості. Тільки в повсякденному житті вам зазвичай говорять, наприклад, «ймовірність того, що у мене завтра буде поганий настрій для прогулянки, дорівнює 90%» або «ймовірність того, що я завтра прийду до тебе в гості, менше 50%» або «ймовірність нашої можливої зустрічі «фіфті - фіфті» (50 на 50) ». І ви завжди розумієте, що це означає. При цьому такі судження ви інтерпретіруете не так кількісно, скільки якісно. А в математичних формулах користуються не відсотками для оцінки ймовірності, а частками - частостей - і, відповідно, імовірність приймає цілком конкретне значення з інтервалу від 0 до 1. Тепер цілком правомірно поставити питання: Як зміняться розраховані нами ймовірності мати ту чи іншу ступінь задоволеності навчанням, якщо залучити до аналізу друга ознака (майбутню професію студента)? Можна питання поставити і по-іншому: Наскільки знання майбутньої професії додасть знання про задоволеність навчанням? Або: Наскільки інформація про майбутню професію змінить інформацію про задоволеність навчанням? Пошук відповіді на останнє питання породжує заходи зв'язки, засновані на понятті ентропії (ми торкалися цього поняття при введенні якісних коефіцієнтів варіації). Такого роду заходи ми не будемо розглядати. Ви можете з ними познайомитися в роботах [3, 8, 11]. Перше наше запитання можна поставити й так: Як і наскільки зміняться ймовірності передбачення задоволеності навчанням, якщо врахувати майбутню професію? Як ви вже здогадуєтеся, по суті мова йде про знання умовних розподілів нашого ознаки (У) або умовних частот, або умовних ймовірностей, тобто ймовірностей, які логічно позначити як Р. ... Індекс перший (j) відноситься до стовпців, тобто до задоволеності навчанням (ознака У), другий (i) відноситься до рядків, тобто до майбутньої професії (ознака X), а коса риса підкреслює, що ознака (X) є умовою. Існують всілякі коефіцієнти, що допомагають знайти відповідь на подібні питання. Як видно з наших міркувань, вони повинні бути спрямованими і носити, так само як і заходи, засновані на хі-квадрат, характер «глобальний», тобто давати оцінку зв'язку в цілому для всієї таблиці спряженості на відміну від локальних заходів (зв'язок окремих властивостей). Якщо для когось термін «пророкування» залишився поки незрозумілим, то при описі пропонованих нижче заходів якомога рідше будемо користуватися цим терміном. Заходи X (лямбда) Л. Гуттмана (L. Guttmann) Таких заходів три, дві з них спрямовані, а одна являє собою усереднення перших двох. Ми наведемо тільки одну Ху / г. Цей захід, цей коефіцієнт характеризує в разі нашого завдання вплив майбутньої професії (X) на задоволеність навчанням (У). Відповідає на запитання, наскільки змінюється пророкування (У) при знанні (X). Нижче наводиться формула, в якій використовуються відомі вам позначення, за винятком: пішах - максимальна частота в i-й рядку: потах - максимальна частота серед маргінальних частот по стовпцях. П nimax - n0max X / x =-i - n00 n0max Ця формула була б зрозуміліше, якщо замість частот використовувати частости (частки), що інтерпретуються як імовірності [11, с. 126]. Таку формулу ми не будемо наводити, щоб не лякати зайвими формулами. Відзначимо лише, що в літературі наводиться як формула, записана через абсолютні частоти, так і через частости. Крім того, прізвище Гуттмана теж приводиться по-різному. Наприклад, Гудман в роботі 8, с. 131. Це не так уже й важливо. Для того щоб пояснити змістовний сенс цього заходу, цього коефіцієнта, нижче наводиться та ж таблиця спряженості, з якою ми постійно працюємо для вивчення взаємозв'язку між «майбутньою професією студента» (ознака X) і «задоволеністю навчанням »(ознака У). Таблиця 3.5.1 містить ті ж частоти, що і таблиця 3.3.1, за винятком позначень самих частот. У неї доданий новий стовпець - останній з максимальними частотами по всіх рядках, включаючи рядок з маргінальними частотами за стовпцями. Вони нам необхідні для обчислення коефіцієнта Аух Гуттмана. Таблиця 3.5.1 Таблиця спряженості двох ознак (У) і (X). : Майбутня професія студента (X) Ступені задоволеності навчанням (У) Маргінальні частоти по рядках Але Максимальні частоти по рядках IІ-1 ьш 1 2 3 4 5 1. Політолог 14 20 31 30 5100 0 | ш = 3! 2.Соііолог 30 40 60 60 10 200 Н 'та * = 60 3.Культуролог 90 90 60 45 15 300 Пітлі = 90 4.Філолог 31 30 19 15 5 100 І "1 -) гаж = 31 5-Психолог До 15 жовтня 15 лютого 50 ^ 5 лих - 1 ^ б.Історік 27110 15 85 13150% п, ж = чо маргінал ні частоти по стовпцях iV) i +200300200250 50 ц *> = 1000 Пощдх - 300 Чому ж дорівнює коефіцієнт у нашому випадку? Він розраховується дуже просто. . (31 + 60 + 90 + 31 +15 +110) -300 ППС Ау, х == 0, 05 у / х 1000 - 300 Навіть по тому, як обчислюється коефіцієнт, видно, що він дозволяє визначати, чи існують в рядках модальні групи, т. е . чи є в кожній професійній групі яскраво виражена, часто зустрічається «ступінь задоволеності навчанням». Судячи з нашої таблиці, таких груп практично немає, що і підтверджується маленьким значенням коефіцієнта. Якими ж властивостями володіє цей коефіцієнт? 1. Він змінюється від нуля до одиниці. 2. Він дорівнює одиниці тільки в одному випадку, коли в кожній професійній групі всі студенти мають однаковий ступінь задоволеності навчанням і при цьому в кожній відмінну від іншої. Якби наша таблиця спряженості при тих же маргінальних частотах мала б такий вигляд, як це представлено в таблиці .3.5.2, коефіцієнт був би рівний 0,86. л (100 + 200 + 300 + 100 + 50 + 150) - 300 900-300 1000-300 "700 ~ ' Таблиця 3.5.2 Таблиця спряженості двох ознак (для X у / х = 0,86) Майбутня професія (X) Ступені задоволеності (У) Маргінальні частоти по рядках Максимальні частоти по рядках МАХ 1 2 3 4 5 П <п 1. Політолог 0 0 100 0 0 ИЮ Tl | max = 1 00 2.Соціологія 200 0 0 0 0 200 mwi = 200 3.Культуролог 0300 0 0 0300 Щ пік = 300 4.Філолог 0 0 0 100 0 100 Щ тм. = 100 5-Психолог 0 0 0 0 50 50 П5 та * -50 б.Ісгорнк 0 0100150 0250 П & max "150 Маргінал ьние частоти по стовпцях П0І 200300200250 50 rifjri "? 1000 »() nw = 300 Отже, візуально ми спостерігаємо наявність модальних груп у рядках, крім останньої. Якби в нашій таблиці число рядків дорівнювало числу стовпців, наприклад, не було б істориків, то коефіцієнт дорівнював би 1, а таблицю можна було б перестановкою стовпців перетворити на таку, в якій тільки діагональні елементи відрізнялися б від нуля. Таким чином, за значенням коефіцієнта можна судити про ступінь відмінності реального таблиці від діагональної. Значення коефіцієнта дорівнює нулю в декількох випадках. Перший - всі частоти зосереджені тільки в одному рядку. Насправді знання ознаки X нема чого не дає для збільшення знання про У. Другий випадок - відсутність феномена модальності, тобто, умовно кажучи, повна «розмитість» даних у таблиці. По таблиці 3.5.1 ми отримали значення, близьке до нуля і рівне 0,05. Практично модальність не спостерігається. І нарешті, третій випадок, коли всі частоти зосереджені тільки в одному стовпці. Цей випадок заслуговує на особливу увагу, бо суперечить основному змісту коефіцієнта. Якщо дані зосереджені в одному стовпці, то природно модальні класи існують. Тоді й ймовірність передбачення значення У за значенням X повинна дорівнювати одиниці. А наш коефіцієнт дорівнює нулю. Тут ми спостерігаємо ситуацію, коли коефіцієнт погано поводиться в нулі. Запам'ятайте цю фразу. Ви будете зустрічатися з подібними фразами і у випадку інших коефіцієнтів. Щоб виключити невірну інтерпретацію нульового значення, необхідно по одномерному розподілу уточнити, чи не чи зосереджені дані тільки в одному стовпці. Такий випадок також не зустрічається в соціологічній практиці. Представляється важливим відзначити, що в реальних дослідженнях значення коефіцієнта Гуттмана дуже малі і використовувати їх потрібно так само, як і багато інших коефіцієнти в порівняльному контексті, наприклад, для ранжирування як би незалежних між собою ознак за ступенем їх впливу на деякий особливо важливий для дослідника ознака, що позначається як цільової, залежний. Якщо такого немає, то направлення коефіцієнти «лямбда» використовувати не має особливого сенсу. Заходи т (тау) Л. Гудмена і Е. Краскала (L. Goodman, Е. Kruskal) Ці заходи, на мій погляд, цікаві соціологу, бо з ними можна працювати в порівняльному контексті, не звертаючи особливої уваги на всякі значущості. Таких заходів взагалі-три, як і у випадку заходів Гуттмана. Перші дві з них спрямовані, а третя як би усредняет перші два. Ми розглянемо тільки одну з них. Для цього знову звернемося до нашої таблиці спряженості 3.5.1. При цьому згадаємо і рис. 3.3.1. На цьому малюнку були зображені емпіричні криві розподілу задоволеності навчанням в кожній професійній групі - майбутні професії студентів-гуманітаріїв (ми вже позначили ці ознаки через У і X). Візуально ми з вами спостерігали наявність трьох типологічних синдромів за характером розподілу ознаки У. Іншими словами, три типи структури задоволеності навчанням. Жоден коефіцієнт глобального характеру не дозволить визначити, скільки типів структур спостерігається. Якщо соціолога цікавлять такі групи, то до застосування всяких коефіцієнтів представляється доцільним хоча б візуально на комп'ютері переглянути графіки такого виду, які зображені на рис. 3.3.1 і рис. 3.3.2. Той же коефіцієнт, який ми розглянемо, дозволяє в цілому визначити ступінь відмінності умовних розподілів У від безумовного. Нижче наведемо формулу. У ній будемо використовувати позначення вірогідності (умовних і безумовних), введених на початку цього розділу. Цього разу формулу запишемо не мовою абсолютних частот, а мовою ймовірності - частки, частости. У літературі вона приводиться зазвичай через абсолютні частоти [1, с. 36, 3, с. 36]. Дві перші формули служать для обчислення безумовних ймовірностей. Їх значення наведені відповідно в останньому рядку таблиці 3.5.3 і в останньому стовпці. Третя формула - для обчислення Якщо ви підставите в цю формулу замість ймовірності (точніше оцінок ймовірності) частоти, то отримаєте формулу, що приводиться в літературі, тобто: Один з гріх коефіцієнтів т (may) Гудмена і Краскала виглядає наступним чином. Г
умовної ймовірності. Значення такої ймовірності наведені в осередок таблиці 3.5.3. Вони аналогічні даними таблиці 3.3.2 (верхнє ліве значення в осередках). Табліщ 3.5.3 Таблиця спряженості (умовні та безумовні ймовірності) Майбутня професія студента Ступінь задоволеністю навчанням Безумовні ймовірності До 1 2 3 4 5 1. Політолог 0,14 0.20 0,51 0,30 0,05 0.10 2. Соціолог 0,15 0,20 Q.3Q 0,05 0.20 3. КУЛЬТУООЛОГ о,? про 0,30 , 20 М5 0.Q5 0.30 4. Філолог 0,31 0,30 0,19 0,15 (Ш 0.10 5. Психолог 0,16 0,20 0,30 0,30 0,04 0.05 6. Історик 0,11 0,44 0.06 0,34 0.05 0,25 Безумовні ймовірності Р_ 0,20 0,30 0,20 0,25 0.05 N = 1000 Коефіцієнт «т» чимось нагадує і «хі-квадрат», і X Гуттмана. Проте він не такий «прозорий» для пояснення, як ці коефіцієнти. Взагалі-то кажучи, якщо все можна було б описувати і пояснювати в соціології вербально, то, може, мова математики був би і не потрібен. І що цілком очевидно, чим ближче мову математики до мови соціолога, тим він складніше. Все таки спробуємо прояснити змістовний сенс наведеного коефіцієнта. Насамперед необхідно пояснити, навіщо при порівнянні розподілів всякі квадрати. У чисельнику квадрат за аналогією з формулою дисперсії. Для того щоб врахувати відхилення умовної частоти від безумовної в одну й іншу сторону. У знаменнику сума квадратів безумовних ймовірностей. Проста їх сума завжди дорівнює одиниці. Це ви знаєте. Такий знаменник - кількісна характеристика розподілу по стовпцях (безумовне розподіл по У). Чисельник несе в собі основний зміст коефіцієнта. У чисельнику в дужках - відхилення умовної ймовірності від безумовної ймовірності У. Природно, всі відхилення підсумовуються за всіма значеннями У (по всіх стовпцях). У свою чергу такі величини, отримані по кожному рядку (за кожним умовного розподілу У) підсумовуються як би з вагами, рівними безумовної ймовірності по рядку. Тим самим рядки зрівнюються в «правах» за внесок в значення коефіцієнта. Нагадаю, що при обчисленні величини «хі-квадрат» ми зрівнювали в «правах» осередки таблиці спряженості, а тут - рядки. Коефіцієнт т (may) Гудмена і Краскала має такі властивості: 1. Приймає значення від нуля до одиниці. 2. Дорівнює нулю, якщо структура розподілу за рядками однакова і така, як структура розподілу маргінальних (по стовпцях) частот. У цьому випадку спостерігається статистична независимост У від X. Майбутня професія не впливає на задоволеність навчанням. 3. Дорівнює одиниці, якщо майбутня професія студента повністю детермінує його задоволеність навчанням. Кожній професії відповідає своя власна ступінь задоволеності навчанням. Чисто формально це означає, що таблицю спряженості можна привести до діагонального вигляду. Справді, для таблиці 3.5.2 значення коефіцієнта дорівнює т у / х = 0,83 Обчислимо значення коефіцієнта для нашої таблиці 3.5.3. Щоб обчислити чисельник, потрібно скласти 6 (для всіх рядків таблиці) величин. Кожна така величина дорівнює 0,1 {(0,14-0,20) J + {0,20-0,30) - + (0,31-0,20) г + {0,30-0,23) 5 + Для інших рядків ця величина відповідно дорівнює 0,0045; 0, 006; 0,0022; 0,00121; 0,01385. Таким чином, значення чисельника Тоді значення коефіцієнта дорівнюватиме ту / г = 0,03. Таке невелике значення коефіцієнта говорить про відсутність впливу майбутньої професії на структуру задоволеністю навчанням. Імовірність передбачення задоволеності навчанням практично не зміниться, якщо враховувати майбутню професію. До цих пір ми з вами розглядали тільки міри зв'язку для номінальних ознак, бо вони частіше за інших зустрічаються в соціологічних даних. При цьому, аналізуючи дані нашої таблиці спряженості, ми не звертали уваги на те, що одна з ознак мав порядковий рівень вимірювання. Не використовувати інформацію про впорядкованість - значить навмисно відмовитися від цінної інформації. Зрозуміло, існують коефіцієнти, що дозволяють врахувати те, що один з сполучених ознак виміряно по порядкової шкалою. Існує так званий ранговий бісеріальний коефіцієнт для випадку вивчення зв'язку між дихотомічним (тому коефіцієнт називається бісеріальний) номінальним ознакою і ранговим [2, с, 165 - 167, 8, с. 139, 11, с, 121], При цьому для випадку незв'язаних рангів, Нагадаємо, що з ситуацією пов'язаних рангів ми зустрічаємося, якщо в ранжированном ряду є однакові ранги, Також існує точковий бісеріальний коефіцієнт для випадку вивчення зв'язку між дихотомічним номінальним ознакою і «метричним », Рангові коефіцієнти зв'язку Ранговими коефіцієнтами зв'язку називаються міри зв'язку, що дозволяють обчислювати ступінь узгодженості в ранжуванні одних і тих же об'єктів за двома різними підставами або за двома різними ознаками. Ми неодноразово посилалися на необхідність для соціолога такого роду коефіцієнтів. Наприклад, при побудові шкали сумарних оцінок з'являлася необхідність у перевірці узгодженості результатів, отриманих за підсумковою шкалою, з даними по вихідним шкалами (судженням). Коефіцієнтів рангової кореляції багато. Для того щоб зрозуміти їх схожість і відмінність, необхідно спочатку трохи відійти від таблиць спряженості і нашого завдання. А вам доведеться повернутися до розділу книги, присвяченому процедурі ранжирування. Як було зазначено, така процедура виникає у соціолога як на етапі вимірювання, так і на етапі аналізу даних. У будь-якому випадку виникає завдання визначення ступеня узгодженості двох ранжируваних рядів. Уявімо собі, що для однієї і тієї ж сукупності об'єктів отримали два ранжируваних ряду. Наприклад, по тим же майбутнім професіям студента. Значить, об'єктів у нас всього шість по числу професій. Хай перший ряд отриманий за ступенем зменшення індексу задоволеності навчанням. Другий ряд - за ступенем зменшення індексу впевненості у працевлаштуванні за професією після закінчення вузу. Далі будемо коротко називати ці ознаки - «задоволеність» і «впевненість». У даному контексті ми не будемо обговорювати питання, яким чином виміряні ці ознаки як характеристики групи. Зауважимо лише, що вони могли бути отримані за допомогою шкали сумарних оцінок чи як групові індекси, приклади яких були приведені в «Лекціях». У разі повної (максимальної) узгодженості ранжирування за цими двома ознаками природно припустити наявність тісного (сильної) зв'язку між ознаками «задоволеність» і «впевненість». Такий зв'язок може бути і прямий (чим більше задоволеність, тим більше впевненість), і зворотного (чим більше задоволеність, тим менше впевненість). З цього виникає, що логічно змінюватися значенням коефіцієнта рангової кореляції від -1 до +1. Цією властивістю володіють всі наведені нижче коефіцієнти. Наведемо приклади декількох коефіцієнтів, а потім пояснимо їх змістовний сенс. Міра у (гамма) Л. Гудмена і Е. Краскала (L. Goodman, E.Kraskal) SD Г ~ S + D ' Міра *? (May) М. Дж, Кендалла (M.KendaU) 2 {S-D) Tk ~ \ j (S + D + Ty) {S + D + Tx) '. Заходи d P. Сомерс (R.Comeis) S-D d ^ = 5 + z> +7; -. Перша з цих заходів в роботі [8, с. 135], позначена як «у Гудмана». Ці заходи вдало описані в роботі [1, с. 37-40]. Ви, звичайно, звернули увагу, що у всіх наведених заходів один і той же чисельник, а знаменники різні. Насамперед розглянемо чисельник, бо він несе в собі основний зміст коефіцієнтів, У таблиці 3.5.4 представлені два Ранжування ряду. Об'єкти ранжирування - майбутні професії. Вони наведені в таблиці для зручності в тому порядку, в якому їх ранги в другому ряду зростають, тобто в порядку убування ступеня впевненості. Число рангів дорівнює числу об'єктів, пов'язаних рангів (однакових) в наших рядах не спостерігається. Таблиця 3.5.4 Приклади двох ранжируваних рядів Г] (Т'мгти Пян * іплп; 11 - Ін Ознаки соціо логи психо логи полито логи культу рологі1 истори ки фило логи х Задовіль-рснность 3 4 2 6 1 5 у Упевнений Н ОСТ! 1 2 3 4 5 6 З цієї таблиці бачимо, що політологи в першому ряду мають ранг 2, а у другому - ранг 3, а історики в першому ряду - ранг 1, у другому - ранг 5. Для того щоб оцінити ступінь узгодженості наших, грубо кажучи, «Ранжіровок», можна застосувати той же прийом, який був застосований при обчисленні заходи якісної варіації. Утворити з наших шести об'єктів різні пари. Таких пар буде 6x5 / 2 = 15. Візьмемо окрему пару об'єктів. Ранги, які відповідають першому об'єкту, позначимо (i1, j1), а другий - (i2, j2). Ці ранги можуть перебувати в різних відносинах. Можлива одна з двох ситуацій, кожна з яких включає два можливих співвідношення між рангами (1а, 16, 2а, 26). Перша ситуація: або співвідношення Друга ситуація: або співвідношення У першій ситуації ранги як би узгоджені, а в другому не узгоджені. Підрахуємо, для скількох пар з 15-ти спостерігається узгодженість, і позначимо число таких пар через S. Потім підрахуємо, для скількох пар спостерігається неузгодженість, і позначимо число таких пар через D. У чисельнику всіх наведених вище заходів стоїть якраз різниця між числом узгоджених і неузгоджених пар об'єктів. Для прикладу наших ранжируваних рядів величина (SD) дорівнює: S-D = (3-2) + (2-2) + (2-1) + (0-2) + (1-0) = 1. Тут перша дужка - результат аналізу узгодженості / неузгодженості рангів в парах, утворених першим об'єктом з іншими п'ятьма, тобто в парах (1 і 2), (1 і З), (1 і 4), (1 і 5), (1 і 6). Серед них узгодженість (випадок 1а) - в трьох парах, а неузгодженість (випадок 26) - у двох парах. Друга дужка - результат аналізу пар, утворених другим об'єктом, тобто пар (2 і 3), (2 і 4), (2 і 5), (2 і 6). Серед них у двох парах узгодженість, а в двох - неузгодженість. Остання дужка - результат аналізу пари (5 і 6). Ми розглядали випадок відсутності связанни рангів, тому для визначення ступеня узгодженості можна використовувати перший з трьох коефіцієнтів, наведених вище. Знаменник для його обчислення дорівнює: S + D = (3 +2) + (2 +2) + (2 +1) + (0 +2) + (1 +0) = 15 або просто числу різних можливих пар, т. е. 6x5 / 2 = 15 Тоді у ~ 0,07. Справді ступінь узгодженості в наших ранжируваних рядах дуже мала. Другий з трьох коефіцієнтів враховує наявність пов'язаних рангів. Крім співвідношень (1а; 16; 2а; 26) при аналізі пар можуть зустрітися і інші співвідношення (у разі пов'язаних рангів): ' Третя ситуація: За. І,> і3і j.-jj або ЛЇ. І, <ци Четверта ситуація: - 4а. І, = і, і |, Число пар, відповідних третій ситуації (є пов'язані ранги у другому ряду), позначимо через Ту. Число пар, відповідних четвертої ситуації (тобто пов'язані рангу в першому ряду), позначимо через Тх. Другий коефіцієнт враховує число пов'язаних рангів в тому і іншому ранжируваних рядах. І нарешті, зверніть увагу на коефіцієнт dy / x, Мер Сомерс всього три за аналогією з заходами «лямбда» Гуттмана і «гамма» Гудмена і Краскала, тобто рангові коефіцієнти зв'язку бувають і спрямовані. Ми привели тільки одну з трьох заходів Сомерс. У разі її використання питання про ступінь узгодженості в ранжируваних рядах звучить трохи інакше, а саме: чи впливає «впевненість» на «задоволеність» і, навпаки, чи впливає ранжування за «задоволеності» на ранжирування по «впевненості». Зрозуміло, тільки в сенсі того, що ранжування об'єктів за ступенем убування «задоволеності» (ознака У) залежить від ранжирування за ступенем убування «впевненості» (ознака X). Тому в знаменнику враховуються пов'язані ранги тільки для ознаки У. А тепер уявімо собі, що мова йде про аналіз зв'язку по таблиці спряженості (кореляційний таблиця) двох ознак, що мають порядковий рівень вимірювання. Припустимо, що у кожного нашого студента-гуманітарія є оцінка не тільки задоволеності навчанням, але і задоволеності собою. Обидва ознаки мають порядковий рівень вимірювання. Для вивчення зв'язку між ними використовуються ті ж рангові міри зв'язку. Їх значення розраховуються за тими ж формулами, бо можна всіх наших студентів (об'єкти ранжирування) упорядкувати і отримати два ранжируваних ряду. Перший - за рівнем зменшення (зростання) задоволеності навчанням, а другий - за спаданням (зростанню) задоволеності собою. Природно, у нас будуть суцільно пов'язані ранги. Нагадаємо, що число рангів дорівнює числу об'єктів, тобто 1000. Реально ніхто таке ранжирування не проводить, а просто обчислюються по таблиці спряженості число узгоджених пар, число неузгоджених і число пов'язаних рангів. Існують коефіцієнти рангової кореляції для швидкого рахунку (коефіцієнт Спірмена), але в століття комп'ютерів вони вже втратили свою актуальність. Ми розглянули всі коефіцієнти, необхідні для початкового розуміння того, що вони з себе представляють, і чому їх так багато. На завершення цього розділу книги кілька слів про те, що всі ці коефіцієнти є статистиками, тобто для них можна побудувати довірчий інтервал. Той інтервал, в якому знаходиться істинне значення коефіцієнта, тобто для досліджуваної генеральної сукупності. Довірчі інтервали є для «лямбда» [1, с. 34], «may» [1, с. 36], для коефіцієнтів рангової кореляції [9, с. 185-187]. У рамках книги не ставилася мета привести всі заходи або дати їх класифікацію, бо для цього необхідні серйозні знання в галузі науки під назвою теорія ймовірності і математична статистика. Більше того, ми навмисно не розглядали заходи для вивчення зв'язку між ознаками, виміряними по «метричним» шкалами (за всіма, за якими рівень вимірювання вище порядкового). Така позиція обумовлена поєднанням двох факторів процесу навчання студентів. По-перше, в емпіричної соціології такого роду шкали зустрічаються рідше інших. По-друге, в читається студентам курсі «Теорія ймовірності та математична статистика» поняття «зв'язок» вводиться саме з такого роду заходів зв'язку. Завдання на семінар або для самостійного виконання Завдання виконується індивідуально. Кожен студент працює з тією ж матрицею даних (див. перше завдання на початку цієї глави), з тією ж таблицею спряженості. 1. Обчислити значення спрямованих заходів зв'язку Гуттмана, тобто обчислити два значення. Порівняти результати з аналогічними результатами інших студентів. 2. Обчислити значення двох спрямованих коефіцієнтів Гудмена і Краскала. Порівняти зі значеннями, отриманими в попередньому завданні. 3. Отримати два ранжируваних ряду. Об'єктами ранжирування будуть групи, отримані при різних значеннях першої ознаки (номінальний рівень виміру). У кожній групі підрахувати середнє арифметичне значення третьої ознаки (метричний рівень виміру) і впорядкувати ці групи в порядку убування / зростання цих значень. Тим самим виходить перший ряд. Для отримання другого ряду в тих же групах підрахувати груповий індекс (див. розділ «Логічні та аналітичні індекси») за другою ознакою. За значеннями цього індексу отримати другий ранжируваних ряд. 4. Підрахувати необхідний для вашого випадку коефіцієнт рангової кореляції. Обгрунтувати, чому обрано саме такий, а не інший коефіцієнт. Проаналізувати отримане значення коефіцієнта. Висновки з глави 3 1. Початок початків аналізу даних - це процесі планування дослідження, етап розробки програми дослідження, розробки концептуальної схеми дослідження. 2. У процесі побудови моделі вивчення властивості соціального об'єкта продумується логіка пошуку простих емпіричних закономірностей. Загалом «мова» аналізу даних в передбачуваному дослідженні визначається тільки після осмислення логіки інтерпретації емпіричних закономірностей, тобто відповіді на питання: Що і як будемо робити, якщо отримаємо те-то і те-то? 3. Незалежно від вибору стратегії аналізу (висхідній або низхідній) соціологу необхідні вміння первинного аналізу, первинної обробки даних. Одномірні розподілу, таблиці спряженості тільки прості по виду. Соціолог може використовувати безліч «мов» аналізу даних при роботі з ними. 4. Заходи центральної тенденції різні для різних типів шкал. Середня арифметична без дисперсії, медіана без квартального розмаху, мода без коефіцієнта якісної варіації для соціолога не мають змістовного сенсу. 5. Залежно від того, з якими з відносних частот працює соціолог, він вирішує різні типи змістовних завдань. 6. Вивчення зв'язку між ознаками (емпіричними індикаторами або похідними від них показниками) - одна з цілей аналізу. Зв'язок, взаємозв'язок трактуються, розуміються по-різному. Тому так багато заходів (коефіцієнтів) зв'язку. 7. У таблиці спряженості знаходиться вся інформація про взаємозв'язок двох ознак. 8. Вивчення взаємозв'язків неможливо без розуміння таких пар понять: «функціональна - кореляційний зв'язок», «локальні заходи зв'язку - глобальні», «сильна зв'язок - слабка», «хибне значення коефіцієнта - істинне», «спрямована зв'язок - ненаправленная», «статистична залежність - незалежність »і т. д. 9. Заходи зв'язку розрізняються для різних типів шкал і для різного розуміння зв'язку. 10. Коефіцієнти парної зв'язку доцільно використовувати тільки в порівняльному контексті в рамках одного і того ж дослідження. Ефективними є дві стратегії Їх використання: пошук факторної структури сукупності ознак; пошук ознак, що детермінують цільової ознака.
|
||
« Попередня | Наступна » | |
|
||
Інформація, релевантна "ЗАХОДИ ЗВ'ЯЗКУ: ЗАСНОВАНІ НА МОДЕЛІ ПРОГНОЗУ І рангове" |
||
|