Лекция - Статистика
1. Измервания и скали
1. Предмет на статистиката. Статистиката се занимава със събиране и анализ на данни. Данните се получават в резултат на наблюдения на определен брой статистически единици, които в психологията като правило са индивиди (персони).
Групата от индивиди, над които е извършено наблюдението се нарича извадка (sample), а броят на единиците в извадката се нарича обем на извадката (sample size). Извадката се разглежда като част от по-голяма група, наречена генерална съвкупност или още популация (population). Популацията е съвкупността от статистически единици, които са хомогенни относно наблюдаваните величини. Ролята на популацията в статистическите изследвания е твърде специфична както от гледна точка на предметната област на изследването, така и от гледна точка на статистическите процедури, които се прилагат за различните цели на анализа, и по тази причина детайлите в познавателното значение на понятието популация ще бъдат разкривани постепенно в рамките на този лекционен курс. Ще отбележим преди всичко, че популацията има винаги в някаква степен хипотетичен характер и методите, които ние ще използваме я разглеждат като потенциално безкрайна (даже и в случаите, когато популацията практически съвпада със самата извадка).
Данните съдържат в себе си определен брой наблюдавани променливи величини
(variables) се подреждат в таблици. Колоните на таблицата съответстват на различните
величини, а редовете съответстват на статистическите единици. Резултатите от
наблюдението се отразяват непосредствено като числа (или думи) в таблицата или чрез
подходящо избрани за целта кодове; кодирането на данните предлага технически
удобства при преобразуване на данните от един формат в друг. Например да разгледаме
следната таблица от данни, която включва разнообразна информация от
представително обзорно изследване за населението на САЩ, взета от съпровождащите
данни на пакета SPSS.
Таблица 1.1.
Идентификатор
(ID)
ПОЛ
(SEX)
РАСА
(RACE)
ВЪЗРАСТ
(AGE)
ЖИВОТ
(LIFE) SEXFREQ SEI ДОХОД
(INCOME) SIBS MUSIC
ATTITUDE
1 1 1 43 2 2 36.1 18 3 6
2 1 2 44 3 2 63.5 18 2 6
3 2 1 43 3 5 69.2 18 2 8
4 2 1 45 1 -1 31.4 22 4 7
5 2 1 78 3 9 75.2 21 1 9
6 1 1 83 2 2 53.9 13 2 8
7 2 1 55 2 4 38.4 19 2 7
8 1 1 75 2 1 45.8 10 3 6
9 1 1 31 3 6 64.1 21 1 6
10 2 1 54 3 0 80.9 9 1 6
11 2 1 29 1 4 82.7 16 1 8
12 2 1 23 2 1 26.4 18 0 5
13 2 1 61 0 -1 63.2 14 0 10
14 2 3 63 1 0 37.2 5 3 11
15 2 3 33 3 3 31.4 9 4 8
2
16 2 2 36 1 6 31.1 10 0 6
17 2 2 39 3 0 43.5 5 0 9
18 1 3 55 1 4 64.8 22 9 11
19 2 1 55 2 2 38.4 21 1 10
20 1 1 34 1 5 45.7 21 2 7
... ... ... ... ... ... ... ... ... ...
Първата колона всъщност не е величина, а служи само за идентификация на
статистическите единици. Тук за идентификация се използва условен номер. Като
идентификатор може да се използва всякаква информация, която определя индивида по
единствен начин с цел резултатите от груповия анализ да могат да бъдат отнесени
обратно върху индивида, когато процедурите на анализ позволяват това.
Втората колона показва данните за величината "пол", като кодът "1" е за мъже, а
кодът "2" за жени.
Третата колона показва данните за величината "раса", като кодът "1" означава
"бяли", кодът "2" означава "черни", а кодът "3" – друга раса.
Четвъртата колона показва данните за величината "възраст", измерена в години.
Петата колона показва данните за величината "живот", като кодът "1" означава
"потискащ", кодът "2" означава "еднообразен", а кодът "3" означава "вълнуващ".
Величината в шестата колона е именувана "sexfreq" и показва честотата на
занимание със секс през последната година и е кодирана по следния начин:
-- "0" – николко;
-- "1" – един или два пъти;
-- "2" – един път месечно;
-- "3" – 2-3 пъти месечно;
-- "4" – ежеседмично;
-- "5" – 2-3 пъти на седмица;
-- "6" – 4+ пъти на седмица;
-- "-1" – няма данни.
Тук присъства специален код "-1" за да обозначи липсата на данни за конкретната
персона. Тази липса може да бъде по различни причини, например нежелание и/или
незнание за отговор или пропуск на изследователя.
Седмата колона съдържа данни за величината "социално-икономически индекс",
именувана със "SEI". Тази величина е измерена по специална методика, която няма да
коментираме.
Осмата колона съдържа данни за величината "годишен доход на семейството",
кодирана по следния начин:
-- "1" – по-малко от $1000; -- "2" – между $1000 и $2999;
-- "3" – между $3000 и $3999; -- "4" – между $4000 и $4999;
-- "5" – между $5000 и $5999; -- "6" – между $6000 и $6999;
-- "7" – между $7000 и $7999; -- "8" – между $8000 и $9999;
-- "9" – между $10000 и $12499; -- "10" – между $12500 и $14499;
-- "11" – между $15000 и $17499; -- "12" – между $17500 и $19999;
-- "13" – между $20000 и $22499; -- "14" – между $22500 и $24999;
-- "15" – между $25000 и $29999; -- "16" – между $30000 и $34999;
-- "17" – между $35000 и $39999; -- "18" – между $40000 и $49999;
-- "19" – между $50000 и $59999; -- "20" – между $60000 и $74999;
-- "21" – над $75000.
Тук данните от наблюдението са допълнително преработени преди да бъдат
отразени в таблицата. Такава вторична преработка винаги е свързана със загуба на
известно количество информация. Удачната вторична обработка може да опрости и
онагледи в по-висока степен статистическия анализ.
3
Деветата колона съдържа данни за величината "брой на братя и сестри", като
цифрите показват въпросния брой. Последната колона съдържа суровите балове от
анкета за музикална нагласа (по-високият бал показва по-голям стремеж към общуване
с музиката в ежедневието).
2. Видове величини. Таблица 1.1 показва, че величините могат да имат
разнообразна природа. Според информацията, заложена в различните величини, е
приета класификацията на Стивънс, при която условно различаваме четири типа
величини и съответно четири типа скали за измерване.
Номинални величини. Такива са величините, при които имаме определен брой
категории, които се различават чрез техните имена, като всеки индивид се отнася точно
към една от тези категории. В таблица 1.1, номинални са величините "пол" и "раса".
Номинални са например величините, които показват религиозна или политическа
идентификация към някоя обособена група (категория). В този случай за величините се
казва, че са измерени по номинална скала (скала на наименованията). Номиналните
величини участват по естествен начин като фактори в дисперсионния анализ.
Ординални величини. При тях резултатите от наблюденията могат да се
сравняват. В таблица 1.1, ординални е величината "life". Особеното при ординалните
величини е, че за тях се предполага единствено възможността за сравнение между
резултатите на различните индивиди. Например, ако индивид A има резултат
1(потискащ живот), индивид B има резултат 2 (еднообразен живот), а индивид C има
резултат 3 (вълнуващ живот), то можем да установим, че качеството на живот в този
смисъл на индивид C превъзхожда това на индивид B , което от своя страна
превъзхожда това на индивид A , но не можем да интерпретираме количествено това
различие въпреки, че разликите в кодовете на резултатите са равни: C − B = 3 − 2 = 1 и
B − A = 2 −1 =1. В този случай за величините се казва, че са измерени по ординална
скала. Ординални са формално и всички величини, свързани с постижения по отделни
учебни дисциплини, когато тези постижения са отчетени в петобалната система (слаб 2,
среден 3, добър 4, много добър 5, отличен 6). Статистическите процедури, които се
отнасят за чисто ординални величини работят фактически с ранговете на отделните
статистически единици вместо с техните натурални стойности.
Интервални величини. Интервали са онези ординални величини, за които
интервалите между резултатите могат да се интерпретират. Редица автори приемат, че
резултатите от различни тестови измервания в експерименталната психология са
интервални величини. В този смисъл, в таблица 1.1, интервална е величината "music".
Въпросът дали дадена величина е интервална или ординална в много случаи е
дискусионен, като в този случай критерият е наличието на достатъчна изменчивост
(вариабелност) на величината (поне седем различни стойности), но всъщност
основният критерий е достатъчният по големина обем на извадката и формата на
разпределението, за което ще стане дума по-нататък. В този случай за величините се
казва, че са измерени по интервална скала.
Абсолютни величини. Абсолютни са тези интервални величини, при които има
нулева точка на измерването. В таблица 1.1, абсолютни са например възрастта, дохода
и социално-икономическия индекс. Други типични абсолютни величини са различните
физиологически показатели като тегло, ръст, кръвно налягане, време за психомоторни
реакции и т.н. В този случай за величините се казва, че са измерени по абсолютна скала
или още по скала на отношенията.
Горната класификация отчита преди всичко в каква степен върху резултатите от
даден тип величина могат да се извършват различни математически операции:
сравняване, събиране и умножение. Категориите на чисто номиналните величини
подлежат само на броене, можем да изброим индивидите, принадлежащи на определена
4
категория, например брой мъже и брой жени в извадката за величината "пол".
Резултатите от наблюдението по ординална величина позволява извадката да се
подреди (аранжира) според степента на притежаване на измерваната характеристика.
Когато величината е интервална или абсолютна, могат да се пресмятат средни
величини и дисперсии.
От процедурно-изчислителна гледна точка, SPSS разделя величините на три
вида: номинални, ординални и метрични (скали). В този смисъл метрични са
величините, определени по-горе като интервални и абсолютни. От гледна точка на
количественото представяне, величините се делят условно на непрекъснати и
дискретни. Дискретни са тези величини, които могат да приемат предварително
известни фиксирани стойности. Непрекъснатите величини могат да приемат стойности
от цял интервал. В много от случаите разполагаме с достатъчно основания да приемем
дадена ординална величина за метрична и като правило това винаги се прави по
отношение на тестовите резултати от различни психологически скали. Някои по
природа метрични величини след наблюдение се отразяват като дискретни, такава е
например величината "доход" от таблица 1.1. Метрични величини са всичките
физиологически показатели и изобщо всички величини, за които разполагаме с
инструмент за измерване. Номиналните и ординалните величини се наричат понякога
категорийни.
Статистическият анализ, който ще изучаваме по-нататък се отнася преди всичко
за метрични величини. За тях е разработен съдържателен и сложно структуриран
математически апарат. За категорийните величини също е разработен съдържателен
математически апарат за търсене на статистически връзки с други величини,
категорийни или метрични.
3. Техника на пресмятанията. Всички пресмятания, освен в елементарните
случаи на илюстрация, ще бъдат извършвани с помощта на програми за статистическа
обработка на данни. Ще използваме пред всичко добилият широка популярност сред
психолозите пакет SPSS, LISREL, както и пакета Statistica for Windows.
Най-важното качество на данните е тяхното количество. Когато искаме да
направим някакво съдържателно изследване трябва да съберем данни с достатъчно
богато разнообразие на величини и достатъчен обем на извадката. В повечето от
случаите големият обем на извадката позволява да се абстрахираме от някои
неточности в събирането и отразяването на данните. Данните също трябва да бъдат
събрани надлежно и старателно, в противен случай рискуваме цялото усилие да отиде
напразно. В този смисъл получаването на добри данни изисква много време и разходи
от различно естество. Проблемът за статистическата обработка е решен в напълно
задоволителна степен от наличието на бързи компютри и подходящо програмно
осигуряване, докато по отношение на събирането на данни трудностите остават такива
каквито са били в зората на експерименталната психология.
Описателни и изследователски методи. Статистическата обработка условно
може да се раздели на описателни методи и изследователски методи. Описателни са
тези методи, при които се съставят таблици и графики за визуално представяне на
резултатите от наблюденията и първоначално ориентиране за очакваните резултати. В
този смисъл различни автори могат да проявят голяма изобретателност.
Изследователските методи (сравнителен и дисперсионен анализ, регресионен
анализ, факторен анализ, дискриминантен анализ и т.н.) са онези методи които правят
математическата статистика уникален апарат за изследване в психологията. Техните
резултати са невъзможни за отгатване с помощта на "остри сетива и брилянтна
интуиция" и същевременно имат огромна полза в научните и приложните изследвания.
От друга страна използването на софистициран статистически апарат изисква
5
специална предварителна подготовка, на което именно е посветен настоящият
лекционен курс. В процеса на усвояване на статистическия апарат, обучаемият
неминуемо ще се сблъска с понятия от чисто математически характер, които понятия е
необходимо да се овладеят в някакъв разумен минимум, а това ще коства известно
количество усилия и неприятни усещания в началото, но цената определено си струва.
Изредените по-горе програмни средства за статистически анализ не само
решават кардинално въпроса със статистическите пресмятания (преди да се появят тези
средства, извършването даже на сравнително прости пресмятания на ръка се е
схващало като своеобразен научен "подвиг"), но и дават превъзходен ориентир за онзи
жизнено необходим минимум от математически знания, необходими на психолога за
реална практическа работа с използване на статистически анализ.
По този начин, целта на настоящия лекционен курс може да се определи като
въведение в някои елементарни методи за статистически анализ с помощта на пакета за
статистическа обработка на данни SPSS. Ще бъде отделено внимание и на начините на
оформяне на резултатите във формата на стандартен и приемлив за четене от
специалисти текст.
4. Произход на данните в психологическите изследвания. Данните, с които се
среща психологът в своите изследвания са от следните три типа.
Социометрични данни. Това са данни за пол, етническа и религиозна
принадлежност, семейно положение, брой деца, брой братя и сестри и т.н. Обикновено
тези данни се отразяват в номинални величини и в таблицата се записват чрез
подходящо избрани кодове.
Резултати от психологически тестове. Това са суровите или преработени
резултати от различни психологически скали за личностни черти, нагласи, когнитивни
постижения, емоционални състояния и т.н. В таблицата се записват чрез техните
непосредствени стойности. В случай на необходимост, могат да бъдат подложени на
вторична обработка, например да бъдат дихотомизирани или трихотомизирани, при
което губи част от първоначалната информация.
Физиологични показатели. Такива са например данните за ръст, тегло, кръвно налягане, време за психомоторни реакции и др. В таблицата се записват чрез техните непосредствени стойности. Те също могат по целесъобразност да бъдат подложени на вторична обработка.
Обстоятелствени данни от анкетни изследвания. Тези данни имат хибриден характер и се отнасят към проблематика от най-разнообразно естество. Обикновено се отнасят към краткосрочни изследвания, свързани с поведенчески стереотипи или отношения към актуални проблеми.__
