авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |   ...   | 5 |

«Министерство образования и науки Российской Федерации Московский государственный университет экономики, статистики и информатики (МЭСИ) Е.В. ...»

-- [ Страница 2 ] --

13. Развитием идеи неисключающей классификации стали нечет кие множества Л.А. Заде. Мера нечеткой принадлежности данного элемента к заданному классу, принимающая значения от 0 до 1, названа лингвистической переменной. «Внешне» функция нечеткой принадлежности весьма похожа на вероятность, хотя аксиоматиче ски эти две меры вводятся из абсолютно разных соображений. Сле дует различать нечеткие множества (с мерой, определяющей степень принадлежности наблюдений к таксону) и случайные мно жества. Случайное множество – это совокупность элементов, для которых некоторым образом оценены вероятности принадлежности к заданному множеству. Следовательно, нечеткость служит объек тивной характеристикой элементов нечеткого множества, а вероят ности в случайном множестве характеризуют степень нашей субъ ективной осведомлённости о принадлежности элементов к множе ству.

14. По мнению М. Гупты, неопределенность, присутствующая в любом событии с неясным исходом, может быть двух типов, свя занных: (1) со стохастическим поведением изучаемой системы (по сути, со случайностью) и (2) с принципиально плохой формализуе мостью понятийных категорий, а также с ограниченными возмож ностями человеческих восприятий и рассуждений (по существу, с нечеткостью).

В каждой неопределенности, наблюдаемой в этом мире, в том числе и в экономических областях, всегда присутствует или слу чайность, или нечеткость, или их одновременное проявление.

15. Существует мнение, что разработки в области теории нечет кой меры, сделанные в связи с созданием теории возможностей Д.

Дюбуа и А. Прадом, позволят создать единую теорию неопределен ности.

Правда, следует подчеркнуть, что в рамках этой теории, слу чайность сводится к нечеткости. Это является альтернативой точке зрения А.И. Орлова, взгляды которого, подкрепленные математи чески, сводятся к рассмотрению нечетких множеств как некоторых проекций множеств случайных.

Но, исходя из содержательного смысла нечеткости и случайно сти, можно твердо утверждать, что на сегодняшнем уровне разви тия математики бессмысленно пытаться заменить нечеткость случайностью и наоборот.

ГЛАВА 2. МНОГОМЕРНЫЕ ОБОБЩЕНИЯ ГИПЕРГЕОМЕТРИЧЕСКОГО РАСПРЕ ДЕЛЕНИЯ И ИХ АСИМПТОТИКА КАК ОСНОВА ИЗУЧЕНИЯ НЕОДНОРОДНЫХ (СТРУКТУРИРОВАННЫХ) МНОЖЕСТВ 2.1. Многомерные обобщения гипергеометрического распределения (ГГР) Вторая глава этой книги содержит описание многомерных обобщений гипергеометрического распределения вероятностей (ГГР) и их асимптотики. Этот материал служит теоретической ос новой для методов выборочных обследований неоднородных (структурированных по целому ряду априорных номинальных шкал) множеств (населения, покупателей, избирателей и т.п.).

Вначале рассмотрено одномерное ГГР которое служит фун даментом всей методологии выборочных исследований. Затем рас смотрен ряд многомерных обобщений ГГР, которые описывают случайный отбор элементов неоднородного множества.

Материал главы отражен в монографиях [236, 239, 249, 264] и публикациях [7, 127, 204, 223, 231, 237, 240, 247, 257, 260-262, 271].

2.1.1. Гипергеометрическое распределение (ГГР) и его роль в исследовании социально–экономических областей знания Пусть задана конечная совокупность, представляющая собой население (избирателей, покупателей и т.д.), состоящая из N чело век ( N 1 ). Среди населения существует M человек, обладаю щих интересующим нас дихотомическим признаком (состоят в данной партии, относятся к сексуальным меньшинствам, имеют ав томашину «Жигули», являются клиентами государственного пен сионного фонда, пользуются изучаемой страховой услугой и т.п.).

Производится случайная выборка респондентов объема n. Вероят ность того, что в выборку попадут ровно m лиц, обладающих изу чаемым дихотомическим признаком (0 m n) задается формулой:

- N M N-M, (2.1.1.1) Pr{m|n} hy(m|M, N ;

n) n -m n m где N, Pr{…} обозначает вероятность события {…}, N!

( N n) ! n !

n а hy(…) - стандартное обозначение ГГР [123].

Математическое ожидание ГГР равно [170, с.103] n ;

M N, 0 1, (2.1.1.2) а его дисперсия определяется как [170, п.6.1.6] N n n Dm n (1 ) n (1 )( 1 ) n (1 ) N 1 N 1 N N n (2.1.1.3) Отметим, что ГГР, зародившись в задачах анализа качества массовой продукции [123,126], сегодня находит широчайшее поле приложений.

Используя понятие гамма-функции, для любых неотрицатель ных действительных чисел определяемой интегралом Эйлера II ро да [284, гл. V] dt ( ln t ) dt ;

x, (2.1.1.4) x 1 t x Г ( x) e t можно получить удобное (для программной реализации) выраже ние для вычисления значений ГГР.

Для нас важно, что для любых натуральных чисел k выполняет ся: Г (k 1) k !, причем 1 ! = 1 = 0 !.

Это позволяет представить ГГР в виде:

hy(m| N, M ;

n) [ Г ( N M mn1) ] Г (n 1) Г (M 1) Г ( N n 1) Г ( N M 1) (2.1.1.5) Г (m 1) Г ( N 1) Г (n m 1) Г (M m 1) Используя свойство Г-функции вида (см. [284, п. V.3]) k Г ( z k ) Г ( z) ( z l ) 1, l из (1.4) несложно получить hy(m| N, M ;

n) m nm m (M l 1)(n l 1).

M 1 ( 1 l 1 l ( N n 1 l ) ) N n 1 N l l (2.1.1.6) Это выражение «выгодно» отличается (в смысле его использо вания для машинных расчетов) от традиционных представлений ГГР, которые основаны на приближенных (и, как правило, медлен но сходящихся) вычислениях бесконечных сумм или произведений [37,147,205].

Величину моды (наиболее вероятного значения изучаемой сто ~ хастической переменной) m мы получим, используя аппарат ко нечных разностей [46]. По аналогии с поиском максимума в случае непрерывных отображений, необходимое и достаточное условие достижения максимума hy(m|M, N ;

n) (для дискретного случая ~ hy(m | n) max исчисления вероятностей) имеет вид ~ ~ hy(m | n) 0 2hy(m | n) 0.

Зафиксируем некоторое m. Тогда первая конечная разность [46] в точке m запишется в виде hy(m | n) hy(m | n) hy(m1 | n) (n m 1) (M m 1) 1. (2.1.1.7) hy(m 1 |n) m ( N M m n) ~ Откуда, с учетом hy(m) 0, следует значение моды ГГР в виде ~ (n1) (M 1) (n1) ( 1 ) n. (2.1.1.8) m N 2 N N Отметим, что в прикладных социально-экономических задачах, (например, в страховом деле, при формально-математическом обосновании лотерейных проектов) 1 n N, но и N 1 мо гут быть вполне сопоставимы по величине. Откуда следует правая часть формулы. Вторая конечная разность [46] в точке m записыва 2hy(m | n) ется в виде hy(m1|n) 2hy(m|n) hy(m 1|n).

Отсюда несложно посчитать, что в точке моды:

~ ~|n) hy(m 1 | n) 0. (2.1.1.9) hy(m ~ m ~ Соотношение (2.1.1.9) свидетельствует, что в точке мы m действительно имеем дело с максимумом вероятностей.

Знание моды ГГР может быть полезно при проведении актуар ных и банковских расчетов, в лотерейном бизнесе.

2.1.2. «Распределение разбиения» (РР) и многомерное гипергеометрическое распределение (МГГР) Пусть изучается генеральная совокупность населения, мощ ность которой равна N. Для маркетингового или социологического опроса составлен инструментарий из некоторого числа «содержа тельных вопросов», общее число вариантов ответов на которые равно р. При опросе используются априорные классификации по s номинальным шкалам, данные по которым имеются в Госкомстате (обычно, это данные последней переписи населения).

Для простоты в дальнейшем будем обозначать:

индексом « k » - номер варианта ответа на содержательный вопрос анкеты, иначе говоря, « k » определяет номер соответству ющего дихотомического признака, характеризующего наблюдения изучаемой совокупности;

индексом « i » - номер априорной классификации (номинальной шкалы), данные по которой есть в Госкомстате;

индексом « j » - номер социально–демографической категории населения (покупателей, электората), определенной i-й априорной классификацией.

Таким образом, везде далее: k 1, p ;

i 1, s, j 1,ri.

Например, « k = 45» - намерение купить «форд-фокус», « i = 4»

- классификация по возрасту, а « j = 3» - лица в возрасте 45-60 лет.

Общее число жителей, относящихся к j-й категории i-й класси фикации, обозначим N ij. Для всех априорных классификаций населения справедливо соотношение вида ri i1, s : N N ij. (2.1.2.1) j Мощность подмножества лиц, обладающих k-м «содержатель ным» признаком, одновременно относясь к j-й категории i-й клас сификации, обозначим N ij. Общее число жителей, обладающих k k м признаком, равно ri N ij. (2.1.2.2) k Nk j для любой априорной классификации (при любом « i »).

Пусть в ходе случайного опроса было проинтервьюировано n (n N) респондентов. Пусть в выборку попало nij лиц, относящихся к j-й категории i-й классификации, причем k-м изучаемым признаком обладают nij из них. Общее число респондентов, имеющих k-й k ri nij (2.1.2.3) nk :

признак, равно k k n j Введем априорные частоты вида ij, определяющие доли чис ленности j-й категории i-й классификации среди всего изучаемого населения:

ri ri ij N ij N ;

i 1, s : ij 1 ;

nij n. (2.1.2.4) j j Введем векторные обозначения вида:

ni (ni1,ni 2,...,nir ) r ;

i ( i1, i2,..., ir ) r i i i i Подчеркнем, что все компоненты этих векторов известны: nij непосредственно по структуре полученной случайной выборки, а ij - данные Госкомстата (обычно это данные переписи населения региона).

Вероятность Pr{ni | n } того события, что случайная выборка объема n по i-й классификации имеет структуру ni, определяется в виде:

N ri Nij (2.1.2.5) Pr { ni | n } hnri ( ni | i, N ;

n) n j 1 n ij Распределение (2.5) по его смыслу можно назвать распре-делением разбиения. Его первые моменты определяются в виде N n M [nij ] nij ;

D [nij ] n ij (1ij ) ;

N N n C (jli) Cov (nij, nil | N, n) n ij il. (2.1.2.6) N Коэффициент корреляции для РР равен ij il. (2.1.2.7) C (i) jl (i ) 1 ij 1 il jl D[nij ] D[nil ] Пример. Пусть «i» - классификация населения по национально стям, тогда: i1 - доля русских среди населения, i 2 - украинцев, …, iri - армян. Вероятность того, что в случайную выборку объема n попадут ni1 русских, ni 2 - украинцев, …, nir - армян, дается рас i пределением (2.5).

Введем в рассмотрение частоты встречаемости k-го «содержа тельного» признака среди представителей j-й категории i-й класси фикации ij : ij N k N ij. Частота встречаемости k-го признака k k ij по населению в целом определяется в виде k N k / N.

C помощью категорий априорных классификаций населения эта частота выражается в виде 1 ri k ri i1, s: N ij ij 1.

k k N j ij j Определим распределение, которое будем называть многомер ным гипергеометрическим распределением (МГГР), в виде k k ri k Pr { n | n } hyri ( n | i, i ;

N, n) hy ( nij | Nij ij, N ;

n) k k j i i k ri 1 N ( ij ij ) r N ij ij. (2.1.2.8) N k i j n j 1 nij ri k n nij k j Очевидно, что распределение разбиения (2.5) является частным ri случаем МГГР в том случае, когда ij ij 1, т.е. в том случае, k j если k –й «содержательный» признак определяет на множестве населения некоторую классификацию, задаваемую соответствую щей шкалой наименований (номинальной шкалой).

Легко подсчитывается, что первые моменты МГГР определя ются в виде:

M [nij ] nij ij ;

k k N n D[nij ] n ij ij (1ij ij ) k k (2.1.2.9) ;

N N n C ik Cov (nij,nil | N,n) n ij ij il il kk k k.

N jl Коэффициент корреляции между величинами, подчиненными МГГР, равен ij ij il il C (i) k k.

jl jl (i ) 1 ij ij 1 il il k k D[nij ] D[nil ] На этом можно закончить обсуждение многомерных обобще ний ГГР, перейдя к анализу распределений, непосредственно опи сывающих формирование случайной выборки из структурирован ного множества.

2.1.3. Неоднородность социальных наблюдений.

Структурированное ГГР (СГГР) как вероятностная модель социальной системы Пусть в урне имеется всего N шаров (N 1), причем N1 первого цвета, N 2 - второго, и т.д., N r – r- го цвета. Шары всех цветов в урне сделаны либо из металла, либо из дерева, причем M 1 - число металлических шаров первого цвета, M 2 - металличе ских шаров второго цвета, и т.д., M r – число металлических шаров r- го цвета.

Переформулируем сказанное в терминах множеств. Пусть дано конечное разбиение множества N, обладающего мощностью N.

Задана система подмножеств N1, N 2, …, N r, мощности кото рых равны соответственно N1, …, N r, причем:

r r N N k ;

N k N j, k j ;

N k N. (2.1.3.1) k k Пусть M - множество металлических шаров, а M 1 - множе ство металлических шаров первого цвета, M 2 - металлических ша ров второго цвета, и т.д., M r – металлических шаров r-го цвета:

M k M N k, k 1,r;

. (2.1.3.2) r M k M j. k j ;

M k M k Производится случайная выборка (без возвращения) объема n шаров (n N). Какова вероятность того события, что среди вы бранных шаров будет ровно nk шаров k-го цвета, причем ровно mk из них будут металлическими?

По формуле условных вероятностей можно записать:

Pr{nk,mk |n} Pr{mk |nk } Pr{nk |n} hy(nk | N k, N ;

n) hy(mk |M k, N k ;

nk ) ;

k 1,r. (2.1.3.3) Откуда следует, что Pr{nk,mk |n} N Nk Nk M k Mk N n n. (2.1.3.4) n m n m k k k k Введем векторы вида:

n (n1, n2,...,nr ) ;

N ( N1, N 2,...,N r ) r m (m1, m2,...,mr ) ;

m m j n j k N k N ;

k 1, r ;

(1, 2,..., r ) k M k N k ;

k 1,r ;

( 1, 2,..., r ) k M k N k k ;

k 1,r ;

(1,2,...,r ) (2.1.3.5) Какова вероятность того события, что среди выбранных шаров будет ровно mk металлических шаров k-го цвета, причем всего число шаров каждого цвета соответственно n1, …, nr ?

По формуле условных вероятностей можно записать:

Pr{n,mk | n} y(n,mk | k,, N ;

n) hnr(n| N, N ;

n) hy(mk |M k, N k ;

nk ) ;

k 1,r. (2.1.3.6) y(n, mk | k,, N ;

n) Откуда:

N k N k (1 k ) r N j ;

N n m jk n k 1,r m. (2.1.3.7) n k k j k Это распределение, определяющее вероятности общего числа наблюдений, обладающих изучаемым признаком, при определен ной структуре случайной выборки назовем структурированным ГГР (СГГР).

При этом предполагаем, что из данных Росстата известна чис ленность значений социально-демографических категорий населе ния данного региона для данной шкалы наименований (номиналь ной шкалы соответствующей классификации).

В качестве номинальных шкал могут выступать социально демографические категории населения: «пол», «образование», «возрастная группа», «национальность», «заработная плата», «рай он проживания», «членство в партиях» и т.п. Важно, что для изуча емого региона мы всегда априори знаем значения численности со ответствующих категорий населения (классификационных групп N1, N 2, …, N r ).

Пусть в регионе М из N жителей обладают некоторым дихото мическим признаком, в качестве которого может выступать любая булева переменная.

Допустим, что известно число лиц, обладающих заданным ди хотомическим признаком по каждой социальной группе из выде ленной номинальной шкалы, т.е. нам известны значения M 1, M 2, …, M r (или априорные частоты 1, 2,..., r ).

Проведен случайный опрос n (nN) жителей. Какова вероят ность, что в выборку попадет ровно mk граждан k-й категории, об ладающих изучаемым дихотомическим признаком, если в выборку попало n1, n2,..., nr представителей выделенных категорий насе ления?

Ответ на вопрос дается формулой вида (2.1.3.7).

Значительный интерес представляет распределение суммы n (2.1.3.8) m mk k Воспользуемся вероятностным выражением hy(m | N, N ;

n) hr (m |, N ;

n).

hnr (n | N, N ;

n) n n Его аналитический вид (при k и k ) имеет k k N N (1) r N j hr (m|, N ;

n) m n m jk n. (2.1.3.9) j 2.1.4. Многомерное структурированное ГГР (МСГГР) как основа стохастического отбора из структурированных множеств k Вероятность Pr { ni | ni } того события, что в случайной выборке объе ма n со структурой по i-й классификации вида ni, k-й признак будет k зафиксирован в виде вектора ni, определится как:

k k ri k Pr{n | ni } hy(nij | Nij ij, Nij ;

nij ) nri (n | i, i ;

N, ni ) k k i i j Nij Nij ij Nij (1 ij ) k k ri ;

ni, nik N r j 1 nij nij nij nij k k i (2.1.4.1) k Распределение nri ( nij | i, ik ;

N, ni ) назовем условным рас пределением структурированной выборки 1–го рода. Оно опреде ляет распределение лиц с k-м изучаемым признаком в выборке по категориям i-й классификации при некоторой заданной структуре выборки (по этой классификации).

Отсюда следует, что вероятность того события, что в случайной выборке объема n окажется: (а) по i-й классификации структура ni и (б) k–й признак будет зафиксирован в виде вектора nik, определя ется в виде:

Pr { n k, ni | n } yri ( n k,ni | ik, i ;

N ;

n) i i (2.1.4.2) N ri N ij ij N ij (1 ij ) k k n j 1 n k n n k ij ij ij Распределение вероятностей вида (2.1.4.2) назовем много мерным структурированным гипергеометрическим распределе нием (МСГГР). Одномерное СГГР определится в виде y( nij, nij | N, ij, ij ;

n) k k hy( nij | N, ij, ij ;

n) hy( nij | N ij,i N ;

n) k k (2.1.4.3) N (1 ij ) N ij ij N ij (1 ij ) N k k n n nij nij nij nij k k Теперь можно определить, полезное для построения статистиче ских процедур, условное распределение Pr { ni | nik } в виде k yri ( nik,ni | n ) k k Pr { ni | ni } ri ( ni | i,i, N ;

n i,n) k hnri ( ni | n } (2.1.4.4) ri N (1 ij ij ) ri N (1ij ) Nij (1 ij ) k k 1 n n n nk j n nk j ij ij ij Распределение ri ( ni | ik,i, N ;

nik, n), которое определяет веро ятность конкретной структуры выборки (по данной классификации) при заданной структуре выборки по k-му изучаемому признаку, назовем условным распределением структурированной выборки 2– го рода. Одномерный случай этого условного распределения имеет вид:

(nij | ij,ij, N ;

nij ) k k N (1ij ) Nij (1 ij,) (2.1.4.5) N (1 ij ij ) k k n nij nij nij n nij k k Отметим легко проверяемое соотношение вида ( nij | ij,ij, N ;

nij ) k k (2.1.4.6) N (1 ij ij ), N ij(1 ij ) hy[ nij k ;

n k k k | ] nij nij 2.2. Случайные и квотные оценки в социальных исследованиях и маркетинге потребительских рынков Поскольку до настоящего времени наблюдается тотальное ис пользование квотных методик в социальных [2,82,90,99,143, 162,178-184,208,240,280] и маркетинговых [24,44,81,100,127,133, 142] исследованиях, остановимся на специфике их применения.

Рассмотрим вначале однородные данные, подчиненные одно мерному ГГР (2.1.1.1). С удовлетворительной для приложений точ ностью, ограничимся значениями оценок погрешностей «сверху»

для «прямых» оценок частот встречаемости булевых признаков m n. (2.2.1) Учитывая, что при массовых социологических опросах (n N), выражение для дисперсии ГГР [170, п.6.1.6] можно записать в виде 1n N Dm n (1 ) n (1 ). (2.2.2) 11 N И для оценки погрешности частоты встречаемости (на уровне доверительной вероятности не менее 0.9) по непараметри ческому правилу «трех сигм» находим 3 D 3 (1 ) / n 3 2 n. (2.2.3) В формуле (2.2.3) учтено, что максимум дисперсии D дости гается при значении 0.5. Используя это соотношение, найдем значения гарантированных погрешностей для «прямых» оценок (2.2.1) частот встречаемости дихотомического признака, подчинен ного ГГР, в зависимости от n.

Интересны и «обратные» оценки: каковы должны быть объемы выборки для заданных уровней гарантированной погрешности. Из (2.2.3) получаем приближение:

n 9 (4 2 ) (2.2.4) Соответствующие данные приведены в табл. 2.1.

Таблица 2. Необходимые объемы выборки для заданных уровней гарантированной погрешности «прямых» оценок частот встречаемости дихотомических признаков 0.005 0.01 0.02 0.03 0.04 0.05 0.10 0. n 90 000 22 500 5 600 2 500 1 400 600 225 Заметим, что для (традиционных в социологии и маркетинге) объемов выборки порядка 1.5 – 2.0 тыс. респондентов гарантиро ванная погрешность частоты равна примерно 3.5%, как обычно и указывается в публикациях. Но для точности оценок в 2% нужно уже порядка 5.5 тыс. наблюдений, а гарантия погрешности в 1% потребует опроса 22.5 тыс. респондентов.

Важно и то, что, если нас интересуют статистические выводы по некоторой немногочисленной категории населения, то числен ность этой категории в репрезентативной выборке должна состав лять (при разумном пороге точности в 5%) не менее 600 (!) человек.

Это значит, например, что для категории, которая составляет 5% населения (скажем, «военнослужащие в Краснодарском крае» или «евреи в Хакасии») нам потребуется квотная выборка порядка тыс. человек.

Практически методом квотного опроса это нереализуемо.

Хотя квотные методики исследования сегодня используются повсеместно, автор не нашел ни одной печатной публикации, в ко торой математически строго обосновывалась бы правомер-ность применения квотных статистических методов в социально экономических и социологических исследованиях. Но по самому их построению квотные выборки, строго говоря, не являются случай ными. Следовательно, корректность полученных на них статисти ческих выводов требует серьезного обоснования. Этот вопрос автор относительно полно рассмотрел в статьях [240,247,257,262].

Рассмотрим суть квотного отбора. Пусть, как и ранее, населе ние имеет априорные классификации по s номинальным шкалам, причем j-я шкала имеет r j категорий. Тогда генеральная совокуп ность разбивается на r j r j непересекающихся подмножеств s («квотных групп») численностью N (l 1, r). Частота встречаемости l лиц l-й «квотной группы» из генеральной совокупности, обозначим ее (l 1, r ), вычисляется как l s l jl. (2.2.5) k 1 k Пример. Пусть построение квотной выборки производится по трем шкалам наименований: «пол», «уровень образования», «воз раст». Первая шкала имеет два значения ( r1 = 2). Вторая шкала (k=2) имеет три значения ( r2 = 3): «неполное среднее», «среднее» и «высшее» образование. Третья шкала (k=3) имеет четыре значения ( r3 = 4): «молодежь» (до 30 лет), «лица среднего возраста» (31- лет), «зрелые люди» (46-60 лет) и «пожилые» (старше 60 лет).

Тогда r = 2 * 3 * 4 = 24. Добавим четвертую номинальную шка лу - «национальность», например, с 15 значениями («русск.», «укр.», …, «калмык», «проч.»). Тогда число «квотных групп» воз растет до r = 15 * 24 = 360. И формирование такой квотной выборки становится нереальным.

При квотном отборе, псевдослучайная выборка объема n фор мируется (соответственно, по числу квот) путем r стохастически независимых случайных отборов (по каждой из квотных подвыбо рок) объемами nl. Вероятность получить вектор наблюдений m {m1, m2,...mr,} из лиц, обладающих изучаемым булевым при знаком и входящих в соответствующую «квотную группу», равна r (m|n) hy(m j | N j j, N j ;

n j ). (2.2.6) j Назовем выражение (2.2.6) структурированным распределени ем квотного отбора (СРКО). Вероятность совокупного обнаруже r ния m m (2.2.7) j j наблюдений, обладающих изучаемым признаком, при квотном от боре определяется выражением, которое назовем распределением квотного отбора (РКО) r N 1 m N N (1 ) (m | n) n j m 0 m n m...

j rr r r j 1 r r r r N N (1 r 1 ) m mr... r 1 r 1 r 1...

mr 1 0 mr 1 n r 1 mr r m mi N1 1 N1 (1 1 ) (2.2.8) N 2 2 N 2 (1 2 ) i m n m m m n m m r r... m2 i 1 i 2 i 3 i По-видимому, путем комбинаторных преобразований, СРКО можно придать вид, более обозримый, чем (2.2.8). Но в силу про извольности значений частот j ( j 1, r ), очевидно, что невозможно привести (2.2.8) к ГГР, определяющему случайный отбор.

Следует ли отсюда, что квотный опрос со стохастической точки зрения некорректен для оценки частоты встречаемости за данного признака в исследуемой генеральной совокупности? Нет, не следует. В статьях [240,247,257] автор показал, что математиче r ское ожидание случайной переменной m k1 mk, подчиненной РКО, равно n, а ее дисперсия асимптотически (по n) стремится к нулю.

Следовательно, квотная выборочная частота появления дихотоми ческого признака является несмещенной и состоятельной оценкой истинной частоты встречаемости этого дихотомического признака.

Введем величину l ml / n ;

l 1, r. Ее дисперсия, учитывая, что отбор по каждой квоте подчинен соответствующему гипер геометрическому распределению, приближенно равна l.

1 l D l l n С учетом стохастической независимости значений ml (l 1,r ), дисперсию квотной оценки «суммарной» частоты вида l l r можно приближенно представить как 1r D l ( 1 l l ). (2.2.9) nl Заметив, что максимум дисперсии (2.2.9) достигается при усло виях l l / 2, по правилу «трех сигм» запишем:

r 3 l.

2n 2n l Сравнив это неравенство с (2.2.3), видим, что гарантированная погрешность квотного оценивания частоты встречаемости булевого признака имеет тот же порядок, что и погрешности оценивания ча стот при прямом случайном отборе (подчиненном ГГР) однородных данных из неструктурированной генеральной совокупности наблюдений.

Резюмируя эти результаты, отметим, что использование квот ного отбора правомерно с формальных теоретико-вероятностных позиций.

Однако применение квотного выборочного метода сопряжено с низкой точностью получаемых результатов для населения в це лом;

невозможностью получить оценки частот встречаемости каче ственных признаков по категориям населения;

высокой трудоемкостью и стоимостью получения данных;

низкой оперативностью формирования выборочного ансамбля.

2.3. Полиномиальное распределение (ПР) и его обобщения Методы описания случайных неоднородных выборочных ан самблей в маркетинговых и социологических исследованиях, осно ванные на многомерных обобщениях ГГР, были изложены непо средственно выше. В этом разделе работы обоснованы более про стые методы, основанные на модификациях полиномиального рас пределения [83,170]. Эти методы, несмотря на более простой мате матический аппарат, обеспечивают при статистическом оценивании (по выборкам из больших совокупностей) ту же точность, что и ме тоды, основанные на многомерных обобщениях гипергеометриче ского распределения (ГГР).

2.3.1. Полиномиальное распределение как асимптотический случай многомерного распределения разбиения Известно [170, с.104], что при N 0.1 n гипергеометрическое r мерное распределение или, что то же самое, распределение разбие ния (РР) без заметной потери точности описания может быть заме нено полиномиальным [170, п.2.4.1] распределением:

ij nij ri i 1, s : por (ni | i, n) n !. (2.3.1.1) j n!

ij Заметим, что условие n 0.1 N практически всегда выполняет ся в выборочных социально-экономических, маркетинговых и со циологических обследованиях.

Пусть множество мощности N разбито на r попарно непересе кающихся подмножеств. Мощность j-го подмножества обозначим N j (j= 1, r ). Пусть проведен случайный отбор (без возвращения) n элементов генеральной совокупности. Это значит, что при случай ном отборе любой элемент исходного множества с равной вероят ностью 1/N мог попасть в выборку, независимо от его принадлеж ности подмножествам разбиения. Оказалось, что структура случай ной выборки имеет вид вектора n { n1,..., n j,..., nr }. Ясно, что та кая ситуация представима распределением разбиения (РР):

( N j 1) (n 1) ( N n 1) r hnr (n| N, N ;

n), ( N 1) j (n j 1) ( N j n j 1) r r где подразумевается, что: N N j n n j. (2.3.1.2) j j Если множество разбиения обладает большой мощностью, пра вомерно воспользоваться формулой Стирлинга [284, гл. V]:

, (2.3.1.3) Nj Nj 2N j ( N j e) N j 1 : ( N j 1) ( N j e) где е = 2.718 281 828 459 … - основание натурального логарифма.

Выражение (1.1) может быть приближенно представлено в виде hnr(n | N, N ;

n) n j nj (N j n j ) N nr n e e n! 1. (2.2.1.4) N N n j n j ! ( 1 n / N ) Nj j j С учетом того, что N n Nj nj n e n e r, (2.2.1.5) 1 N n N n N j N приближенное выражение вида (1.4) принимает вид Nj 1 n / N nj 1 N j n j r N n hnr (n| N, N ;

n) n !.

1 nj / N j nj ! j (2.2.1.6) Введем понятие частоты встречаемости элементов подмножеств разбиения: N j N j Const ;

j 1,r. (2.2.1.7) С учетом (1.7) асимптотически получаем вид распределения (1.6):

j n j. (2.3.1.8) r hnr (n| N, N ;

n) por (n|,n) (n 1) j (n j 1) N Распределение в правой части выражения (1.8) является поли номиальным распределением [170, п.2.4.1]. Его одномерный случай (биномиальное распределение) [170, п.6.1.3] имеет вид n bi(m|, n) m (1 ) n m. (2.3.1.9) m Биномиальное распределение (1.9) описывает вероятность того со бытия, что в серии из n опытов Бернулли [28,38,83,170] m раз был зафиксирован «успех». При этом вероятность успеха в каждом от дельном опыте постоянна и равна.

Распределение (1.9) является асимптотическим (по N) прибли жением гипергеометрического распределения (ГГР). Этот факт лег ко объясним. Сам вид ГГР обусловлен тем, что в этом случае выбо рочный ансамбль формируется «без возврата». Это значит, что на каждом шаге отбора вероятность «успеха» (скажем, случайный вы бор белого шара среди белых и черных) зависит от результатов предыдущих шагов.

Но в том случае, если объем генеральной совокупности очень велик (N n 1), вероятности успеха на каждом шаге перестают зависеть от предыстории отбора.

Это значит, что отбор пойдет по схеме испытаний Бернулли, который описывается биномиальным распределением (1.9).

Совершенно аналогично дело обстоит и в многомерном случае (при конечном числе разных «успехов»). В этом случае распреде ление разбиения (1.1) заменяется полиномиальным распределением (1.8).

2.3.2. Представления функции полиномиального распределения Рассмотрим серию испытаний Бернулли [28,38,83;

170, п.2.2] длиной n, в каждом опыте которой наблюдается одно из r событий, образующих полную группу событий. Вероятность наступления j-го события постоянна в каждом опыте и равна j ( j 1,r ). Веро ятность того события, что каждое j-е событие произойдет ровно n j раз, будет определена формулой полиномиального распределе ния [170, п.6.4.1] вида (2.3.1.1).

r r При этом предполагается, что 1 и n n. (2.3.2.1) j j j j Полиномиальная функция распределения (ПФР) имеет вид 1k1 r kr n1 nr Por( n |, n ) (n 1)..., (2.3.2.2) (k1 1) (k r 1) k1 0 kr r nj jk. (2.3.2.3) или Por ( n |, n ) (n 1) j 1 k 0 (k 1) Математические ожидания и дисперсии компонент r –мерного случайного вектора, подчиненного полиномиальному распределе нию, соответственно имеют вид [170, п.6.4.1]:

j n j и j 2 n j ( 1 j ). (2.2.2.4) Известно [150, п. 4.1.7.10], что e ( n 1, ) k n ;

, (2.3.2.5) k 0 (k 1) ( n 1 ) где неполная дополнительная гамма-функция Г(,) определена в виде [284, п.V.С] (, ) e t t 1dt ;

,. (2.3.2.6) Откуда для ПФР получаем выражение вида r ( n 1, ) (3) Por ( n |, n ) e (n 1) ;

n r.

j j (n j 1) j (5) (2.3.2.7) Найдем удобную для вычислений форму ФПР. Используем следующее представление [284, п.V.С] неполной дополнительной Г-функции:

k ;

n,.

(n 1, ) (n 1) e n (n 1)... (n 1 k ) k (2.3.2.8) Тогда вместо (2.7) мы получим выражение вида j k r j Por ( n |, n ) (n 1) ( e j n j ) (n j k 2) j 1 k 1 j n j r ;

n. (2.3.2.9) (n 1) j k (k 1) (n j k 2) r j 1 k Соотношение (2.9) представляет собой точное выражение для функции полиномиального распределения, удобное для реализации на ЭВМ.

2.3.3. Асимптотика полиномиального распределения Полиномиальное распределение может широко использоваться в экономических и социологических исследованиях, при маркетин ге потребительских рынков товаров и услуг.

Рассмотрим случай большого потребительского рынка конку рентных товаров, где за единицу времени (неделю, квартал и т.п.) продано n j ( j 1, r) видов товаров, причем n rj n j. Можно счи тать, что вероятность этого события описывает полиномиальным распределением.

Теперь рассмотрим случай, когда n очень велико. Воспользо вавшись приближением Стирлинга (2.3.1.3), можно записать:

r 2n (n 2n (n e) nj (n 1) e)n. (2.3.3.1) j Можно от вектора постоянных частот перейти к вектору посто янных (для заданного малого промежутка времени) математиче ских ожиданий вида n j n j Const;

j 1, r. (2.3.3.2) n С учетом (2.1-2) ПР (2.3.1.8) можно приближенно представить в виде nj r (n j e) por (n |, n) 2n (2.3.3.3) (n j 1) j Полученное приближение позволяет построить следующую це почку преобразований для функции ПР (ФПР):

nj (n j e) k (2.3.2.5) r Por (n |, n) 2n (k 1) k j (n j 1, n j e) (2.3.2.8) r nj e 2n e (n j 1) j nj k n j (n j e) r e 2n e (n j k 1) n j j k (2.3.3.4) r n k n j 3 / nj 2n e j e k n j 2n j j k Теперь отметим, что асимптотически (по n) правомерно записать:

( k n 3 / 2) ( k n) n k 1 n k n 1 n n n nk ( k n ) 1 n n n k n nk n 1 n n (n k ) (n k ) 2 exp [ (n k ) ] e n n n n Используя это выражение и заменяя в (2.3.3.4) сумму ряда со ответствующим интегралом, получаем для ФПР асимптотическое (по n) выражение вида ( x n j ) r n e 1 nj Por (n | n) 2n e j e dx 2n j j (2.3.3.5) r n e e t dt, 2n e j 2 j j где j n j n j ;

j 1,r (2.3.3.6) Откуда асимптотическое выражение для ФПВ ПР имеет вид n j r nj 2n e 2n j. (2.3.3.7) por (n | n) j Интегрируя приближение (2.3.2.7), получаем окончательное асимптотическое выражение для ФПР в виде erf ( j ) r 2n Por (n | n), (2.3.3.8) 22 j где erf ( ) - широко используемый в статистике и математической физике «интеграл вероятности» 6, определяемый в виде [284, гл.VII].

Функционал erf(x) также называют «интегралом вероятности ошибок» и «интегралом ошибок».

2 erf ( ). (2.3.3.9) e t dt ;

Интеграл вероятностей связан с функцией нормального распре деления (интегралом Лапласа) в виде [284, гл.VII] erf ( ) 2 ( 2 ) 1, где ( ) - интеграл Лапласа (функция распределения Гаусса).

2.3.4. Обобщения полиномиального распределения Итак, при небольших (относительно мощности конечной гене ральной совокупности) объемах выборочных ансамблей распреде ление разбиения практически без потери точности может быть за менено полиномиальным распределением вида hnr (n | N, N ;

n) N r por (n |, n) (n 1) j n j (n j 1). (2.3.4.1) N j Одномерный случай полиномиального распределения (биноми альное распределение) имеет вид (1 ) n m. (2.3.4.2) m bi(m |, n) (n 1) (m 1) (n m 1) Используя свойства неполных гамма-функций [326, п.V.С], выра жение для ФР ПР удобно представить в виде r j n j Por (n |, n) (n 1) j k ;

n.

(k 1) (n j k 2) j 1 k 0 r (2.3.4.3) Пусть изучается большая генеральная совокупность населения.

Для маркетингового или социологического опроса составлена анке та из «содержательных вопросов», общее число вариантов отве тов на которые равно р. При опросе используются априорные классификации по s номинальным шкалам, данные по которым имеются в Госкомстате.

Как и ранее: k 1, p;

i 1, s, j 1,ri. Долю жителей, относящих ся к j-й категории i-й классификации, обозначим ij.

Долю лиц, обладающих k-м содержательным признаком, одно временно относясь к j-й категории i-й классификации, обозначим ij. Долю общего числа жителей, обладающих k-м признаком, k обозначим. При случайном опросе было проинтервьюировано n k респондентов. В выборку попало nij лиц, относящихся к j-й категории i-й классификации, причем k-м изучаемым признаком обладают nij из них. Общее число респондентов, имеющих k-й признак, k равно n k.

Введем структурированное биномиальное распределение (СБР). СБР определяет вероятность того события, что в случайной выборке объема n обнаружено nij респондентов j-й категории i-й классификации, nij из которых обладают признаком:

k k-м p(nij, nij | ij,ij ;

n) Pr{nij, nij | n} k k k k k nnij k nij nij nij k nij n ! ( ij ) (1 ij ) ( ij ) (1 ij ) k. (2.3.4.4) ( n nij ) ! nij nij ) !

k nij ! ( Используя (2.3.4), введем распределение, которое назовем условным биномиальным распределением (УБР) вида p( nij, nij | ij, ij ;

n ) k k nij | ij, ij Pr{nij | nij } n) k k k ph( ;

nij, bi ( nij | ij ij, n) k k k k nij nij n nij k nij nij (ij ) (1ij ) (1 ij ) ( n k nij ) !

( n nij ) ! k k nij nij nij ) ! (1ij ij ) ( nij k 1 ij ij (1 ij ) k bi ( n nij |, n nij ) bi( nij nij |, n nij ).

k k k 1 ij ij 1 ij ij k k (2.3.4.5) Распределение (2.3.4.5) может служить основой для построения процедур статистического оценивания частот встречаемости дихо томических признаков по категориям населения.

Несложно получить вероятность того, что в случайной выборке объема n окажется: (а) по i-й классификации структура ni и (б) k–й признак будет зафиксирован в виде вектора n k, определяется в виде i k k k Pr { ni, ni | n } pri (ni, ni | i,i ;

n) Pr { nik | ni } Pr { ni | n } k nij nij [ ij ( k k ri ij ) ]. (2.3.4.6) (n 1) ij j 1 n ! (n n ) ! 1 ij k k k ij ij ij Распределение вида pri (nik, ni | ik,i ;

n) назовем распределе нием структурированной выборки (РСВ). Это распределение опи сывает стохастический процесс случайного отбора («без возвраще ния») элементов большой структурированной совокупности в вы борочный ансамбль.

Определим распределение, которое будем называть многомер ным биномиальным распределением (МБР), в виде Pr { nik | n } biri (nik,...,nir ;

n nk | ik, 1 k ;

n) k 1 i k k nij ( ri ij ij ) n! k ( 1 k ) n n. (2.3. 4.7) (n n k ) ! k j 1 nij !

Легко видеть, что распределение (2.3.7) является полиномиаль ным распределением с переменной. Множитель n+ k (1 k ) n n (n n k 1) отражает долю тех наблюдений, в которых k й признак зарегистрирован не был.

Теперь определим, необходимое нам в дальнейшем (для по строения процедур статистического оценивания), условное полино k k миальное распределение (УПР) phri (ni | i,i ;

ni, n) вида k k k Pr { nik,ni | n } phri (ni | i,i ;

ni, n) Pr { ni | ni } k Pr { ni | n }. (2.3.4.8) k nij nij k ij (1 ij ) ri 1 (n n 1) k ( n nij ) ! 1 k k j ij УПР (4.8) является обычным полиномиальным распределением:

ij (1 ij ) k k k phri (ni | i,i ;

ni, n) pori (nij nij | ;

n n k ). (2.3.4.9) k 1 k 2.4. Непрерывные аналоги распределений полиномиального типа 2.4.1. Понятие о непрерывном полиномиальном распределении В ряде случаев при изучении социально-экономических объек тов, например потребительских рынков, приходится иметь дело с непрерывными распределениями, представленными таблицей зна чений компонент непрерывного случайного вектора.

В этой связи важно разобраться с видом соответствующих не прерывных распределений, что позволит не только строить простые выборочные оценки частот по данным маркетинговых обследова ний, но и работать непосредственно со статистической отчетной информацией. Многомерная схема Бернулли при m вариантах исхода опыта, описывается [170, п.6.4.1] полиномиальным распределением (ПР) вида m pom(n | n) Г (n 1) j n j (n j 1), n ;

(2.4.1.1) r j Пусть в (n+1) –м опыте наблюдается j-й «успех». Тогда распре деление (1.1), учитывая, что (при х 0) Г(x+1) = х Г(х), перейдет в распределение n j j (n 1) Г (n 2) k nk m pom(n \ n j, n j 1 | n 1) j pom(n | n).

(n j 2) (nk 1) (n j 1) k j С учетом того, что 1 n j n, можно записать, что первая конечная разность [46] по j-й переменной приближенно будет равна j [ pom(n | n)] n j n j 1 pom(n | n). (2.4.1.2) Конечные разности [46] являются дискретными аналогами про изводных соответствующих порядков, в силу чего при n j правомерно считать, что j pom(n | n) [chm(n | n)]/ n j, а распределение chm(n | n) непрерывно.

Используя выражение (1.2), получаем уравнение вида ln chm n j n j n j n n chm(n | n) C j e j n j j ;

C j / n j 0 C j / nk, k j.

Для определенности назовем chm(n | n) функцией плотности вероятностей (ФПВ) непрерывного полиномиального распределения (НПР). ФПВ НПР априори симметрична по всем своим аргумен там, что позволяет записать:

m n n j 1 ;

chm(n | n) C e j (2.4.1.3) j j n j 1, j 1, m.

Значение константы С распределения (1.3) найдем из условия нормировки функции распределения (ФР) НПР к 1:

n x n 1 1 x2 2 1dx2...

1 C e n x1 dx 0 m 3 m n xk n xk k 1 k 1 m n xk ) m 1 dxm 1.

xmm2 2 1dxr 2 xmm11 1(... k 0 (2.4.1.4) Используя [150, п.2.2.5.1] соотношение вида n x 1(n x) 1dx n 1B(, ), (2.4.1.5) где В(,) – бета-функция, выражаемая [284, п.V.А.3.3] в виде B(, ) t 1(1t ) 1 dt ( )( ) ( ) ;

, 0, путем последовательного интегрирования соотношения (2.4.1.4) получаем:

m m m ( k ) n ( k ) 0 k C k 2 Cn 1 1 x1 (n x1) k k 2 dx1, ( 0 ) n m en e ( k ) k 0 m j n m где. Но тогда функцию плотности вероятно j стей (ФПВ) НПР, с учетом (1.3) и последнего выражения, за пишем в виде 1 n ( 0 ) m n j j (n m) m n j j chm(n | n) 1 n m 1.

j ( ) j (n 1) n n j j (2.4.1.6) Для соответствующей функции распределения (ФР) запишем:

1 2 2 n n ( 0 ) 1 x1 x Chm(n |, n) 1 dx1 2 dx2...

0 ( ) 0 ( ) n 1 m m n xk ) nm 1 x m 1 ( m 2 nm r xr... dxm 2 dxm k ( m 2 ) ( m 1 ) ( m ) 0 m m 1 t m 1 1 ( 1 m tk ) 1 1 1 m t ( 0 ) 1 dtm 1 Dim( ), dt1... k 0 ( ) ( m 1) ( m ) где случайный вектор { 1,..., m } определен в виде r r j n j n, j 1,m ;

nk n k 1.

k k В правой части этого выражения стоит функция m-мерного распределения (ФР) Дирихле, ФПВ которого [289] имеет вид m dim( ) ( 0 ) j j 1 ( j ). (2.4.1.7) j Отметим, что в популярном справочнике [170, п.6.4.5] в описание распределения Дирихле вкрались ошибки, которые были полностью повторены в Викизнание / Распределение Дирихле (www.wikiznanie.ru).

Если в серии n испытаний Бернулли с m «непрерывными» ис ходами рассматривается распределение абсолютного числа различ ных исходов опытов, то мы имеем дело с НПР (1.6). Если же рас сматривается распределение долей различных исходов опытов, то его описывает распределение Дирихле (1.7).

Пример. В данном сорте водки должно содержаться 100 1 % во ды, 100 2 % - этилового спирта, а остальное – допустимый процент примесей. Взята проба объемом n миллилитров этой водки. НПР ch3(n | n) определяет вероятность абсолютных значений n1, n2 и n3 n n1 n2 фактически обнаруженных в пробе составляющих di3( ) - вероятность фактически зареги водки, а распределение стрированных 1, 2 и 3 1 1 2 долей этих составляющих.

В частности, непрерывное биномиальное распределение (НБР) имеет вид x n ( n x ) n n ch( x |, n) n 1 ;

x [0, n] 1, B(n 1,nn 1) n а двумерное распределение Дирихле определено в виде 1 ( 1 ) n di( | ) ;

x / n, n 1.

B(,n 2) Первые центральные моменты компонент случайного векто-ра, подчиненного распределению Дирихле, имеют вид [276] M j j 0, D j j ( 0 j )[( 1 0 ) 0 2 ]1 ;

(2.4.1.8) Cov(i, j ) i j [( 1 0 ) 0 ;

j 1,r, i j.

2 ] Из выражений (1.8) для первых моментов dim( ), в силу соот ношений вида n j n j, тривиально вычисляются выражения для соответствующих параметров НПР. Для определения мод (наиболее вероятных значений) компонентов вектора, подчиненного рас пределению Дирихле, запишем:

m [dim( )] j 0 ( j 1) (1 k ) j ( m 1);

j 1, m 1.

k В силу произвольной нумерации компонент вектора, суммируя эти уравнения, найдем, что точка глобального максимума определена в виде j ( j 1) (0 m) j ;

j 1, m. (2.4.1.9) 2.4.2. Структурированное непрерывное полиномиальное распределение На выражение (1.3) можно взглянуть иначе, записав его:

m 1 m n ( n n ) m 1 n j 1. (2.4.2.1) cm(n, n \ nm ) C e k j j k В этом случае случайными величинами будут n и n j ( j 1, m 1).

Иной станет и константа C. Из условия нормировки функции рас пределения к единице n x n 1 1 x2 2 1dx2...

1 C x e n dn dx 0 0 m 3 m n xk n xk k 1 k 1 m m 2 1 m 1 ( n xk ) m 1 dxm 1,... xm 2 dxm 2 xm k 0 путем последовательного интегрирования с использованием выра жения (2.4.1.5), находим:

m 1 n j e n m m cm(n, n \ nm ) ( n nk ) j. (2.4.2.2) ( m ) j 1 ( ) k j где, по-прежнему, принято обозначение:

m j n j 1 ;

0 j n m j Назовем выражение (2.2) непрерывным структурированным полиномиальным распределением (НСПР). НСПР характеризует по явление за фиксированный промежуток времени n независимых со бытий m типов, со структурой n :

n j n j m cm(n, n) e n. (2.4.2.3) (n j 1) j Пример. На потребительском рынке представлено m видов кон курентных товаров. Оказалось, что за единицу времени продано n единиц товаров, причем по маркам товаров структура покупки име ет вид n1,...,nm. Вероятность такой ситуация описывается НСПР (2.3).

Двумерное НСПР имеет вид e n x n (n x) n(1 ) (2.4.2.4) c2(n, x).

(n 1)(n n 1) Характеристики распределения (2.3) легко вычисляется в виде Mo(n j ) j j 1 n j ;

e t t j dt ( j 1) j j n j 1;

0 ( ) ( j ) j t j 2 2 e t dt j j n j 1, j 1, m. (2.4.2.5) ( j ) j НСПР имеет функцию распределения (ФР) вида n dt m ( j,n j ) m m j t j et Cm(n, n) ;

n j n, ( j ) j 1 ( ) j 1 0 j j (2.4.2.6) где (, ) - неполная гамма-функция [271, п.V.С] вида (, ) ett 1 dt ;

, 0.

Представляет интерес распределение суммы m случайных ве личин n j. Из соотношения (2.3) находим:

... chm(n, n \ n ) dn...dn...

c(n) (m 1) m m 1 x1 1 (n x1 ) 0 1 dx1 e n n n e n. (2.4.2.7) (1 ) ( 0 1 ) ( 0 ) Из выражения (2.7) видно, что c(n) представляет собой част ный случай гамма–распределения [170, п.6.2.6].

Мода c(n) равна Mo(n) 0 1, а его первые моменты равны 1 2.

ФР c(n) запишется в виде ( 1,n). (2.4.2.8) C(n) ( 1) Отметим, что, как это и должно быть, cm(n,n) chm(n|n) c(n);

n. (2.4.2.9) m Более подробно изложение аппарата (и некоторых его прило жений) непрерывных обобщений полиномиального распределения даются автором в публикациях [260, 262, 271], а также в моногра фии [264].

2.4.3. Стохастическое уравнение потребительского рынка Современная микроэкономика зародилась в трудах Дж. Дюпюи [290] и У. Джевонса [296,297]. Причем, основоположник теории потребительского спроса У. Джевонс писал, что экономические за коны «…носят настолько сложный характер, что проявляются только для совокупностей и должны изучаться методом средних»

[297]. На «современный» язык эту мысль можно «перевести» так:

«Экономические законы носят вероятностный характер и должны изучаться статистическими методами». В связи со сказанным, вполне естественно, что в математической экономике используется как стохастический, так и детерминированный аппарат описания экономических систем и процессов [65,89,145,146,228,259,263,266 270,274].

А насколько буквально можно понимать процитированную мысль основателя современной теории потребительского рынка?

Видимо, понимать ее можно и в широком, и в узком смысле.

В широком смысле: индивидуальные «параметры» субъекта хо зяйственной деятельности (конкретного покупателя, продавца, производителя) не являются объектом изучения экономики, эти во просы относятся скорее к психологии. В рамках экономических за конов имеют смысл интегральные (или среднестатистические) ха рактеристики рынка. Так, например, кривая индивидуального спро са должна интересовать, по мнению Дж. Винера [304], не экономи стов, а социальных психологов. А экономистов должен интересо вать совокупный спрос (как суперпозиция индивидуальных спросов покупателей данного потребительского рынка). Эта точка зрения значительно расходится с общепринятыми взглядами, но полно стью согласуется с мнением У. Джевонса.

В узком смысле: требуется найти распределения, описывающие потребительский рынок конкурентных товаров.

Рассмотрим потребительский рынок из m конкурентных това ров. При краткосрочном рассмотрении потребительского рынка из держки S j продавца j-го товара всегда представимы в виде [146;

89, гл.6] ~ S j S j S j s j n j S j, S j, s j Const;

j 1, m. (2.4.3.1) Смысл этой записи заключен в том, что полные издержки S j (в единицу времени) равны сумме постоянных издержек S j, не зави ~ сящих от объема продаж товара, и переменных издержек S j, про порциональных объему продаж.

~ В выражении S j s j n j параметр s j (удельные переменные из держки) зависит от времени, но в любую данную единицу времени s j можно считать константой.

Все сказанное (и весь материал пункта) относится не только к издержкам продавца, но и затратам производителя. Формально, и издержки, и затраты идентичны, отличаясь только по своей при роде.

Общепринято [87,144,286], что в основе торговли (производ ства) лежит принцип максимизации прибыли P, которая для j-го то вара определяется в виде Pj V j S j ( j 1, m).

Это позволяет записать:

Pj V j s j n j S j max( n j );

S, s Const. (2.4.3.2) При этом затраты и стоимости выражаются в денежных едини цах (пусть, $), а количество товаров, будем считать, выражается в безразмерных «штуках» (кг, эшелонах, баррелях и т.п.). Критерий (3.2) дает:

~ (V j n j s j S j n j ) (2.4.3.3) ( 2V j n 2 0);

j 1, m.

j Условие s Const имеет смысл только для данного небольшого промежутка (единицы) времени. Из выражения из (3.3) следует, ~ S j n j V j n j.

что Будем исходить из того, что оптимальная торговля в средне статистическом смысле должна обеспечивать выполнение условий (3.3) в каждую единицу времени.

~ В пределах этой единицы времени j : S j, S j Const.

Полагая функцию стоимости V j V (n j ), с точностью до парамет ров, единой для всех аргументов, запишем:

~ ~ n j nj dx x S j ln( j ), (2.4.3.4) Vj S j где j n j / n j, n j n j ;

j 1, m. Смысл параметра n j заключается в том, что при меньшем объеме продаж торговля j-м товаром стано вится убыточной, т.е. потребительская цена товара становится меньше соответствующих удельных издержек.

Стоимость товаров аддитивна, откуда: V j V j. (2.4.3.5) m Следовательно, с учетом уравнений (3.4), затраты совокупного m Sj /$ ~ покупателя равны V $ ln n j. (2.4.3.6) j Сравнив этот материал с изложением теории потребления в его связи с производством в работах [259,263,266-270,274], мы увидим, что это тот же взгляд на объект исследования, но для изложения материала в стохастических, а не детерминированных терминах.


Выражение (3.6) позволяет записать распределения вероятно стей реализации компонент вектора V в зависимости от n.

Уравнение, стохастически связывающее стоимости товаров с их потреблением, с помощью НПР выражается в виде ~ V $ ln[C chm(n | S, n)], C Const, (2.4.3.7) ~ ~ Sj ( S m$) ~ n m chm(n | S, n) S ( m 1)$ ~ j.

~ где j ( S $) (2.4.3.8) n j В выражении (3.8) переменные затраты (за единицу времени) ~ на производство j-го вида товаров S j играют роль параметров рын ка. Константа C имеет вид ~ ~ ( S j $) S ( m 1)$ n m C ;

~ ~ ( S m$) j (2.4.3.9) Sj n j ~ m~ S j S j.

а суммарные переменные затраты равны Замечание. Из смысла изложенного подхода ясно, что под ве ~ личиной S j понимаются переменные затраты продавца (производи теля), связанные только с реализованным за единицу времени ко личеством j-го товара.

Таким образом, найдена стохастическая связь между затратами совокупного покупателя на потребительском рынке с количеством купленных товаров, в которой переменные затраты продавца (за единицу времени) играют роль параметров состояния рынка.

Выводы по главе 2.

В рамках результатов главы 2 следует отметить:

1. Получены многомерные обобщения гипергеометрического рас пределения (ГГР), которые адекватно описывают случайный отбор элементов неоднородных (структурированных) множеств. Найдены характеристики (моменты, моды и ковариации) этих распределе ний. Рассмотрены:

многомерное гипергеометрическое распределение (МГГР);

это распределение определяет вероятность конкретной структуры слу чайного выборочного ансамбля при заданных частотах встречаемо сти категорий данной фиксированной классификации;

многомерное структурированное гипергеометрическое рас пределение (МСГГР), которое определяет вероятность того, что в случайной выборке объема n окажется: (а) по i-й классификации структура ni и (б) k–й признак будет зафиксирован в виде вектора nik ;

это распределение полностью описывает стохастический ха рактер формирования случайного выборочного ансамбля из неод нородных совокупностей;

условное распределение структурированной выборки 1–го ро да, определяющее распределение лиц с k-м признаком в выборке по категориям i-й классификации при заданной структуре выбор ки;

условное распределение структурированной выборки 2–го рода, определяющее вероятность структуры выборки по данной класси фикации при данной структуре выборки по k-му признаку.

1. Проведен математически корректный анализ правомерности использования квотного метода (который по самой процедуре формированию выборки не является вполне случайным).

Сделаны оценки необходимых объемов квотной выборки, нуж ных для обеспечения заданной точности статистической оценки ча стоты встречаемости качественного признака. Найдено распреде ление квотного отбора (РКО), математически строго описывающее квотное формирование выборки.

Показано, что выборочная квотная оценка частоты встречае мости качественного признака является несмещенной и состоя тельной оценкой истинной частоты встречаемости этого призна ка.

Следовательно, с теоретико-вероятностных позиций исполь зование квотных методик в прикладных работах правомерно. Од нако применение квотного выборочного метода сопряжено с низкой точностью получаемых результатов по населению (поку пателям, электорату) в целом;

невозможностью получить оценки частот встречаемости буле вых признаков по априорным социально–демографическим кате гориям населения;

высокими трудоемкостью и стоимостью формирования выбо рочного ансамбля;

низкой оперативностью получения выборочных данных.

2. Если объем случайной выборки составляет менее 10% от объе ма генеральной совокупности, что всегда выполняется в маркетин говых и социальных исследованиях, МГГР без заметной потери точности можно заменить на полиномиальное распределение (ПР) [168, с.104].

В связи с чем представляют интерес полученные в работе мно гомерные обобщения полиномиального распределения, адекватно описывающие случайный отбор элементов из больших структури рованных множеств.

В работе рассмотрены:

структурированное биномиальное распределение (СБР), которое определяет вероятность того, что в случайной выборке объема n k обнаружено nij респондентов j-й категории i-й классификации, n ij из которых обладают k-м признаком;

условное биномиальное распределением (УБР), которое (см. да лее) играет важную роль в построении процедур статистического оценивания частот встречаемости дихотомических признаков по категориям населения (электората, покупателей);

распределение структурированной выборки (РСВ), которое определяет вероятность того события, что в случайной выборке объема n окажется: (а) по i-й классификации структура ni и (б) k–й n ik ;

признак будет зафиксирован в виде вектора многомерное биномиальное распределение (МБР) и условное по линомиальное распределение, которые (см. главу 3) играют важную роль при построении выборочных оценок частоты встречаемости дихотомических признаков по населению (покупателям, электорату) в целом и его основным социально-демографическим категориям.

3. В работе получены непрерывные аналоги распределений поли номиального типа. Найдены характеристики (моменты, моды и ко вариации) этих распределений.

Получены следующие результаты:

описано непрерывное полиномиальное распределение (НПР) и его частный случай – непрерывное биномиальное распределение (НБР);

найдена функциональная и логическая связь между непрерыв ным полиномиальным распределением и распределением Дирихле;

описано непрерывное структурированное полиномиальное рас пределение, адекватно описывающее выборочный метод на неод нородном множестве, заданном непрерывными переменными.

5. Получено стохастическое уравнение потребительского рынка, которое показывает, что суммарные затраты покупателей (за еди ницу времени) на потребительском рынке описываются непрерыв ным полиномиальным распределением (НПР). В уравнении потре бительского рынка затраты производителей (продавцов) играют роль параметров НПР.

ГЛАВА 3. СТАТИСТИЧЕСКИЕ ОЦЕНКИ ЧАСТОТ ВСТРЕЧАЕМОСТИ БУЛЕВЫХ ПРИЗНАКОВ ПО СЛУЧАЙНОЙ НЕОДНОРОДНОЙ ВЫБОРКЕ.

НЕПАРАМЕТРИЧЕСКИЕ ПОЛИГРАММНЫЕ ОЦЕНКИ Материал этой главы книги фрагментарно приведен в работах [5,7,8,130,131,156,157,174,175,217,236,236,239,240,243,247,249, 251252,257,260-262,264]. Автор апробировал его на ряде Между народных, Всесоюзных и Всероссийских научных конференций и симпозиумов [132,133,158,219,220,231,248,250,271].

В третьей главе используются базовые обозначения, которые ранее были введены в главе 2.

3.1. Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке с использованием МГГР 3.1.1.Выборочные оценки частот встречаемости булевых признаков по населению в целом с использованием МСГГР На основе обобщений гипергеометрического распределения (ГГР), предложенных в разделе 2.1, возможны различные виды со стоятельных оценок частот встречаемости дихотомических призна ков как по населению в целом, так и по его социально демографическим категориям. Ниже приведен относительно про стой метод, позволяющий получить стабильные и достаточно точ ные оценки частот встречаемости качественных признаков.

Используя условное распределение (2.1.4.1) k k ri hnri ( ni | i, i ;

N, ni ) hy ( nij | Nij ij, Nij ;

nij ), k k j грубую оценку частоты встречаемости k–го булевого признака сре ди лиц j-й категории i-й классификации запишем в виде ~ ijk nij / nij. (3.1.1.1) k Несложно показать, что оценка (3.1.1.1) является состоятель ной, несмещенной и асимптотически нормальной оценкой частоты ij.

k На практике значения nij и nij часто оказываются малы, что k обуславливает большие погрешности оценок (3.1.1.1). Поэтому эти оценки используются исключительно как вспомогательные.

ri ~ Определим оценку вида k k. (3.1.1.2) (i) ij ij j С учетом того, что все стохастические переменные nij подчинены k ГГР вида hy(nij | i, nij ), их дисперсии приближенно вычисляются в k виде Dnij nij (nij nij ) / nij. (3.1.1.3) k k k А ковариации величин nij и nil (l j) вычисляется в виде k k 1 ;

l j.

) C k (i) Cov(n k,n k nk nk nij jl ij il ij il nij (3.1.1.4) Тогда дисперсия оценки (3.1.1.2) имеет вид ij ri ri Dnij 2 ij il C k (i) D (ki) k nij jl l j nij nil j r ri ~ k (1 k ) 2 i k ( 1 nij ).

ij ij 1 ~ ~ ij nij il ij il nil j 1 l j (3.1.1.5) Тривиально показать состоятельность и несмещенность оценок (k i) (k 1, p ;

i 1, s).

Каждую из s оценок вида (3.1.1.2) можно рассматривать как не которое измерение [13,35,125,135,139-141,143,153,163,177 182,189,191] искомой частоты встречаемости k-го признака, точ ность которого определена выражением вида (3.1.1.5).

Заметим также, что идея получения итоговой оценки частоты встречаемости изучаемого признака в виде линейной суперпозиции ее неравноточных измерений соответствует естественнонаучной традиции обработки результатов экспериментов [123,135,163] в об ласти физических наук.

Будем рассматривать «частные» оценки частоты ( i) как нерав k ноточные измерения истинного значения частоты. Итоговую k оценку частоты k представим в виде s k i (ki). (3.1.1.6) i s s s Ее дисперсия имеет вид D k 2 D k C k, (i) i i j ij i i j где Cij Cov( k, k ). Для несмещенности оценки (3.1.1.6), необ (i) ( j ) k ходимо условие вида i i 1.

s С учетом этого требования, значения компонент вектора определим из критерия вида D k min( ). (3.1.1.7) Точное решение задачи, требующее оценивания значений кова риаций Cij, представляет собой несложную, но «громоздкую» в k вычислительном отношении процедуру, которая сводится к реше нию системы линейных уравнений. Автор с коллегами провел не сколько сотен вычислений значений точных оценок (3.1.1.6). При этом выявились два факта.


Во-первых, ковариационная матрица Cij часто оказывается k вырожденной. В этом случае ее приходится аппроксимировать в некотором смысле «ближайшей» к ней невырожденной матрицей (подробнее см. статью [5]). При аппроксимации вырожденной мат рицы Cij некоторой невырожденной матрицей использовались k методы из работы [42]. Но при этом возникает дополнительная ошибка, оценить величину которой аналитически не удается.

Во-вторых, оказалось, что в абсолютном большинстве случаев k значения C ij по модулю на два-три порядка меньше, чем значения D (ki ). Поэтому учет ковариаций в выражении для итоговой оценки дисперсии частоты (1.6) практического смысла не имеет и является попыткой уточнить результат за пределами точности вычислений.

Содержательно это понятно: оценивание частот встречаемости с помощью разных (и по своему смыслу практически между собой не связанных) номинальных шкал дает слабо коррелируемые результа ты. Поэтому ( i ) на практике можно считать стохастически незави k симыми. В этом предположении компоненты вектора имеют вид 1 D (i) k i ;

i 1, s.

s (kj ) ) ( D j Тогда искомые оценки (k находятся в виде i) s (kj ) s ( D (kj ) ) 1, (3.1.1.8) k j j D (kj ) а ее дисперсия вычисляется как D k D(ki) 1. (3.1.1.9) s i Выражения (1.8-9) являются точными, а не приближенными решениями задачи, в предположении независимости частных (вспомогательных) оценок (k. При этом, будучи средним гармо i) ническим дисперсий вспомогательных оценок, дисперсия оценки (1.9) заведомо меньше их минимального значения.

Заметим, что все соотношения этого пункта применимы и к результатам квотного опроса, поскольку он представляет собой частный случай изложенного при значениях nij nij.

3.1.2. Приложение полученных результатов к социологии форума Приведем пример из практики автора. В 1992-м году админи страцией Президента РФ было решено пригласить на очередной VII Съезд народных депутатов РФ семь коллективов социологов. Од ной из привлеченных к работе организаций был Институт систем ных исследований и социологии (ИСИС), научным руководителем которого был автор.

На съезде актуально встал вопрос о доверии действующему ка бинету министров. Мы располагали данными о результатах голосо ваний на предыдущих съездах всех N = 1040 депутатов. Было ото брано 125 голосований по важнейшим вопросам, которые исполь зовались как априорные классификации с тремя значениями: «за», «отсутствовал» и «прочее» (позиции «против» и «воздержался»

были равнозначны с точки зрения итогов голосования). Таким об разом, все депутаты были подвергнуты 125-и априорным класси фикациям с относительными частотами встречаемости ij (i 1, 125, j 1,2,3). Было опрошено всего лишь n = 40 депутатов, из которых в поддержку кабинета министров высказались n * * депутатов. Обозначим n ij число депутатов из j-й категории i-й классификации, поддерживающих правительство. Ясно, что i : n 3j nij. Используя эти 125 априорных классификаций, за пишем вспомогательные оценки вида ~ i* 3 ij nij / nij ;

где i 1, 125.

* j ~ Дисперсия оценки i* имеет вид D i* 3 ij nij (nij nij ) / nij.

~ 2* * j Используя выражение (3.1.1.8), для итоговой оценки доли депу татов, поддерживающих правительство, получаем выражение вида 125 ~* 125 ~* * i ~* i (D i ).

i 1 D i 1 Дисперсия итоговой оценки, учитывая (3.1.1.9), запишется в виде * D * ~ 1.

D i 1 i Всего за час работы было выяснено, что в поддержку прави тельства готовы проголосовать 470 плюс-минус 6 депутатов. Это означало, что кабинет министров ни в коем случае не сможет полу чить поддержку большинства депутатов (которая составляла голос).

Через сутки тайное голосование депутатского корпуса дало ре зультат: в поддержку правительства было отдано 467 голосов народных депутатов России.

Приведенный пример апробации изложенной методики проде монстрировал еще одно важное свойство разработанного подхода:

оценки примерно равной точности можно получить как по боль шому опросу с малым «паспортом» анкеты, так и по малому опросу с очень большим «паспортом» анкеты (при большом числе априор ных классификаций).

Парадокс состоит в том, что при использовании квотных тех нологий наличие многих априорных классификаций – большая трудность, а для изложенной методики – это благо.

Чем большим числом вспомогательных классификаций мы пользуемся, тем меньше погрешность получаемого в итоге резуль тата. Если, конечно, в Росстате есть статистика по используемым в работе классификациям (номинальным шкалам).

Изложенный метод в исследованиях политологического, со циологического и маркетингового характера 1991-2011 гг. обычно обеспечивает, при объемах случайного выборочного ансамбля - 2000 наблюдений, погрешности оценок k порядка 0.005 - 0.015.

3.1.3. Выборочные оценки частот встречаемости булевых признаков по категориям населения В настоящем пункте работы изложен простой метод оценива ния частот встречаемости дихотомических признаков по категори ям населения, который, тем не менее, дает достаточно точные ре зультаты. На практике автором применялись и другие, несколько более сложные, методы для оценки частот встречаемости [131, 133, 156, 158, 235, 237, 239, 249, 250-252, 262, 264] булевых признаков по социальным категориям населения.

Запишем соотношение вида Pr{nij |n k } hy{nij | Nij, N k ;

n k }. (3.1.3.1) k k k Математическое ожидание этого распределения имеет вид nij Nij n k N k ;

k 1, p ;

i 1, s, j 1, ri. (3.1.3.2) k k Отсюда можно сделать вывод, о том, что N ij nij N k n k ;

k 1, p ;

i 1, s, j 1, ri. (3.1.3.3) k k Следовательно, для частоты встречаемости k–го признака по j–й категории i–й номинальной шкалы паспорта можно записать:

k N k. (3.1.3.4) nij N k k N ij N ij ij nk N ij N Отсюда следует естественный вид оценки для частоты встре чаемости k–го признака по j–й категории i–й номинальной шкалы паспорта:

nij k ;

k ij k k 1, p ;

i 1, s, j 1, ri. (3.1.3.5) n ij k Оценка (3.5) является асимптотически несмещенной, причем:

k ri ri Pr nij k k. (3.1.3.6) k ij ij k nk j j Оценка (2.5) является состоятельной, поскольку k k N ij N N k Pr N ij k ij. (3.1.3.7) ij k k N N ij N N ij Дисперсия оценки (3.5) вычисляется в виде nij k D ij D k. (3.1.3.8) k ij n k Таким образом, можно утверждать, основываясь на непара метрическом правиле «трех сигм», что k nij ij ( k 3 D k ). (3.1.3.9) k ij n k Итак, мы обосновали методику оценки значений частот встре чаемости булевых признаков по произвольным априорным класси фикациям (данные по которым есть в Росстате).

3.1.4. Анализ электоральных ожиданий социально–демографических категорий населения Рассмотрим пример апробации разработанной методики в зада чах обеспечения электоральных кампаний. Осенью 1993-го года с просьбой об аналитическом сопровождении предвыборной кампа нии ЛДПР к автору обратился В.В. Жириновский.

Работа сводилась к тому, чтобы проанализировать тезисы вы ступлений и статей лидера ЛДПР за предыдущий год. Эти тезисы были оформлены в виде вопросов анкеты.

С помощью социологических организаций-партнеров был про веден всероссийский опрос в 12 регионах (Москва, С.- Петербург, Тула, Воронеж, Ростов, Самара, Нижний Новгород, Екатеринбург, Уфа, Омск, Иркутск и Владивосток). Случайным образом опраши валось городское и сельское население, в «паспорте» анкеты фигу рировали 6 априорных классификаций электората (подробнее см.

[148]). Результаты опроса были обработаны по методике, изложен ной выше.

Были выделены 8 тезисов, которые однозначно хорошо воспри нимались абсолютным большинством населения. На эти тезисы лидер ЛДПР стал опираться в своих выступлениях, ориентирован ных на широкие слои всех избирателей (телевыступления, публич ные дебаты, статьи и заметки в крупных газетах).

Для основных социальных категорий электората были выделе ны «свои» 6-7 тезисов, доминанты политических ожиданий этих групп населения. Затем автор придал выделенным тезисам «публи цистический вид». С этим материалом В.В. Жириновский выступал на телевидении, где были организованы (заранее широко анонсиро ванные) «телевстречи» с различными категориями избирателей.

Многим памятен триумфальный для ЛДПР подсчет итогов го лосования по выборам в ГД ФС РФ, проходивший в прямом теле эфире «Политического Нового года» в 1993 г.

При использовании изложенных методов работы со случай ными выборками точность оценок (по сравнению с «квотными»

методами) значительно возрастает, стоимость опросов резко па дает и оперативность исследований существенно повышается. А возможность анализа общественного мнения в «разрезах» по со циально-демографическим категориям населения радикально по вышает информативность экспертного анализа социума.

3.2. Статистические оценки частот встречаемости дихотомических признаков для категорий населения В том случае, как было указано выше, если n 0.1 N, то много мерное структурированное гипергеометрическое распределение (МСГГР) можно заменить соответствующим структурированным полиномиальным распределением (СПР).

Указанное условие в маркетинге потребительских рынков и в социально–экономических исследованиях, как правило, выполняет ся. При этом выборочные оценки, построенные по СПР проще, чем оценки, использующие СГГР.

3.2.1. Вспомогательные оценки частот встречаемости булевых признаков по категориям населения Из соотношения (2.3.2.9) непосредственно следует, что матема тическое ожидание стохастической переменной n nij, для рас пределения ch ( nij | ij, ij ;

n k, n), выражается [170, п.6.1.3] в ви k ij (n nij ) (1 ij ) k де M [n nij ].

1 k ij ij 1 ij ij n nij k k Откуда следует вывод, о том, что, 1 ij n nij где M [...] - математическое ожидание (…).

Используя это приближение, легко получить выражение для ча стоты встречаемости k–го признака среди лиц j–й категории i–й но минальной шкалы вида 1 ij nij nij k k ij n nij. (3.2.1.1) ij Из соотношения (1.1) сразу следует критерий представитель ности выборки:

(nij / n) ij k nij 0 1 k 1 ij. (3.2.1.2) ij n Таким образом, выборка может считаться представитель ной (в смысле излагаемой методологии) в том случае, если по каж дой категории каждой классификации доля наблюдений с изучае ( nij / n) ij мым k–м признаком nij n превосходит.

k 1 ij Этот критерий строго формализует понятие представительно сти случайной выборки по изучаемым качественным признакам.

Из приближения (3.2.1.1) можно получить важное соотношение для частоты встречаемости k–го признака в виде ri ij ij k k j nij nij k ri 1 (1 ij ) ;

i 1, s. (3.2.1.3) n nij j Таким образом, соотношение (3.2.1.1) позволяет представить вспомогательную (обладающей невысокой точностью) оценку ча стоты встречаемости k–го признака среди лиц j–й категории i–й номинальной шкалы в виде ijk 1 (ij 1 1) ij, (3.2.1.4) ~ k nij nij k где. (3.2.1.5) k n nij ij Тривиально показать, что оценка (3.2.1.3) является состоятель ной:

1 ij (1 ij ) nij k ij.

~ k k ij n (1 ij ) ij n 1 n Из соотношения (2.3.2.9) видно, что стохастическая переменная nij nij k подчинена биномиальному распределению вида ij (1 ij ) k bi (nij nij |, n nij ).

k 1 ij Откуда следует, что оценка (3.2.1.3) является несмещенной:

1 ij ij ~ М ijk 1 (1 ij ) ij.

k k ij ij Дисперсии оценок (3.2.1.3) вычисляются в виде 1 ij D ijk Dij ~ k ij ~ ~ 1 ij 1 ijk ij (1 ijk ) 1 n nij. (3.2.1.6) ij 1 ij Отметим, что ~ ~ 1 ijk 1 1 ijk ~ D k. (3.2.1.7) n ij 1 ij ij n Все сделанные выше выводы правомерны и для квотных выбо рок, которые по своей сути представляют собой частный случай, когда nij n ij. Что в этом случае позволяет записать:

1 ij nij nij k k k nij nij ~ ijk 1 ij n nij nij nij. (3.3.1.8) k Но дело в том, что дисперсия оценки nij nij :

nij (nij nij ) k k k nij D 3, (3.2.1.9) n nij обычно слишком велика, поскольку оценка (1.8) обладает малой точностью и высокой нестабильностью. Поэтому никто и не ис пользует квотные методы для прямого оценивания частот встреча емости признаков по категориям населения.

3.2.2. Вспомогательные оценки частот встречаемости бинарных признаков по населению в целом Теперь можно перейти от вспомогательных оценок частот по категориям населения к вспомогательным оценкам частот встре чаемости качественных признаков по населению (электорату, по купателям) в целом. Вспомогательную оценку частоты встречаемо сти k–го признака по населению в целом с помощью i–й классифи кации определим в виде nij nij k ri ri ~ ij 1 (1 ij ) ;

i 1, s. (3.2.2.1) k k n nij (i ) ij j j Оценки (i ) (i 1, s) являются состоятельными:

k nij 1 nij / nij k ri (ki ) 1 (1 ij ) n 1 nij / n j 1 n ri 1 ij (1 ij ) k ;

i 1, s. (3.2.2.2) k j n и несмещенными:

ri r i ~ k k k ;

i 1, s.

M ij M ij k (3.2.2.3) (i ) ij ij j j Дисперсия оценки (2.1) оценивается в виде ri r r i i ~ k C ik ) 2 D k ~ D ij ( D ij k ij, (3.2.2.4) (i ) jl ij j 1 l j j ik ~~ где C jl - оценки ковариации Cov( ijk, ilk ) частот, значениями ко торых можно пренебречь. Покажем это.

Отметив, что nij n ij, (3.2.2.5) оценку (3.2.2.1) можно приближенно представить в виде ri ri 1 1 n (nij n ) n nij ;

i 1, s. (3.2.2.6) k k k (i ) ij j 1 j Рассмотрим полиномиальное распределение вида ri k k k nij pori (ni |..., ij ij,... ;

n) n! [ (ij ij ) nij ! ]. (3.2.2.7) k k j Согласно соотношению (2.3.3.4) Cov(nij,nil ) nijil ij il, l j. (3.2.2.8) k k kk Но тогда правомерно записать, что ~~ ijil ijk ilk ik ~ D( ijk ). (3.2.2.9) Cij n 3.2.3. Выборочные оценки частот встречаемости дихотомических признаков по населению в целом Как и п. 3.1.1, будем рассматривать вспомогательные оценки частоты k как неравноточные и независимые (что правомерно с (i) содержательной точки зрения) измерения значения частоты k.

Это позволяет, как принято при обработке неравноточных измере k ний, итоговую оценку частоты представить в виде s i (ki). (3.2.3.1) k i В силу требования несмещенности оценки, необходимо условие ограничения на вектор вида 1. (3.2.3.2) s i i Оценка (3.1) является состоятельной s i k (3.2.3.3) k k n i и несмещенной:

s s M i M (ki) i k k. (3.2.3.4) k i i Ее дисперсия, с учетом соотношения (3.2.2.4), представима в виде s D i 2 D (ki). (3.2.3.5) k i опреде С учетом требования (3.2.3.2), компоненты вектора лим из условия минимизации дисперсии итоговой оценки:

D k min ( ). (3.2.3.6) Несложно показать, что решение этой задачи определяется в виде s i ( D ki) ) 1 ( D (kj ) ) 1 ;

( i 1, s ). (3.2.3.7) ( j Тогда итоговая оценка частоты встречаемости k-го признака s (kj ) s равна ( D (kj ) ) 1, (3.2.3.8) k j 1 D (kj ) j 1 а ее дисперсия равна среднему гармоническому дисперсий частных s оценок D k D k. (3.2.3.9) ( j ) j 1 Из (3.2.3.9) следует, что дисперсия итоговой оценки частоты, являясь средним гармоническим дисперсий вспомогательных оце нок, всегда меньше, чем минимальная из дисперсий вспомогатель ных оценок этой частоты вида (ki) ;

k 1, p ;

i 1, s. На практике дисперсия оценки k обычно оказывается кратно (иногда поряд ково) меньше минимального из значений D (ki).

Практика показала, что изложенный метод в исследованиях социально-экономического, социологического и маркетингового характера обычно обеспечивает, при объемах случайного выбороч ного ансамбля 1500 -2000 наблюдений, погрешности оценок k порядка 0.005 - 0.010 (от половины до одного процента, считая от численности генеральной совокупности).

3.2.4. Выборочные оценки частот встречаемости дихотомических признаков по категориям населения Перейдем к построению процедур получения выборочных оце нок по категориям генеральной совокупности (населения, покупа телей, электората).

Из соотношения для распределения (2.3.3.9) cri (ni | ik,i ;

nik, n) можно записать выражение для математиче ского ожидания стохастической переменной nij nij в виде [170, k п.6.4.1]:

( n n k ) ij (1 ij ) k M [nij nij ] k. (3.2.4.1) 1 k Откуда следует вывод, о том, что ij (1 ij ) nij nij k k. (3.2.4.2) n nk k Выражение (4.2) дает возможность приближенно выразить ча стоту встречаемости k–го признака среди лиц j–й категории i–й но минальной шкалы в виде 1 k nij nij k k ij n n k. (3.2.4.3) ij Существенно, что из приближения (3.2.4.3) следует:

1 k ri ri (nij nij ) k ;

i 1, s.

ij k k k n n k j ij j Из соотношения (3.2.4.3) следует вид оценки частоты встречае мости k –го признака среди лиц j –й категории i –й номинальной шкалы в виде nij nij 1 k k ij k ij n nk, (3.2.4.4) где - полученная ранее оценка частоты встречаемости k –го k признака по населению в целом. Используя свойства ПР, легко по казать, что оценка (4.4) является состоятельной:

1 k nij 1 nij / nij k ij 1 k ij n 1 nk / n n 1 ij 1 k k k. (3.2.4.5) ij ij ij 1 k n n Оценка (4.4) является асимптотически несмещенной:

nij nij 1 k k M ij 1 ] k M[ ij n nk n 1 k (1 ij ) ij. (3.2.4.6) 1 k k 1 k n n Дисперсия оценки (4.4) может быть выражена в виде D k n n k D ij ij k nn ij 2. (3.2.4.7) ij k При больших объемах выборки справедливо приближение вида D k 1 nij / nij n k Dij ij k n 1 nk / n ij 2 n 1 ij k. (3.2.4.8) D k n 1 1 k На основании (4.8) можно полагать, что, при больших объемах выборки, с удовлетворительной для практики точностью для дис персии оценки (4.4) выполняется соотношение вида k ( 1 ij ) k D 0. (3.2.4.9) k 1 k ij n 1 n n *** В целом отметим, что при использовании изложенных методов работы со случайными выборками из структурированных мно жеств точность оценок резко возрастает, а наличие результатов анализа социальных категорий населения радикально повышает возможности экспертно-аналитической работы при подготовке информации для лиц, принимающих управляющие решения, а так же при планировании рекламных и рекламно-политических кампа ний.

Пример апробации оценок частот встречаемости дихотомических признаков по социально-демографическим категориям населения В 2011 г. проводилось комплексное исследование по изучению казачества Юга России. Эта работа позволила в полной мере пока зать важность получения структуры общественного мнения в со циально-экономических исследованиях.

В частности, большой интерес представляют собой самооценки материального положения казаков с учетом их семейного положе ния. Это очень важный показатель: не так существенно сколько благ имеет человек, как важно, насколько он чувствует себя удо влетворенным.

В табл. 3.1 приведены результаты, полученные при опросе око ло 3 тыс. казаков из станиц от Дона до Терека.

Таблица 3. Холос- Женат. ка- Женат.

Как вы оцениваете свое Казаки в казаки, тые ка- заки, материальное положение? целом есть де заки детей нет ти Денег не хватает даже на продукты питания 7.91 6.07 4.96 8. На питание денег хватает, а на 14.99 12.76 8.76 16. покупку одежды – нет На питание и одежду денег хватает, 47.10 44.89 39.58 49. на крупную бытовую технику – нет Денег хватает на крупную бытовую технику 7.47 10.17 8.73 6. Денег хватает на всё, кроме приобретения 15.94 15.95 12. 32. недвижимости Никаких материальных затруднений не ис 2.17 2.51 2.87 1. пытываю Затрудняюсь ответить 4.42 7.66 2.92 3. Из таблицы видно, что большинству казаков, независимо от се мейного положения, денег хватает только на питание и одежду.

В несколько лучшем положении находятся женатые казаки, не имеющие детей: треть из них могут позволить себе все разумные расходы, исключая покупку недвижимости (которая на Северном Кавказе весьма дорогостояща).

Около 8 % казаков «борются за выживание» и лишь 2% казаков не испытывают существенных материальных затруднений 3.3. Метод группового анкетирования на «малых выборках»



Pages:     | 1 || 3 | 4 |   ...   | 5 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.