|
||||||||||||||||||
Подобную таблицу наблюдений за СВ часто называют выборочным распределением, а соответствующую ей картинку (диаграмму) — гистограммой.
Рис. 2.1
Какую же информацию несет такая табличка или соответствующая ей гистограмма? Прежде всего, всю — так как иногда и таких данных о значениях случайной величины нет и их приходится либо добывать (эксперимент, моделирование), либо считать исходы такого сложного события равновероятными — по на любой из исходов. С другой стороны — очень мало, особенно в цифровом, численном описании СВ. Как, например, ответить на вопрос: — а сколько в среднем мы выигрываем за одно бросание кости, если выигрыш соответствует выпавшему числу на грани? Нетрудно сосчитать: 1•0.140+2•0.080+3•0.200+4•0.400+5•0.100+6•0.080= 3.48 То, что мы вычислили, называется средним значением случайной величины, если нас интересует прошлое. Если же мы поставим вопрос иначе — оценить по этим данным наш будущий выигрыш, то ответ 3.48 принято называть математическим ожиданием случайной величины, которое в общем случае определяется как Mx = å Xi · P(Xi); {2 - 1} где P(Xi) — вероятность того, что X примет свое i-е очередное значение. Таким образом, математическое ожидание случайной величины (как дискретной, так и непрерывной)— это то, к чему стремится ее среднее значение при достаточно большом числе наблюдений. Обращаясь к нашему примеру, можно заметить, что кость несимметрична, в противном случае вероятности составляли бы по 1/6 каждая, а среднее и математическое ожидание составило бы 3.5. Поэтому уместен следующий вопрос - а какова степень асимметрии кости - как ее оценить по итогам наблюдений? Для этой цели используется специальная величина — мера рассеяния — так же как мы "усредняли" допустимые значения СВ, можно усреднить ее отклонения от среднего. Но так как разности (Xi - Mx) всегда будут компенсировать друг друга, то приходится усреднять не отклонения от среднего, а квадраты этих отклонений. Величину {2 - 2} принято называть дисперсией случайной величины X. Вычисление дисперсии намного упрощается, если воспользоваться выражением {2 - 3} т. е. вычислять дисперсию случайной величины через усредненную разность квадратов ее значений и квадрат ее среднего значения. Выполним такое вычисление для случайной величины с распределением рис. 1. Таблица 2.2 | ||||||||||||||||||
Грани(X) |
1 |
2 |
3 |
4 |
5 |
6 |
Итого |
|||||||||||
X2 |
1 |
4 |
9 |
16 |
25 |
36 |
||||||||||||
Pi |
0.140 |
0.080 |
0.200 |
0.400 |
0.100 |
0.080 |
1.00 |
|||||||||||
Pi•X2•1000 |
140 |
320 |
1800 |
6400 |
2500 |
2880 |
14040 |
Таким образом, дисперсия составит 14.04 - (3.48)2 = 1.930.
Заметим, что размерность дисперсии не совпадает с размерностью самой СВ и это не позволяет оценить величину разброса. Поэтому чаще всего вместо дисперсии используется квадратный корень из ее значения — т. н. среднеквадратичное отклонение или отклонение от среднего значения:
{2 - 4}
составляющее в нашем случае = 1.389. Много это или мало?
Сообразим, что в случае наблюдения только одного из возможных значений (разброса нет) среднее было бы равно именно этому значению, а дисперсия составила бы 0. И наоборот - если бы все значения наблюдались одинаково часто (были бы равновероятными), то среднее значение составило бы (1+2+3+4+5+6) / 6 = 3.500; усредненный квадрат отклонения — (1 + 4 + 9 + 16 + 25 + 36) / 6 =15.167; а дисперсия 15.167-12.25 = 2.917.
Таким образом, наибольшее рассеяние значений СВ имеет место при ее равновероятном или равномерном распределении.
Отметим, что значения Mx и SX являются размерными и их абсолютные значения мало что говорят. Поэтому часто для грубой оценки "случайности" данной СВ используют т. н. коэффициент вариации или отношение корня квадратного из дисперсии к величине математического ожидания:
Vx = SX/MX . {2 - 5}
В нашем примере эта величина составит 1.389/3.48=0.399.
Итак, запомним, что неслучайная, детерминированная величина имеет математическое ожидание равное ей самой, нулевую дисперсию и нулевой коэффициент вариации, в то время как равномерно распределенная СВ имеет максимальную дисперсию и максимальный коэффициент вариации.
В ряде ситуаций приходится иметь дело с непрерывно распределенными СВ - весами, расстояниями и т. п. Для них идея оценки среднего значения (математического ожидания) и меры рассеяния (дисперсии) остается той же, что и для дискретных СВ. Приходится только вместо соответствующих сумм вычислять интегралы. Второе отличие — для непрерывной СВ вопрос о том какова вероятность принятия нею конкретного значения обычно не имеет смысла — как проверить, что вес товара составляет точно 242 кг - не больше и не меньше?
Для всех СВ — дискретных и непрерывно распределенных, имеет очень большой смысл вопрос о диапазоне значений. В самом деле, иногда знание вероятности того события, что случайная величина не превзойдет заданный рубеж, является единственным способом использовать имеющуюся информацию для системного анализа и системного подхода к управлению. Правило определения вероятности попадания в диапазон очень просто — надо просуммировать вероятности отдельных дискретных значений диапазона или проинтегрировать кривую распределения на этом диапазоне.
Вернемся теперь к вопросу о случайных событиях. Здесь методически удобнее рассматривать вначале простые события (может произойти или не произойти). Вероятность события X будем обозначать P(X) и иметь ввиду, что вероятность того, что событие не произойдет, составляет
P(X) = 1 - P(X). {2 - 6}
Самое важное при рассмотрении нескольких случайных событий (тем более в сложных системах с развитыми связями между элементами и подсистемами) — это понимание способа определения вероятности одновременного наступления нескольких событий или, короче, — совмещения событий.
Рассмотрим простейший пример двух событий X и Y, вероятности которых составляют P(X) и P(Y). Здесь важен лишь один вопрос — это события независимые или, наоборот взаимозависимые и тогда какова мера связи между ними? Попробуем разобраться в этом вопросе на основании здравого смысла.
Оценим вначале вероятность одновременного наступления двух независимых событий. Элементарные рассуждения приведут нас к выводу: если события независимы, то при 80%-й вероятности X и 20%-й вероятности Y одновременное их наступление имеет вероятность всего лишь 0.8 • 0.2 = 0.16 или 16% .
Итак — вероятность наступления двух независимых событий определяется произведением их вероятностей:
P(XY) = P(X) P(Y). {2 - 7}
Перейдем теперь к событиям зависимым. Будем называть вероятность события X при условии, что событие Y уже произошло условной вероятностью P(X/Y), считая при этом P(X) безусловной или полной вероятностью. Столь же простые рассуждения приводят к так называемой формуле Байеса
P(X/Y)P(Y) = P(Y/X)P(X) {2 - 8}
где слева и справа записано одно и то же — вероятности одновременного наступления двух "зависимых" или коррелированных событий.
Дополним эту формулу общим выражением безусловной вероятности события X:
P(X) = P(X/Y)P(Y) + P(X/Y)P(Y), {2 - 9}
означающей, что данное событие X может произойти либо после того как событие Y произошло, либо после того, как оно не произошло (Y) — третьего не дано!
Формулы Байеса или т. н. байесовский подход к оценке вероятностных связей для простых событий и дискретно распределенных СВ играют решающую роль в теории принятия решений в условиях неопределенности последствий этих решений или в условиях противо-действия со стороны природы, или других больших систем (конкуренции). В этих условиях ключевой является стратегия управления, основанная на прогнозе т. н. апостериорной (послеопытной) вероятности события
P(X/Y) . {2 - 10}
Прежде всего, еще раз отметим взаимную связь событий X и Y — если одно не зависит от другого, то данная формула обращается в тривиальное тождество. Кстати, это обстоятельство используется при решении задач оценки тесноты связей — корреляционном анализе. Если же взаимосвязь событий имеет место, то формула Байеса позволяет вести управление путем оценки вероятности достижения некоторой цели на основе наблюдений над процессом функционирования системы — путем перерасчета вариантов стратегий с учетом изменившихся представлений, т. е. новых значений вероятностей.
Дело в том, что любая стратегия управления будет строиться на базе определенных представлений о вероятности событий в системе — и на первых шагах эти вероятности будут взяты "из головы" или в лучшем случае из опыта управления другими системами. Но по мере "жизни" системы нельзя упускать из виду возможность "коррекции" управления - использования всего накапливаемого опыта.
Большую роль в теории и практике системного анализа играют некоторые стандартные распределения непрерывных и дискретных СВ.
Эти распределения иногда называют "теоретическими", поскольку для них разработаны методы расчета всех показателей распределения, зафиксированы связи между ними, построены алгоритмы расчета и т. п.
Таких, классических законов распределений достаточно много, хотя "штат" их за последние 30..50 лет практически не пополнился. Необходимость знакомства с этими распределениями для специалистов вашего профиля объясняется тем, что все они соответствуют некоторым "теоретическим" схемам случайных (большей частью — элементарных) событий.
Как уже отмечалось, наличие больших массивов взаимосвязанных событий и обилие случайных величин в системах экономики приводит к трудностям априорной оценки законов распределений этих событий или величин. Пусть, к примеру, мы каким-то образом установили математическое ожидание спроса некоторого товара. Но этого мало - надо хотя бы оценить степень колебания этого спроса, ответить на вопрос — а какова вероятность того, что он будет лежать в таких-то пределах? Вот если бы установить факт принадлежности данной случайной величины к такому классическому распределению как т. н. нормальное, то тогда задача оценки диапазона, доверия к нему (доверительных интервалов) была бы решена безо всяких проблем.
Доказано, например, что с вероятностью более 95% случайная величина X с нормальным законом распределения лежит в диапазоне — математическое ожидание Mx плюс/минус три среднеквадратичных отклонения SX.
Так вот — все дело в том к какой из схем случайных событий классического образца ближе всего схема функционирования элементов вашей большой системы. Простой пример - надо оценить показатели оплаты за услуги предоставления времени на междугородние переговоры - например, найти вероятность того, что за 1 минуту осуществляется ровно N переговоров, если заранее известно среднее число поступающих в минуту заказов. Оказывается, что схема таких случайных событий прекрасно укладывается в т. н. распределение Пуассона для дискретных случайных величин. Этому распределению подчинены почти все дискретные величины, связанные с так называемыми "редкими" событиями.
Далеко не всегда математическая оболочка классического закона распределения достаточно проста. Напротив — чаще всего это сложный математический аппарат со своими, специфическими приемами. Но дело не в этом, тем более при "повальной" компьютеризации всех областей деятельности человека. Разумеется, нет необходимости знать в деталях свойства всех или хоть какой-то части классических распределений - достаточно иметь в виду саму возможность воспользоваться ими.
Из личного опыта - очень давно, в до_компьютерную эру автору этих строк удалось предложить метод оценки степени надежности энергоснабжения, найти по сути дела игровой метод принятия решения о необходимости затрат на резервирование линий электропередач в условиях неопределенности — игры с природой.
Таким образом, при системном подходе к решению той или иной задачи управления (в том числе и экономического) надо очень взвешено отнестись к выбору элементов системы или отдельных системных операций. Не всегда "укрупнение показателей" обеспечит логическую стройность структуры системы — надо понимать, что заметить близость схемы событий в данной системе к схеме классической чаще всего удается на самом "элементарном" уровне системного анализа.
Завершая вопрос о распределении случайных величин обратим внимание на еще одно важное обстоятельство: даже если нам достаточно одного единственного показателя — математического ожидания данной случайной величины, то и в этом случае возникает вопрос о надежности данных об этом показателя.
В самом деле, пусть нам дано т. н. выборочное распределение случайной величины X (например — ежедневной выручки в $) в виде 100 наблюдений за этой величиной. Пусть мы рассчитали среднее Mx и оно составило $125 при колебаниях от $50 до $200. Попутно мы нашли SX, равное $5. Теперь уместен вопрос: а насколько правдоподобным будет утверждение о том, что в последующие дни выручка составит точно $125? Или будет лежать в интервале $120..$130? Или окажется более некоторой суммы — например, $90?
Вопросы такого типа чрезвычайно остры - если это всего лишь элемент некоторой экономической системы (один из многих), то выводы на финише системного анализа, их достоверность, конечно же, зависят от ответов на такие вопросы.
Что же говорит теория, отвечая на эти вопросы? С одной стороны очень много, но в некоторых случаях — почти ничего. Так, если у вас есть уверенность в том, что "теоретическое" распределение данной случайной величины относится к некоторому классическому (т. е. полностью описанному в теории) типу, то можно получить достаточно много полезного.
· С помощью теории можно найти доверительные интервалы для данной случайной величины. Если, например, уже доказано (точнее — принята гипотеза) о нормальном распределении, то зная среднеквадратичное отклонение можно с уверенностью в 5% считать, что окажется вне диапазона (Mx - 3Sx)......(Mx 3Sx) или в нашем примере выручка с вероятностью 0.05 будет <$90 или >$140. Надо смириться со своеобразностью теоретического вывода — утверждается не тот факт, что выручка составит от 90 до 140 (с вероятностью 95%), а только то, что сказано выше.
· Если у нас нет теоретических оснований принять какое либо классическое распределение в качестве подходящего для нашей СВ, то и здесь теория окажет нам услугу — позволит проверить гипотезу о таком распределении на основании имеющихся у нас данных. Правда - исчерпывающего ответа "Да" или "Нет" ждать нечего. Можно лишь получить вероятность ошибиться, отбросив верную гипотезу (ошибка 1 рода) или вероятность ошибиться приняв ложную (ошибка 2 рода).
· Даже такие "обтекаемые" теоретические выводы в сильной степени зависят от объема выборки (количества наблюдений), а также от "чистоты эксперимента" — условий его проведения.
Использование классических распределений случайных величин обычно называют "параметрической статистикой" - мы делаем предположение о том, что интересующая нас СВ (дискретная или непрерывная) имеет вероятности, вычисляемые по некоторым формулам или алгоритмам. Однако не всегда у нас имеются основания для этого. Причин тому чаще всего две:
· некоторые случайные величины просто не имеют количественного описания, обоснованных единиц измерения (уровень знаний, качество продукции и т. п.);
· наблюдения над величинами возможны, но их количество слишком мало для проверки предположения (гипотезы) о типе распределения.
В настоящее время в прикладной статистике все большей популярностью пользуются методы т. н. непараметрической статистики — когда вопрос о принадлежности распределения вероятностей данной величины к тому или иному классу вообще не подымается, но конечно же — задача оценки самой СВ, получения информации о ней, остается.
Одним из основных понятий непараметрической статистики является понятие ШКАЛЫ или процедуры шкалирования значений СВ. По своему смыслу процедура шкалирования суть решение вопроса о "единицах измерения" СВ. Принято использовать четыре вида шкал.
Nom. Первой из них рассмотрим НОМИНАЛЬНУЮ шкалу — применяемую к тем величинам, которые не имеют природной единицы измерения. Если некоторая величина может принимать на своей номинальной шкале значения X, Y или Z, то справедливыми считаются только выражения типа: (X#Y), (X#Z), (X=Z), а выражения типа (X>Y), (X<Z), (X+Z) не имеют никакого смысла. Примеры СВ, к которым применимы только номинальные шкалы — пол, цвет, марка автомобиля и т. п.
Ord. Второй способ шкалирования - использование ПОРЯД-КОВЫХ шкал. Они незаменимы для СВ, не имеющих природных единиц измерения, но позволяющих применять понятия предпочтения одного значения другому. Типичный пример: оценки знаний (даже при нечисловом описании), служебные уровни и т. п.; для таких величин разрешены не только отношения равенства (= или #), но и знаки предпочтения (> или <). Иногда говорят о рангах значений таких величин.
Int & Rel. Еще два способа шкалирования используются для СВ, имеющих натуральные размерности — это ИНТЕРВАЛЬНАЯ и ОТНОСИТЕЛЬНАЯ шкала. Для таких величин, кроме отношений равенства и предпочтения, допустимы операции сравнения - т. е. все четыре действия арифметики. Главная особенность таких шкал заключается в том, что разность двух значений на шкале (36 и 12) имеет один смысл для любого места шкалы (28 и 4). Различие между интервальной шкалой и относительной — только в понятии нуля — на интервальной шкале 0 Кг веса означает отсутствие веса, а на относительной шкале температур 0 градусов не означает отсутствие теплоты — поскольку возможны температуры ниже 0 градусов (Цельсия).
Можно теперь заметить еще одно преимущество, которое мы получаем при использовании методов непараметрической статистики — если мы сталкиваемся со случайной величиной непрерывной природы, то использование интервальной или относительной шкалы позволит нам иметь дело не со случайными величинами, а со случайными событиями — типа "вероятность того, что вес продукции находится в интервале 17 Кг". Поэтому можно предложить единый подход к описанию всех показателей функционирования сложной системы — описание на уровне простых случайных событий (с вероятностью P(X) может произойти событие X). При том под событием придется понимать то, что случайная величина займет одно из допустимых для нее положений на шкале Nom, Ord, Int или Rel.
Конечно — такой, “микроскопический” подход резко увеличивает объем информации, необходимой для системного анализа. Частично этот недостаток смягчается при использовании компьютерных методов системного анализа, но более важно другое — преимущество на начальных этапах анализа, когда решаются вопросы дезинтеграции большой системы (выделение отдельных ее элементов) и последующей ее интеграции для разработки стратегии управления системой.
Не будет большим преувеличением считать, что методы непараметрической статистики - наиболее мощное средство для решения задач системного анализа во многих областях деятельности человека и, в частности, в экономике.
Прямое токование термина корреляция — стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.
Выше говорилось о том, что если для двух СВ (X и Y) имеет место равенство P(XY) =P(X) P(Y), то величины X и Y считаются независимыми. Ну, а если это не так!?
Ведь всегда важен вопрос — а как сильно зависит одна СВ от другой? И дело в не присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что системный анализ означает непрерывные выЧИСЛения, что использование компьютера вынуждает нас работать с числами, а не понятиями.
Для числовой оценки возможной связи между двумя случайными величинами: Y(со средним My и среднеквадратичным отклонением Sy) и — X (со средним Mx и среднеквадратичным отклонением Sx) принято использовать так называемый коэффициент корреляции