Рефераты

Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости

Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости

Введение

В течение многих лет приложения на базе ОС реального времени

использовались во встроенных системах специального назначения, а с

недавнего времени они стали применяться повсюду, от бортовых систем

управления ЛА, до бытовых приборов.

Разработка многопроцессорных вычислительных систем (ВС) как правило,

имеет своей целью повышение либо уровня надежности, либо уровня

производительности системы до значений недоступных или труднореализуемых в

традиционных ЭВМ.

В первом случае на передний план встает вопрос о наличии специальных

средств обеспечения отказоустойчивости вычислительных систем, основной

особенностью (и достоинством) которых является отсутствие какого-либо

единственного ресурса, выход из строя которого приводит к фатальному отказу

всей системы.

Таким образом, объектом исследования в рамках сетевой отказоустойчивой

технологии становится ОСРВ — управляющее программное обеспечение особого

типа, которое используется для организации работы встроенных приложений,

для которых характерны ограниченность ресурсов памяти, невысокая

производительность, а также требования гарантированного времени отклика,

высокого уровня готовности и наличия средств автомониторинга.

Данная дипломная работа посвящена разработке специализированной

распределенной операционной системы реального времени для отказоустойчивых

ВС с рангом отказоустойчивости N(N-1), что означает способность системы

функционировать даже в том случае, если произойдут отказы всех элементов

системы за исключением одного. Для полного освещения выбранной темы были

поставлены следующие задачи:

1. Провести анализ существующих операционных систем реального времени,

выделить основные функциональные требования к ним, дать

сравнительную характеристику.

2. Раскрыть концепцию построения ОСРВ с рангом отказоустойчивости N-1,

выделить основные модули операционной системы, функциональные

требования к ним и алгоритмы работы.

3. Раскрыть логику организации отказоустойчивых вычислений на примере

конкретной реализации.

4. Провести анализ надежности отказоустойчивой ВС и дать рекомендации

по организации ВС.

5. Создать программную модель вычислительной системы с распределенной

операционной системой реального времени и отработать на ней

различные режимы работы.

6. Рассмотреть возможность портирования (переноса) ОСРВ на платформу

TMS320c30, рассмотреть специфические проблемы и сложности при

осуществлении портации.

В первой части работы дано краткое описание известных ОСРВ, описаны их

функциональные возможности, структура, их направленность (специфические

особенности). Также приведена сравнительная характеристика и отмечены те

решения, которые можно было бы использовать для разработки собственной

специализированной ОСРВ.

Во второй главе описана концепция построения распределенной ОСРВ, были

сформулированы основные принципы функционирования перспективной

вычислительной системы, включающие в себя многопроцессорность, обеспечение

живучести, адаптацию к изменениям внутренних условий среды, поддержку

реального масштаба времени, мобильность и открытость программного

обеспечения. Предложен пример организации отказоустойчивых вычислений на

примере пяти-узловой полносвязной сети ПЭ в условиях постоянной деградации

системы.

Далее рассмотрена программная модель ВС и операционной системы,

логика работы и взаимосвязь модулей.

В последней главе рассматриваются особенности аппаратной платформы

TMS320c30, вопросы реализации вышеприведенных идей с помощью этой

платформы, дополнение ОС специфическими для данной архитектуры модулями.

Специальная часть

Операционные системы реального времени.

ОС общего назначения, особенно многопользовательские, ориентированы на

оптимальное распределение ресурсов компьютера между пользователями и

задачами (системы разделения времени), В операционных системах реального

времени (ОСРВ), подобная задача отходит на второй план - все отступает

перед главной задачей - успеть среагировать на события, происходящие на

объекте.

1 Описание и общие требования к системам реального времени.

Применение операционной системы реального времени всегда связано с

аппаратурой, с объектом, с событиями, происходящими на объекте. Система

реального времени, как аппаратно-программный комплекс, включает в себя

датчики, регистрирующие события на объекте, модули ввода-вывода,

преобразующие показания датчиков в цифровой вид, пригодный для обработки

этих показаний на компьютере, и, наконец, компьютер с программой,

реагирующей на события, происходящие на объекте. ОСРВ ориентирована на

обработку внешних событий. Именно это приводит к коренным отличиям (по

сравнению с ОС общего назначения) в структуре системы, в функциях ядра, в

построении системы ввода-вывода. ОСРВ может быть похожа по

пользовательскому интерфейсу на ОС общего назначения, однако устроена она

совершенно иначе - об этом речь впереди.

Кроме того, применение ОСРВ всегда конкретно. Если ОС общего

назначения обычно воспринимается пользователями (не разработчиками) как уже

готовый набор приложений, то ОСРВ служит только инструментом для создания

конкретного аппаратно - программного комплекса реального времени. И поэтому

наиболее широкий класс пользователей ОСРВ - разработчики комплексов

реального времени, люди проектирующие системы управления и сбора данных.

Проектируя и разрабатывая конкретную систему реального времени, программист

всегда знает точно, какие события могут произойти на объекте, знает

критические сроки обслуживания каждого из этих событий.

Назовем системой реального времени (СРВ) аппаратно-программный

комплекс, реагирующий в предсказуемые времена на непредсказуемый поток

внешних событий.

Это определение означает, что:

. Система должна успеть отреагировать на событие, произошедшее на

объекте, в течение времени, критического для этого события. Величина

критического времени для каждого события определяется объектом и самим

событием, и, естественно, может быть разной, но время реакции системы

должно быть предсказано (вычислено) при создании системы. Отсутствие

реакции в предсказанное время считается ошибкой для систем реального

времени.

. Система должна успевать реагировать на одновременно происходящие

события. Даже если два или больше внешних событий происходят

одновременно, система должна успеть среагировать на каждое из них в

течение интервалов времени, критического для этих событий.

Различают системы реального времени двух типов - системы жесткого

реального времени и системы мягкого реального времени.

Системы жесткого реального времени не допускают никаких задержек

реакции системы ни при каких условиях, так как:

. результаты могут оказаться бесполезны в случае опоздания,

. может произойти катастрофа в случае задержки реакции,

. стоимость опоздания может оказаться бесконечно велика.

Примеры систем жесткого реального времени - бортовые системы

управления, системы аварийной защиты, регистраторы аварийных событий.

Системы мягкого реального времени характеризуются тем, что задержка

реакции не критична, хотя и может привести к увеличению стоимости

результатов и снижению производительности системы в целом.

Основное отличие между системами жесткого и мягкого реального времени

можно выразить так: система жесткого реального времени никогда не опоздает

с реакцией на событие, система мягкого реального времени - не должна

опаздывать с реакцией на событие.

Тогда операционная система реального времени - это такая ОС,

которая может быть использована для построения систем жесткого реального

времени. Это определение выражает отношение к ОСРВ как к объекту,

содержащему необходимые инструменты, но также означает, что этими

инструментами еще необходимо правильно воспользоваться.

1.2. Параметры ОСРВ

1.2.1. Время реакции системы

Почти все производители систем реального времени приводят такой

параметр, как время реакции системы на прерывание (interrupt latency).

В самом деле, если главным для системы реального времени является ее

способность вовремя отреагировать на внешние события, то такой параметр,

как время реакции системы является ключевым.

События, происходящие на объекте, регистрируются датчиками, данные с

датчиков передаются в модули ввода-вывода (интерфейсы) системы. Модули

ввода-вывода, получив информацию от датчиков и преобразовав ее, генерируют

запрос на прерывание в управляющем компьютере, подавая ему тем самым сигнал

о том, что на объекте произошло событие. Получив сигнал от модуля ввода-

вывода, система должна запустить программу обработки этого события.

Интервал времени - от события на объекте и до выполнения первой

инструкции в программе обработки этого события и является временем реакции

системы на события.

Обычно время реакции систем на прерывание составляет порядка 4-10

мкс.

1.2.2. Время переключения контекста

В операционные системы реального времени заложен параллелизм,

возможность одновременной обработки нескольких событий, поэтому все ОСРВ

являются многозадачными (многопроцессными, многонитиевыми).

Контекст задачи это набор данных, задающих состояние процессора при

выполнении задачи. Обычно совпадает с набором регистров, доступных для

изменения прикладной задаче.

При переключении задач (процессов) необходимо:

1. корректно остановить работающую задачу;

для этого

а) выполнить инструкции текущей задачи, уже загруженные в процессор,

но еще не выполненные;

б) сохранить в оперативной памяти регистры текущей задачи;

2. найти, подготовить и загрузить затребованную задачу;

3. запустить новую задачу, для этого

а) восстановить из оперативной памяти регистры новой задачи

(сохраненные ранее,

если она до этого уже работала);

б) загрузить в процессор инструкции новой задачи.

Каждая из этих стадий вносит свой вклад в задержку при переключении

контекста. Поскольку любое приложение реального времени должно обеспечить

выдачу результата в заданное время, то эта задержка должна быть мала,

детерминирована и известна. Это число является одной из важнейших

характеристик ОСРВ. Обычно время переключения контекста в ОСРВ составляет

10-20 мкс.

3 Размеры системы

Для систем реального времени важным параметром является размер

системы исполнения, а именно суммарный размер минимально необходимого для

работы приложения системного набора (ядро, системные модули, драйверы и т.

д.). Хотя, надо признать, что с течением времени значение этого параметра

уменьшается, тем не менее, он остается важным и производители систем

реального времени стремятся к тому, чтобы размеры ядра и обслуживающих

модулей системы были невелики.

3 Механизмы реального времени

Важным параметром при оценке ОСРВ является набор инструментов,

механизмов реального времени, предоставляемых системой.

1.3.1. Система приоритетов и алгоритмы диспетчеризации

Базовыми инструментами разработки сценария работы системы являются

система приоритетов процессов (задач) и алгоритмы планирования

(диспетчеризации) ОСРВ.

В многозадачных ОС общего назначения используются, как правило,

различные модификации алгоритма круговой диспетчеризации, основанные на

понятии непрерывного кванта времени ("time slice"), предоставляемого

процессу для работы. Планировщик по истечении каждого кванта времени

просматривает очередь активных процессов и принимает решение, кому передать

управление, основываясь на приоритетах процессов (численных значениях, им

присвоенных). Приоритеты могут быть фиксированными или меняться со временем

- это зависит от алгоритмов планирования в данной ОС, но рано или поздно

процессорное время получат все процессы в системе.

Алгоритмы круговой диспетчеризации неприменимы в чистом виде в ОСРВ.

Основной недостаток - непрерывный квант времени, в течение которого

процессором владеет только один процесс. Планировщики же ОСРВ имеют

возможность сменить процесс до истечения "time slice", если в этом возникла

необходимость. Один из возможных алгоритмов планирования при этом

"приоритетный с вытеснением". Мир ОСРВ отличается богатством различных

алгоритмов планирования: динамические, приоритетные, монотонные, адаптивные

и пр., цель же всегда преследуется одна - предоставить инструмент,

позволяющий в нужный момент времени исполнять именно тот процесс, который

необходим.

1.3.2. Механизмы межзадачного взаимодействия

Другой набор механизмов реального времени относится к средствам

синхронизации процессов и передачи данных между ними. Для ОСРВ характерна

развитость этих механизмов. К таким механизмам относятся: семафоры,

мьютексы, события, сигналы, средства для работы с разделяемой памятью,

каналы данных (pipes), очереди сообщений. Многие из подобных механизмов

используются и в ОС общего назначения, но их реализация в ОСРВ имеет свои

особенности - время исполнения системных вызовов почти не зависит от

состояния системы, и в каждой ОСРВ есть по крайней мере один быстрый

механизм передачи данных от процесса к процессу.

3 Средства для работы с таймерами

Такие инструменты, как средства работы с таймерами, необходимы для

систем с жестким временным регламентом, поэтому развитость средств работы с

таймерами - необходимый атрибут ОСРВ. Эти средства, как правило, позволяют:

. измерять и задавать различные промежутки времени (от 1 мкс и выше),

. генерировать прерывания по истечении временных интервалов,

. создавать разовые и циклические будильники

Здесь описаны только базовые, обязательные механизмы, использующиеся

в ОСРВ. Кроме того, почти в каждой ОСРВ можно найти целый набор

дополнительных, специфических только для нее механизмов, касающийся системы

ввода-вывода, управления прерываниями, работы с памятью. Каждая система

содержит также ряд средств, обеспечивающих ее надежность: встроенные

механизмы контроля целостности кодов, инструменты для работы с таймерами.

4 Классы систем реального времени

Монолитная архитектура

ОСРВ с монолитной архитектурой можно представить в виде (рис. 1.1)

. прикладного уровня: состоит из работающих прикладных процессов;

. системного уровня: состоит из монолитного ядра операционной системы, в

котором можно выделить следующие части: интерфейс между приложениями и

ядром (API), собственно ядро системы, интерфейс между ядром и

оборудованием (драйверы устройств).

[pic]

Рис. 1.1. ОСРВ с монолитной архитектурой

Интерфейс в таких системах играет двойную роль:

1. управление взаимодействием прикладных процессов и системы,

2. обеспечение непрерывности выполнения кода системы (т.е. отсутствие

переключения задач во время исполнения кода системы).

Основным преимуществом монолитной архитектуры является ее

относительная быстрота работы по сравнению с другими архитектурами. Однако,

достигается это, в основном, за счет написания значительных частей системы

на ассемблере.

Недостатки монолитной архитектуры.

1. Системные вызовы, требующие переключения уровней привилегий (от

пользовательской задачи к ядру), должны быть реализованы как прерывания или

специальный тип исключений. Это сильно увеличивает время их работы.

2. Ядро не может быть прервано пользовательской задачей (non-

preemptable). Это может приводить к тому, что высокоприоритетная задача

может не получить управления из-за работы низкоприоритетной.

3. Сложность переноса на новые архитектуры процессора из-за

значительных ассемблерных вставок.

4. Негибкость и сложность развития: изменение части ядра системы

требует его полной перекомпиляции.

Модульная архитектура (на основе микроядра)

Модульная архитектура появилась, как попытка убрать интерфейс между

приложениями и ядром и облегчить модернизацию системы и перенос ее на новые

процессоры.

Теперь микроядро играет двойную роль(рис 1.2):

1. управление взаимодействием частей системы (например, менеджеров

процессов и файлов),

1. обеспечение непрерывности выполнения кода системы (т.е. отсутствие

переключения задач во время исполнения микроядра).

[pic]

Рис. 1.2. ОСРВ на основе микроядра

Недостатки модульной архитектуры фактически те же, что и у

монолитной. Проблемы перешли с уровня интерфейса на уровень микроядра.

Системный интерфейс по-прежнему не допускает переключения задач во время

работы микроядра, только сократилось время пребывания в этом состоянии,

проблемы с переносимостью микроядра уменьшились (в связи с сокращением его

размера), но остались.

Объектная архитектура на основе объектов-микроядер

В этой архитектуре интерфейс между приложениями и ядром отсутствует

вообще (рис. 1.3). Взаимодействие между компонентами системы (микроядрами)

и пользовательскими процессами осуществляется посредством обычного вызова

функций, поскольку и система, и приложения написаны на одном языке (обычно

C++). Это обеспечивает максимальную скорость системных вызовов.

[pic]

Рис. 1.3. Пример объектно-ориентированной ОСРВ

Фактическое равноправие всех компонент системы обеспечивает

возможность переключения задач в любое время. Объектно-ориентированный

подход обеспечивает модульность, безопасность, легкость модернизации и

повторного использования кода.

В отличие от предыдущих систем, не все компоненты самой операционной

системы должны быть загружены в оперативную память. Если микроядро уже

загружено для другого приложения, то оно повторно не загружается, а

используется код и данные уже имеющегося микроядра. Все эти приемы

позволяют сократить объем требуемой памяти. Поскольку разные приложения

разделяют одни микроядра, то они должны работать в одном адресном

пространстве. Следовательно, система не может использовать виртуальную

память и тем самым работает быстрее (так как исключаются задержки на

трансляцию виртуального адреса в физический).

1.5. Обзор некоторых коммерческих ОСРВ

Операционная система OS-9

OS-9 фирмы Microware относится к классу UNIX-подобных операционных

систем реального времени. По своей сути OS-9 является многозадачной ОС с

вытесняющей приоритетной диспетчеризацией, допускающая возможность

многопользовательской работы. Объектно-ориентированный модульный дизайн

системы позволяет конфигурировать систему в очень широком диапазоне от

встраиваемых систем до больших сетевых приложений. Согласно этой концепции

все функциональные компоненты OS-9, включая ядро, иерархические файловые

менеджеры, драйвера устройств и т. д., реализованы в виде независимых

модулей. Все модули операционной системы позиционно-независимы и могут быть

размещены в ПЗУ, а также могут удаляться из системы в процессе ее

функционирования без какой-либо повторной инсталляции или перекомпоновки.

На рисунке 1.4 приведена упрощенная структурная схема операционной системы.

Структура операционной системы OS-9

[pic]

Рис. 1.4. Структура операционной системы OS-9

Ядро обеспечивает основной системный сервис, включая управление

процессами и распределение ресурсов.

Основные характеристики:

1. Архитектура: на основе микроядра

2. Стандарт: собственный, вызовы похожи на UNIX

Свойства как ОСРВ:

. Многозадачность: многопроцессность

. Многопроцессорность: да

. Уровней приоритетов: 65535

. Время реакции: 3 мкс

. Планирование: приоритетное, FIFO, специальный механизм планирования;

preemptive ядро

ОС разработки (host): UNIX/Windows

3. Процессоры (target): Motorola 68xxx, Intel 80x86, ARM, MIPS, PowerPC

4. Линии связи host-target: последовательный канал и ethernet

5. Минимальный размер: 16Kb

6. Средства синхронизации и взаимодействия: разделяемая память, сигналы,

семафоры, события.

Операционная система VxWorks

VxWorks относится к операционным системам «жесткого» реального

времени. Характерной чертой этой ОС является то, благодаря ее развитым

сетевым возможностям, вся разработка ПО ведется на инструментальном

компьютере (хост-системе) с использованием кросс-средств для последующего

исполнения на целевой машине под управлением VxWorks.

Отличительная черта системы - возможность управлять работой сложных

комплексов реального времени и бортовых устройств, использующих

процессорные элементы различных поставщиков. Три основных компонента данной

ОС РВ образуют единую интегрированную среду: собственно ядро системы,

управляющее процессором; набор средств межпроцессорного взаимодействия;

комплект коммуникационных программ для работы с Ethernet или

последовательными каналами связи.

Основные характеристики:

1. Архитектура: монолитная

2. Стандарт: собственный и POSIX 1003

3. Свойства как ОСРВ:

. Многозадачность: многопроцессность и многозадачность

. Многопроцессорность: да

. Уровней приоритетов: 256

. Время реакции: 4 мкс

. Время переключения контекста: 15 мкс

. Планирование: приоритетное; preemptive ядро

4. ОС разработки (host): UNIX/Windows

5. Процессоры (target): Motorola 68xxx, Intel 80x86, Intel 80960,

PowerPC, SPARC, Alpha, MIPS, ARM

6. Линии связи host-target: последовательный канал, ethernet, шина

VME

7. Минимальный размер: 22Kb

8. Средства синхронизации и взаимодействия: семафоры POSIX 1003,

очереди, сигналы…

Операционная система QNX

Операционная система QNX канадской компании QNX Software System Ltd.

построена на основе иерархической микроядерной архитектуры. Упрощенная

структурная схема этой ОС приведена на рисунке 1.5.

[pic]

Рис. 1.5. Микроядерная структура QNX

Микроядро QNX выполняет следующие функции:

межпроцессорный обмен;

низкоуровневый сетевой обмен;

диспетчеризация задач;

низкоуровневая обработка прерываний.

Основные характеристики:

1. Архитектура: на основе микроядра

2. Стандарт: POSIX 1003

3. Свойства как ОСРВ:

. Многозадачность: POSIX 1003 (многопроцессность и многозадачность)

. Многопроцессорность: да

. Уровней приоритетов: 32

. Время реакции: 4,3 мкс

. Время переключения контекста: 13 мкс

. Планирование: FIFO, round robin, адаптивное; preemptive ядро

4. Процессоры (target): Intel 80x86

5. Минимальный размер: 60Kb

6. Средства синхронизации и взаимодействия: POSIX 1003 (семафоры,

mutex, condvar)

Операционная система LynxOS

Система LynxOS выпускается фирмой Lynx Real Time Systems (Los Gatos,

USA). ОСРВ из клона UNIX-систем, обеспечивающая детерминированное время

отклика по запросам.

Основные характеристики:

1. Архитектура: на основе микроядра

2. Стандарт: POSIX 1003

3. Свойства как ОСРВ:

. Многозадачность: POSIX 1003 (многопроцессность и многозадачность)

. Многопроцессорность: да

. Уровней приоритетов: 255

. Время реакции: 7 мкс

. Время переключения контекста: 17 мкс

. Планирование: FIFO, round robin, Quantum, preemptive ядро

4. Процессоры (target): Intel 80x86, Motorola 68xxx, SPARC, PowerPC

5. Минимальный размер:

полной системы: 256Kb

усеченной системы: 124Kb

только ядра: 33Kb

Систему можно записать в ROM.

6. Средства синхронизации и взаимодействия: POSIX 1003 (семафоры,

mutex, condvar)

Операционная система pSOS

Система pSOS выпускается Integrated Systems (Santa Clara, USA).

Основные характеристики:

1. Архитектура: на основе микроядра

2. Стандарт: собственный

3. Свойства как ОСРВ:

. Многозадачность: многопроцессность и многозадачность

. Многопроцессорность: да

. Уровней приоритетов: 255

. Время реакции: 4 мкс

. Время переключения контекста: 12мкс

. Планирование: приоритетное; preemptive ядро

4. ОС разработки (host): UNIX/Windows

5. Процессоры (target): Motorola 68xxx, Intel 80x86, Intel 80960,

ARM, MIPS, PowerPC

6. Минимальный размер: 15Kb

7. Средства синхронизации и взаимодействия: семафоры, mutex, события, и тд.

1.6. Выводы к главе 1

Основными отличиями ОСРВ от ОС общего назначения являются:

. Ориентация на обработку внешних событий;

. Детерминированное время реакции на внешнее событие;

. Модульная организация;

. Небольшой размер системы.

В главе были рассмотрены важнейшие параметры и механизмы ОСРВ, такие

как:

. Время реакции системы;

. Время переключения контекста;

. Виды диспетчеризации;

. Механизмы синхронизации и межзадачного взаимодействия

Классификация ОСРВ позволяет выделить наиболее оптимальную структуру

построения ОСРВ. Очевидно, что операционные системы с монолитной

архитектурой, вследствие их направленности на конкретные процессорные

платформы и характера взаимодействия с ядром, вряд ли могут быть

использованы в качестве относительно универсальных ОСРВ для систем высокой

готовности. ОСРВ на основе микроядра обладает рядом преимуществ по

сравнению с монолитной архитектурой, а комбинация с объектно-

ориентированным подходом, позволит системе стать аппаратно-независимой и

обеспечить быструю реакцию на внешние события.

В заключении были перечислены основные свойства некоторых

распространенных ОСРВ. К сожалению, ни одну из рассмотренных операционных

систем нельзя назвать сетевой в широком смысле этого слова, так как уровень

сетевого обмена, заложенный в многих из них соответствует уровню локальной

сети. Многопроцессорная поддержка, введенная в VxWorks ориентирована только

на системы с общей памятью. Отсутствие механизма отказоустойчивости,

допускающего как отказы соединений (зачатки этого есть в QNX), так и отказы

процессорных элементов, необходимого для отказоустойчивых

специализированных вычислительных систем, нет ни в одной из этих

операционных систем. Таким образом, задачей разработчиков является

добавление таких модулей существующим ОСРВ, которые позволили бы обеспечить

отказоустойчивость распределенных вычислительных систем.

2. Поддержка отказоустойчивости вычислительных систем средствами

операционных систем реального времени

Специфика применения некоторых систем обусловливает особые требования,

предъявляемые к надежности их функционирования. Отказ или сбой в их работе,

повлекшие за собой неправильные результаты вычислений (или полное их

отсутствие), могут привести к катастрофическим последствиям. Преимущества

использования отказоустойчивых вычислительных систем непосредственно

вытекают из необходимости продолжительной работы системы в условиях, когда

техническое обслуживание (ремонт, замена и тд.) невозможны,

труднореализуемы или сопряжены с большими экономическими затратами. Поэтому

ВС и специализированные операционные системы разрабатываются таким образом,

чтобы система была толерантна (терпима) к возникающим отказам. Особенно это

актуально для автономных ЛА (например, космических аппаратов).

Сложность современных вычислительных средств такова, что практически

невозможно проверить готовые изделия при всех предполагаемых условиях и

режимах их работы. Поэтому в вычислительных системах могут быть скрытые –

не проявившиеся при проверке – ошибки программного обеспечения и (или)

неисправности аппаратуры, но благодаря отказоустойчивости сбой, отказ

отдельного элемента как правило не приводят к искажению выходных данных.

В отличие от аппаратной части вычислительной системы появление ошибок

в программе не связано с физическими процессами. Получение результатов,

отличных от ожидаемых происходит в результате выполнения непроверенной

части программы или в результате ошибки в программе.

Таким образом, получение ответа, отличного от ожидаемого, в некоторый

момент времени есть результат выполнения непроверенной части программы,

содержащей ошибку, задания входных данных, для которых поведение программы

неспецифицировано, а также влияния отказов в аппаратуре на работу

программы.

При рассмотрении надёжности вычислительной системы следует иметь

ввиду, что она определяется надёжностью аппаратной части и надёжностью

программного обеспечения. Однако, понятие надёжности программного

обеспечения неконструктивно, это означает, что на этапе тестирования

программы не были выявлены все ошибки. В данной работе считается, что

программа не содержит ошибок, и получение результата, отличных от

ожидаемого зависит от сбоев или отказов аппаратной части или иных факторов

(например, влияние ЭМИ на содержание оперативной памяти), а потому вопрос о

надёжности программного обеспечения не ставится. Таким образом, надёжность

вычислительной системы определяется надёжностью аппаратуры и влиянием

отказов в ней на отказы в вычислительной системе в целом.

Предварительные исследования показали, что для элементной базы

среднего качества (надежность 0.999 - “три девятки после запятой”) при

оптимальном сочетании скорости получения результата на его надежность в

вычислительной среде теоретически достижима достоверность получения

правильных результатов машинного счета в “двести девяток после запятой” при

замедлении темпа их получения в 300-400 раз [1], что эквивалентно

увеличению надежности до 200 порядков величины при введении сравнительно

небольшой вычислительной избыточности, приводящей к потере

производительности не более чем на 2-3 порядка, что уже на современном

уровне может компенсироваться подбором компьютеров требуемой

производительности.

1. Понятие отказоустойчивости ВС.

Отказоустойчивостью будем называть свойство системы, позволяющее

продолжить выполнение заданных программой действий после возникновения

одного или нескольких сбоев или отказов компонентов ВС.

Отказом называется событие, заключающееся в нарушении

работоспособности компонента системы. Последствия отказа могут быть

различными. Отказ системы может быть вызван отказом (неверным

срабатыванием) каких-то ее компонентов (процессор, память, устройства

ввода/вывода, линии связи, или программное обеспечение). Отказ компонента

может быть вызван ошибками при конструировании, при производстве или

программировании. Он может быть также вызван физическим повреждением,

изнашиванием оборудования, некорректными входными данными, и многими

другими причинами.

Отказы могут быть случайными, периодическими или постоянными.

Случайные отказы (сбои) при повторении операции исчезают. Причиной такого

сбоя может служить, например, электромагнитная помеха. Другой пример -

редкая ситуация в последовательности обращений к операционной системе от

разных задач. Периодические отказы повторяются часто в течение какого-то

времени, а затем могут долго не происходить. Примеры - плохой контакт,

некорректная работа ОС после обработки аварийного завершения задачи.

Постоянные (устойчивые) отказы не прекращаются до устранения их причины -

разрушения диска, выхода из строя микросхемы или ошибки в программе.

2.2. Причины и классификация отказов и сбоев

Отказы по характеру своего проявления подразделяются на византийские

(система активна и может проявлять себя по-разному, даже злонамеренно) и

пропажа признаков жизни (частичная или полная). Первые распознать гораздо

сложнее, чем вторые.

Аппаратная реализация узлов (процессорных модулей) позволяет

выделить основные классы отказов аппаратуры:

- отказ процессора (центральной части ПЭ);

- отказ линка - связи между ПЭ;

Идентификация отказа процессора какого-либо узла сети

классифицируется, как отказ всего узла: он изолируется от остальной сети на

логическом уровне и при наличии соответствующей поддержки отключается на

аппаратном уровне (выключается питание).

Идентификация отказа линка (связи) приводит лишь к уменьшению степени

связности узлов сети. Отказавший линк изолируется на логическом уровне

путем изменения маршрутов передачи сообщений между узлами сети.

Отказ при исполнении функционального программного обеспечения может

проявиться вследствие:

- нарушения кодов записи программ в памяти команд;

- стирания или искажения данных в оперативной или долговременной памяти;

- нарушения нормального хода вычислительного процесса.

Перечисленные искажения могут действовать совместно. Отказ может

проявляться в виде программного останова или зацикливания, систематического

пропуска исполнения некоторой группы команд, однократного или

систематического искажения данных и тд. Программные отказы приводят к

прекращению выдачи абонентам информации и управляющих воздействий или к

значительному искажению ее содержания и темпа выдачи, соответствующих

нарушению работоспособности.

Основная особенность (и достоинство) сетевой отказоустойчивой

технологии - отсутствие какого-либо (даже самого незначительного)

единственного компонента (ресурса), выход из строя которого приводит к

фатальному отказу всей системы. Такая система не может содержать какого-

либо "центрального" (главного) узла, размещенного в одном из процессорных

элементов системы, она может состоять только из "равноправных" частей,

размещенных в каждом узле сети. Таким образом можно говорить лишь о

деградации качества системы при отказе одного или более ее элементов. В

такой системе полный отказ наступает после выхода из строя только

определенного количества ресурсов, определенного на этапе проектирования.

3. Методы и средства обеспечения отказоустойчивости

Страницы: 1, 2, 3, 4, 5


© 2010 Современные рефераты