|
В. Харченко, Ю. Юрченко
IOTS-подход: анализ вариантов структур отказоустойчивых бортовых комплексов при использовании электронных компонентов Industry
Исследована возможность применения электронных компонентов INDUSTRY в условиях повышенной радиации. Проведён анализ структур отказоустойчивых бортовых комплексов, показаны преимущества многоярусных HIFT-структур.
Первоначально в сокращенном виде статья опубликована в журнале «Технология и конструирование в электронной аппаратуре» № 2 за 2003 г. По просьбе авторов и с любезного согласия редакции ТКЭА, мы публикуем полный текст статьи.
Электроника в условиях повышенной радиации
При проектировании отказоустойчивых бортовых управляющих и вычислительных комплексов (БК) для летательных аппаратов космического назначения или для других систем критического применения, таких как аппаратура АЭС, сталкиваются с рядом сходных проблем. Это, с одной стороны, повышенные требования к надёжности и жёсткий временной регламент работы системы управления (СУ), а с другой - постоянное воздействие потока частиц высоких энергий. Радиационный фон вызывает локальные изменения в структуре кристаллической решётки электронных компонентов. Происходящее накопление повреждений от воздействия электронов и протонов ограничивают стойкость электронных систем БК. Обратимые эффекты от постоянного воздействия отдельных протонов, электронов или космических лучей могут нарушать работу этих комплексов, в том числе, и необратимо.
Необходимость выполнения задачи управления в течение определённого времени вызвало потребность в специфических подходах при разработке электронных компонентов специально для применения в условиях радиации [1]. Однако, помимо специфических подходов к проектированию электронных компонентов для аппаратуры БК, дополнительно применяются и специальные методы резервирования.
Сегодня выбор элементов для аппаратуры БК представляет особую задачу, прежде всего, для его основной части - компьютерного блока. С одной стороны, наблюдается полное отсутствие конкурентоспособной радиационно-стойкой элементной базы отечественного производства и производства стран СНГ [3,5]. С другой стороны, сокращается номенклатура элементов и снимаются с производства интегральные схемы военного назначения (в том числе, и класса SPACE) в странах дальнего зарубежья как морально устаревшие, дорогостоящие и не пользующиеся спросом. Производимые же элементы, помимо своей весьма высокой стоимости, полностью находятся под контролем их распространения и отсутствуют в свободной продаже.
Возможность применения электронных компонентов широкого использования при понижении стоимости, габаритов и массы аппаратуры БК без ухудшения технических и эксплуатационных показателей, в том числе, показателя надёжности, вызывает несомненный практический интерес. Исследования в этой области иллюстрируют стремление специалистов использовать более дешёвые электронные компоненты при соблюдении мер обеспечения надёжности СУ в целом [18].
Цель статьи - анализ вариантов построения БК и СУ критичного и бизнес-критического применения с использованием электронных компонентов Industry, путей уменьшения их стоимости, увеличения времени эксплуатации и улучшения других показателей без снижения надёжности.
Возможности использования электронных компонентов Industry в системах критичного применения
В последнее время наблюдается интенсивное развитие технологии производства электронных компонентов и стремительное увеличение функциональной номенклатуры БИС, представляющих собой полностью законченные узлы РЭА в коммерческом и индустриальном исполнении с малой стоимостью. Проведённые исследования позволили предложить технологии на основе Commercial-Off-The-Shelf (COTS) [6,7] и Industry-Off-The-Shelf (IOTS) подходов [3,4,9] для жёстких условий эксплуатации при проектировании БК. Такие подходы интересны как с финансовой стороны проекта, так и с учётом возможности использования электронных компонентов, находящихся в неограниченной продаже.
Зависимость уровня радиационной стойкости полупроводниковых ИС от технологии, топологии и качества материалов при изготовлении, предположения о которой сформулированы в [1], подтверждается тестированием [7]. Достижения в технологии производства, а также топологические решения, закладываемые при проектировании и направленные на реализацию механизмов парирования случайных сбоев, позволяют предположить, что БИС широкого применения могут обеспечить необходимый уровень радиационной стойкости даже без специальных мер защиты. Однако, относительно этих компонент отсутствует уверенность в возможности их применения в условиях повышенного радиационного фона.
Исследования по данному направлению, проводимые в последние годы, дают оптимистичные прогнозы [7,10], а необходимость применения в проекте компонентов, не указанных в перечнях тестирования, порождает теоретические гипотезы о возможности расширения этого перечня на аналогичные по технологии производства устройства. Усреднённые параметры стойкости одинаковых по функциональному назначению БИС различных классов исполнения и их показателям относительной стоимости приведены в табл. 1. Сопоставление отношения максимальной общей ионизационной дозы к стоимости и величины стойкости к одиночным сбоям для одинаковых по функциональному назначению БИС различных классов (рис. 1) показывает, что наилучшее соотношение имеют компоненты INDUSTRY для показателя стойкости к сбоям SEL в пределах 40…80 MeV/mg/sm2 [5].
Рисунок 1. Распределение электронных компонентов по показателям стойкости и стоимости
Таблица 1. Сравнительные характеристики однотипных БИС различных классов исполнения
Класс исполнения
|
Показатель деградации TID кРад. (Si)1
|
Показатель одиночных сбоев SEL, MeV/mg/sm²
|
Средняя стоимость Cost³
|
Commercial
|
< 31
|
< 31
|
(1)_$
|
Industry
|
> 301
|
20…801
|
(5…10)_$
|
Military Space
|
> 100²
|
> 40²
|
(30…Ё150)_$
|
Однако, как отмечалось [6], используя метод "аналогичных устройств", необходимо либо вводить запасы при проектировании БК, либо проводить испытания компонентов производителя и далее использовать продукцию только этого производителя, либо производить испытания модулей из поставляемой партии и далее использовать продукцию только этой партии. Последнее замечание необходимо учитывать при использовании продукции фирм-поставщиков готовых модулей, так как в модулях различных партий выпуска могут быть установлены аналогичные элементы различных производителей. Применение отдельных элементов позволяет более гибко подходить к процессу разработки БК для конечного пользователя по показателям условий эксплуатации, надёжности и стоимости всей СУ.
Заметим также, что тестирование многих электронных компонентов класса Industry в части механических и климатических воздействий проходит по методикам MIL-883, либо аналогичным данному стандарту, а время наработки на отказ у всех классов исполнения составляет не менее десяти лет.
Сопоставляя публикуемые данные результатов испытаний на стойкость, можно предположить правомерность использования компонентов Industry, с учётом выбора оптимальной структуры БК, допустимого времени парирования сбоев, назначения СУ и толщины естественной защиты корпуса прибора, для аппаратуры БК ракетоносителей (РН) и космических аппаратов (КА), а также СУ АЭС.
Аппаратная реализация отказоустойчивых структур БК
Структура БК определяется назначением СУ и должна обеспечивать сохранение работоспособности в условиях одиночных сбоев и отказов. Функционирование аппаратуры БК в условиях обратимых дефектов требует таких решений, которые в течение активного рабочего цикла выполняемой задачи либо обеспечивают парирование сбоев, либо их маскирование и восстановление процесса управления на борту. Полное тестирование и реконфигурация аппаратной части БК может происходить только в течение пассивного цикла выполняемой задачи. Длительность активного рабочего цикла, соотношение его с пассивным и степень риска воздействия внешних факторов на аппаратуру СУ определяет требования при выборе структуры БК и его компонентов с COTS-подходом к проектированию СУ [9,11]. Ниже проанализированы некоторые варианты структур построения БК для различных СУ с применением однокристальных процессорных элементов.
Одноканальные структуры с автоматом контроля и восстановления информации (АКВИ)
БК с таким типом структуры могут быть построены на основе одноканальных процессорных модулей и контроллеров таких фирм, как Advantech, Fastwell или Octagon Systems, неоднократно рекламируемых для космического применения [8]. Простота, модульность, программная РС-совместимость последних позволяют затрачивать малое время для построения СУ на данной основе. Подтверждение работоспособности в жёстких условиях эксплуатации для некоторых типов модулей по стандарту MIL STD-883 в части механических воздействий, время безотказной работы, гарантируемое фирмой-изготовителем - более 100 тыс. часов, а также данные по радиационной стойкости [10] выглядят очень заманчиво при представлении процессорных модулей Industry для использования в БК. Базовая структура процессорного модуля такого типа представлена на рис. 2.
Рисунок 2. Структурная схема процессорного модуля с АКВИ
Автоматом контроля здесь может служить сторожевой таймер и система контроля и коррекции кода в ОЗУ. Автомат восстановления информации при сбое возможен при внедрении программных модулей обработки ошибок по алгоритмам, заданным конечным пользователем после рестарта ОС и перегрузки основной программы.
Однако, следует заметить, что в построенных на данном оборудовании СУ не определено время жизни скрытого состояния потенциального сбоя, его местоположение, а также количество и степень опасности каждого из них. Различными программными методами [12] можно достичь оптимального времени обнаружения и парирования сбоя в части области данных ОЗУ. В части области программ ОЗУ РС-совместимость, в сочетании с применением COTS- операционных систем (ОС), накладывают ограничения на возможности обнаружения и парирования сбоев. Реакцией на сбой может служить только уход из программы и рестарт по сторожевому таймеру. Единственно возможное парирование сбоя - перезагрузка COTS- ОС и программ пользователя, которое требует Ё10 секунд потерь в системе управления.
Таким образом, СУ, построенные на основе таких структур, применимы только либо для очень медленно изменяющихся процессов, либо для процессов, которые можно временно приостановить и отложить их выполнение до восстановления работоспособности СУ. Очевидно, что применение таких решений при построении СУ ни для контроллерной и управляющей аппаратуры АЭС, ни для управляющей аппаратуры КА, а тем более РН, недопустимо.
Альтернативным решением в части повышения надёжности одноканальных БК и уменьшения времени жизни скрытого потенциального сбоя является отказ от применения готовых плат модулей, а также COTS-ОС и построение БК на отдельных IOTS-компонентах с полной разработкой программного обеспечения элементов ОС и прикладных задач. Однако такие решения влекут за собой увеличение как сроков готовности проектов, так и объёмов финансирования.
Многоканальные резервированные структуры с холодным и горячим резервом каналов со встроенным АКВИ
В структурах БК такого типа за основу берётся канал контроллерного или процессорного модулей рассмотренного выше типа. Для управления модулями в данной резервированной структуре необходимо введение специального блока контроля и управления реконфигурацией (БКУР). Это может быть либо разработка той же фирмы как, например, модуль резервирования 1785-CHBM фирмы Allen Bradlеy для контроллеров семейства PCL-5, либо уникальная разработка для проектируемой СУ. Такой блок должен функционировать как жёсткий автомат с идеально отработанными алгоритмами управления резервом при всех возможных ситуациях. Структура резервированного БК этого типа представлена на рис. 3.
Рисунок 3. Структурная схема резервированного БК на основе процессорного модуля с АКВИ
Общий показатель безотказной работы данной структуры БК выше, чем у одноканальной. Однако, следует отметить сильную зависимость общего показателя для БК от показателя безотказной работы собственно БКУР, величина которого должна быть выше, чем показатели для остальных резервированных модулей БК. Программно-алгоритмическое обеспечение каналов БК аналогично одноканальным, так как слежение за работоспособностью частично перекладывается на аппаратуру БКУР.
Время жизни скрытого состояния потенциального сбоя в структуре с горячим резервом может быть сведено к нескольким тактам системной задачи СУ и зависит от построения алгоритмов работы канала процессора с БКУР. Для случая с холодным резервом и аналогичными алгоритмами взаимодействия, БКУР может позволить сократить, по сравнению с одноканальной структурой БК, время рестарта управляющей задачи СУ путём подключения резервного канала сразу после отсутствия сигнала нормы от активного канала. В обоих случаях управление передаётся на предварительно протестированный резервный канал, а подозреваемый канал переводится в режим тестирования с последующей маркировкой пригодности. Здесь также существует риск попадания на канал с неисправностью на момент включения [12].
Сочетание IOTS-модулей, COTS-ОС, простота структуры и энергоэкономичность БК с холодным резервированием подводят к мысли о возможном использовании таких структур в длительно необслуживаемых системах с ограниченным энергопотреблением, не связанных с задачами жёсткой временной регламентации управления. Это могут быть системы для малых КА коммерческого назначения, в задачи которых не входит постоянное и точное поддержание ориентации и навигации. Поочерёдные циклы включения-выключения каналов необслуживаемых БК также должны положительно сказаться на длительной эксплуатации аппаратуры в условиях радиации [6,7]. Время разработки и отработки БК с такой структурой сравнимо со временем, затраченным на проектирование аналогичных одноканальных вариантов. При этом следует учесть неизбежную аппаратную избыточность оборудования готовых процессорных модулей, замечания по стойкости, указанные выше, а также необходимость введения дополнительного оборудования сопряжения с БКУР и связанных с этим накладных расходов. Однако, для выполнения задач, связанных с управлением процессами с быстро изменяющимися данными, например, постоянного и точного поддержания ориентации и навигации, необходимо уменьшение времени реакции на сбой или отказ в оборудовании, что влечёт дальнейшее усложнение структуры БК как в аппаратной, так и программной части. Кроме этого, необходимость развития функций БКУР превращает его в самостоятельный процессорный модуль с более жёсткими требованиями по надёжности.
Многоканальные структуры с автоматом межканального обмена, программного контроля и восстановления информации в каналах (АМКВИ)
Введение межканального обмена в структуру БК позволяет повысить достоверность истинной работы каналов БК и сократить до пределов такта задачи время обнаружения сбоя в одном из каналов БК. Предложено множество вариантов построения структуры с АМКВИ: SIFT [13], MAFT [14], FTPP [15], Delta-4 [16] и др. [8,9,17,18], где за аппаратную основу взято 2 и более идентичных процессорных модулей с коммуникационным оборудованием для организации межканального интерфейса (рис. 4).
Рисунок 4. Структурная схема БК с АМКВИ
Общая особенность таких БК состоит в практически полном переложении на ПО функций поддержания отказоустойчивости как БК, так и всей СУ. Теоретический показатель надёжности оборудования высок, но работоспособность БК на практике начинает зависеть от правильности алгоритмов парирования сбоев и отказов, их программной реализации и глубины отработки на стендовом оборудовании. БК с такой структурой требуют выделения в такте задачи, кроме времени на самотестирование оборудования канала, дополнительных временных "щелей" (рис. 5) для организации межканального обмена оперативными данными входной информации, данных вычислений, результатов самотестирования и обработки полученной информации [9].
Рисунок 5. Распределение загрузки такта задачи управления в БК с АМКВИ
Уменьшение в такте управления времени на выполнение прикладной задачи влечёт необходимость соответствующего повышения производительности процессорных модулей для покрытия вынужденных простоев и обслуживания задачи поддержания истинной работы БК, что сказывается на энергопотреблении и тепловыделении [5]. Величина временных "щелей" зависит от количества информации и пропускной способности интерфейса межканального обмена [9]. Оптимальное распределение времени в такте достигается применением высокоскоростных сетевых интерфейсов и определением минимального объёма передаваемых данных, применением особого распределения времён в загрузке такта [17]. Такие решения применимы в БК СУ с достаточно простыми алгоритмами управления и тактом малой загрузки прикладной задачей. В качестве канального процессорного модуля здесь допустимо применение одноплатных компьютеров с интегрированным модулем связи Ethernet фирм Octagon Systems или Advantech. Также интересен в этом плане модуль на интегрированных контроллерах со встроенными высокоскоростными интерфейсами ввода/вывода (например Intel 80386ЕХ).
Однако, при реализации сложных задач управления с большим объёмом обрабатываемой информации и требуемой длительностью такта системного времени менее 100 мс, возрастает потребность в повышении вычислительной мощности процессора. При этом наблюдается недостаточная пропускная способность как системной магистрали однопроцессорных модулей, так и магистрали межканальной связи. Кроме этого, требуется разделение функций управления и обеспечения надёжности БК, что решается установкой дополнительного коммуникационно-контролирующего процессора (например, как в аппаратуре СУ ориентации и навигации КА или в контроллере SC300E фирмы ABB August Ltd). Такое построение БК представлено на рис. 6.
Рисунок 6. Структурная схема БК с АМКВИ на основе двухпроцессорных канальных модулей
Особенность БК такой структуры состоит в двухуровневом построении аппаратуры и программ [14]. Задача управления исполняется в процессоре приложения, а функции поддержания жизнеобеспечения БК переложены на коммуникационно-контролирующий процессор, осуществляющий межканальный обмен и контроль истинности работы приложений своего канала по результатам работы остальных каналов. Разделение функций позволяет снизить загруженность тактов как для задачи прикладного приложения, так и для задачи контроля и обеспечения отказоустойчивости. При этом появляется возможность понизить скорость межканального обмена и произвести более глубокий анализ поступающей и выдаваемой информации.
Одно из преимуществ такого построения БК заключается в возможности применения простого ПО одноканальных и резервированных структур для прикладной задачи СУ, заплатив за это дополнительной аппаратурой в каждом из каналов и сопутствующими накладными расходами. Другим преимуществом является автономность отработанного разработчиком БК межканального поддержания отказоустойчивости от конечного пользователя и, таким образом, исключение привнесения ошибок ПО в процедуры межканального обмена. Такой подход возможен при наращивании вычислительной мощности разработанных и находящихся в эксплуатации СУ АЭС одноуровневых БК с АМКВИ.
Основными проблемами при построении таких структур становятся синхронизация процессов в каналах и поддержание планирования межканальной передачи информации [9,15]. Частично решение этих проблем предлагается на программно-аппаратном уровне. В структуре Delta-4 [16] синхронизация пары процессоров обеспечивается единством таймеров службы времени (рис. 7), в QPR-архитектуре - перекрёстными связями с периферийным оборудованием (рис. 8), в контроллере SC300E фирмы ABB и микроконтроллере для космических применений [18] - аппаратным мажоритированием входной и выходной информации.
Рисунок 7. Структурная схема базового процессорного модуля Delta-4<
Рисунок 8. Структурная схема QPR-БК с перекрёстными связями
Многоканальные структуры с аппаратным мажоритированием входной и выходной информации каналов (I/O-HIFT)
Аппаратные решения синхронизации в каналах путём межканального мажоритирования входной информации частично упрощают программную задачу межканального планирования процессов. К таким решениям был проявлен интерес [18], но при этом реализация проектов БК с данной структурой вызывает необходимость проектирования уникального межканального оборудования. При этом такие решения позволяют повысить надёжность всей СУ, так как узел мажоритирования между БК и периферийным оборудованием превращает надёжностную структуру СУ из одноярусной в, как минимум, двухъярусную с возможностью наращивания ярусов по периферийному оборудованию УВВ (рис. 9).
Рисунок 9. Структура БК SIFT-CPU-HIFT-I/O
Необходимо заметить, что в данной структуре БК отсутствуют потери времени на программное мажоритирование входной и выходной информации, а также становится возможной реализация быстрого аппаратного межканального сравнения информации. Время жизни скрытого состояния потенциального сбоя в каналах СУ на срезе БК-УВВ составит два-три такта задачи СУ [12]. Показатели надёжности и, особеннно, продолжительности латентного периода (времени продолжительности жизни скрытого состояния) потенциального сбоя в такой структуре гораздо лучше по сравнению с ранее рассмотренными.
Однако, проектирование СУ такой структуры влечёт за собой сложность применения готовых IOTS-процессорных модулей и необходимость разработки и изготовления дополнительного специфического оборудования. Кроме этого, неизбежно возникают сложности синхронизации сопряжения аппаратного мажоритирования вследствие асинхронизма поступления сигналов на мажоритарный элемент и с учётом возможности программной синхронизации процессоров каналов БК, что может приводить к потерям времени при каждой выдаче информации в УВВ.
Интересное предложение по отказоустойчивости I/O HIFT БК предложено в [2]. Структурная схема соединения процессорных узлов (а) и архитектура единичного узла (б) представлены на рис. 10.
Рисунок 10. БК на сигнальных процессорах с HPPS структурой узлов (а) и единичного узла (б)
В этой структуре БК решение вопросов отказоустойчивости состоит в аппаратном мажоритировании магистрали межканального обмена и циклической передаче каналами DMA предварительно программно подготовленной информации вычислительного процесса и состояния аппаратуры в каждом из каналов. Это сочетание программно и аппаратно поддерживаемой отказоустойчивости для высокопроизводительных однокристальных сигнальных процессоров должно обеспечить малые временные потери на обнаружение возможных сбоев и отказов. Однако, проблема синхронизации такого количества процессоров в [2] не рассматривается, возможно, из-за специфической архитектуры сигнальных процессоров, что для других классов процессоров неприемлемо.
БК с I/O-HIFT построением в структуре надёжности представляют одноярусную структуру, и повышение показателя надёжности возможно только путём наращивания количества каналов аппаратуры. Это ведёт к соответствующим накладным расходам в СУ с сохранением самотестирования и обеспечения отказоустойчивости программными средствами. Кроме того, в таких структурах БК существуют сложности применения готовых IOTS-процессорных модулей и требуется разработка элементов БК на отдельных компонентах.
При наличии перспективы проектирования БК и собственных разработок на IOTS-компонентах, вследствие опасений при применении готовых процессорных модулей, о которых идёт речь в [19], необходимо рассмотреть структуры БК на однокристальных процессорах и микроконтроллерах, предложенные в [3-5,18,20].
Многоканальные многоярусные структуры с аппаратным мажоритированием сигналов каждого функционального узла БК (ML-HIFT)
В отличие от одноярусных БК, где мажоритирование информации осуществлялось (программно и аппаратно) только на входных и выходных сигналах, в многоярусной структуре БК аппаратному межканальному мажоритированию подвергаются все основные магистральные сигналы процессора, памяти, блока сопряжения с УВВ и т.п., чем достигается парирование сбоев и отказов в каждом из основных функциональных узлов БК. Типовая структура ML-HIFT БК представлена на рис. 11.
Рисунок 11. Структура ML-HIFT БК
В данной структуре на каждый функциональный блок поступает информация, выбранная по принципу 2 выхода из 3-х. Этим достигается снижение влияния возникшего локального сбоя или отказа на работу остального оборудования. Даже грубая оценка показывает, что ML-HIFT БК без адаптации структуры сохранит своё функционирование и без приостановок процесса управления закончит задачу управления, находящуюся на активной фазе выполнения, при одном сбое или отказе в ярусе каждого из каналов (рис. 12). Для ранее рассматриваемых структур при одинаковом количестве каналов аналогичное распределение возникших сбоев или отказов оборудования в соответствующих блоках и каналах БК приведёт к:
- необходимости приостановки процесса управления, реконфигурации на рабочий канал и быстрому истощению запасов резервного оборудования [9] (сбои),
- полной потере работоспособности БК (отказы),
что отсутствует в рассматриваемой структуре.
Рисунок 12. Возможное накопление отказов блоков в ML-HIFT БК, не приводящее к приостановке задачи процесса управления
Применение многоярусного магистрального мажоритирования позволяет аппаратно фиксировать, локализовать и парировать возникающие сбои не далее, как к следующему циклу процессорной шины, а к концу такта задачи - иметь чёткую карту работоспособного состояния как БК, так и комплекса аппаратуры СУ [5]. Такая высокая скорость обнаружения и парирования отказов, с учётом опасений, касающихся применения в системах управления цифровой обработки и применения элементов дальнего зарубежья [20], позволяет рекомендовать данную структуру БК для применения в необслуживаемых СУ с задачами, требующими очень жёсткого регламента времени с тактом до единиц миллисекунд. Потребителями таких БК могут быть также СУ жёсткого регламента времени с высокой длительностью активной фазы задачи управления, где недопустима ни приостановка процесса управления, ни потеря информации за предыдущий период, как РН высокоточного выведения КА и космические транспортные челноки с функцией автоматической стыковки типа Hermes.
Показатели по массе, габаритам, стоимости для структуры ML-HIFT сравнимы по значению с показателями для БК с АМКВИ и I/O-HIFT аналогичной канальности. Показатели надёжности такого БК можно повышать (и создавать её требуемый запас), либо увеличивая число ярусов мажоритирования оборудования, либо применяя методы адаптивного мажоритирования [3,4], что не приводит к увеличению числа каналов БК и росту сопутствующих накладных расходов, отмеченных в [5]. Отношение прикладной вычислительной производительности к потреблению для данной структуры БК лучше, по сравнению с АМКВИ-структурами [5]. Очень важно заметить, что в БК с такой структурой применимо ПО одноканальной структуры, а также возможно применение COTS-операционных систем при условии сохранения компьютерной архитектуры оборудования [3,21], так как обеспечение надёжности происходит на аппаратном уровне.
Однако при проектировании ML-HIFT БК существует необходимость в жёсткой аппаратной синхронизации работы однокристальных процессоров или микроконтроллеров в каналах, что реально достигнуто в [3-5,20].
Сравнительный анализ вариантов структур БК
Целесообразность использования в проекте БК СУ структуры из какой-либо группы определяется учётом интегральных показателей - радиационной стойкости, отказоустойчивости, стоимости, массы, габаритов, энергопотребления и прочих характеристик. Для детальной оценки целесообразности применения каждой из выше описанных структур к рассмотрению представлены БК, построенные на однотипных элементах. Для каждой из структур рассчитаны ключевые параметры, принимая во внимание замечание [5] о том, что структуры БК с преимущественно программным обеспечением отказоустойчивости, по сравнению с одноканальными структурами и структурами с преимущественно аппаратным обеспечением отказоустойчивости, требуют повышения вычислительной мощности процессора пропорционально времени в такте, выделенному для служебного пользования и достаточному для обеспечения задачи истинности работы (рис. 5).
Полученные данные о характеристиках структур БК приведены в табл. 2. В качестве канальной основы взят базовый набор БИС для одноканального БК с АКВИ. Для реализации специфических блоков предложены БИС программируемой логики с ёмкостью кристалла в 8000…25000 эквивалентных вентилей. Вычисления проведены укрупнённо, принимая в качестве единицы измерения одну БИС при минимальном количестве необходимых для реализации структуры БК блоков. Прогноз затрат времени составлен по результатам анализа времени обнаружения скрытого сбоя или отказа в аппаратуре БК [12] для случая истинности работы оборудования аппарата контроля и восстановления информации. Показатель производительности прикладной задачи учитывает время, отводимое только для выполнения системной задачи управления.
Таблица 2. Сравнительные характеристики БК различных структур на однотипных БИС
Структура типовой каналь ности
|
Количе ство кана лов/ процес соров
|
Приведенные на БК масса/ габариты/ стоимость
|
Способ обеспечения отказоустой- чивости
|
Минимальное количество тактов времени жизни скрытого сбоя
|
Прогнозированное кол-во затраченных тактов на восстановление после одного отказа
|
Приведенная производительность прикладной задачи
|
Мощность потребления типовой структуры БК
|
1-кан. АКВИ
|
1/1
|
1,0/1,0/1,0
|
Аппаратно- программный
|
1…4
|
|
0,9
|
1
|
2-кан. АКВИ
|
2/2
|
2,7/2,6/2,8
|
Аппаратно- программный
|
1…4
|
> 100 >8000*
|
0,9
|
2,3 1,3*
|
3-кан. 1 проц. АМКВИ
|
3/3
|
3,0/3,0/3,0
|
Програм мный
|
1…3
|
9…24
|
0,5
|
3
|
4-кан. 2 проц. АМКВИ
|
4/8
|
10,8/11,2/11
|
Програм мный
|
1…2
|
4…24
|
0,8
|
10
|
2-кан. Delta-4
|
2/4
|
3,6/3,5/3,7
|
Аппаратно- программный
|
0…2
|
2…8
|
0,7
|
5
|
2-кан. QPR-БК
|
2/4
|
4,2/4,1/4,3
|
Аппаратно- программный
|
1…2
|
2…8
|
0,7
|
5
|
3-кан. SIFT-CPU- HIFT-I/O
|
3/6
|
6,8/7,0/7,5
|
Программно- аппаратный
|
1…3
|
2…6
|
0,85
|
7
|
9-кан. HPPS
|
9/9
|
10/12/11
|
Аппарат ный
|
0…6
|
1…9
|
0,95
|
9
|
3-кан. ML-HIFT
|
3/3
|
3,4/3,3/3,5
|
Аппарат ный
|
0…1
|
0…3
|
1,0
|
3,3
|
Анализ полученных результатов показывает, на первый взгляд, явную невыгодность многоканальных структур БК c четырьмя и более каналами, особенно по стоимости, мощности потребления, массе и габаритам.
Видимое преимущество однопроцессорных БК дублированной структуры, особенно с холодным резервом, по показателям мощности потребления, массы, габаритам и стоимости, компенсировано очевидным отставанием по показателю времени восстановления работоспособности, особенно при отказе, что накладывает серьёзные ограничения на применение структур такого типа в СУ с требованием поддержания непрерывности процесса управления. Условию максимальной скорости парирования сбоев и отказов и поддержания непрерывности процесса управления наиболее всего удовлетворяют БК с полностью аппаратным способом поддержания отказоустойчивости, особенно ML-HIFT структуры. Последняя также имеет максимальный показатель по производительности для прикладной задачи СУ.
Анализируя структуры БК, для большего удобства введём следующие показатели через усреднение накладных расходов для БК:
- отношение производительности БК к мощности энергопотребления типовой структуры как показатель эффективности использования потребляемой мощности;
- приведенные к одному каналу основные показатели габаритов, массы, стоимости и т.п.
Полученные характеристики структур БК по этим показателям представлены в табл. 3. Лучший показатель эффективности использования потребляемой мощности наблюдается в двухканальной АКВИ-структуре, особенно с холодным резервированием, что отмечается как в характеристике для канала, так и для всей структуры. БК со структурой такого типа применимы в СУ, где требование минимальности энергопотребления является одним из основных, при этом не предъявляется жёстких требований к регламенту обеспечения управления в реальном времени. При необходимости создания запаса избыточности в необслуживаемых СУ, таких как КА, перспективной может оказаться многоканальная структура АКВИ с холодным резервированием.
Таблица 3. Сравнительные характеристики приведенных показателей БК
Структура типовой каналь ности
|
Эффектив- ность использо- вания потребля- емой мощ- ности типовой структуры БК
|
Эффектив- ность использо- вания потребля- емой мощ- ности БК, приведенная на один канал
|
Приве- денные на канал масса/ габариты
|
Приве- денная на канал потреб- ляемая мощность
|
Приве- денная стоимость одного канала
|
2-кан. АКВИ
|
0,39 (0,69*)
|
1,95 (3,45*)
|
1,4/1,3
|
1,15 (0,65*)
|
1,4
|
3-кан. 1проц. АМКВИ
|
0,13
|
0,43
|
1,0/1,0
|
1,33
|
1,0
|
4-кан. 2проц. АМКВИ
|
0,08
|
0,2
|
2,7/2,8
|
2,5
|
2,7
|
2-кан. Delta-4
|
0,14
|
0,7
|
1,8/1,7
|
2,5
|
1,8
|
2-кан. QPR-БК
|
0,14
|
0,7
|
2,1/2,0
|
2,5
|
2,2
|
3-кан. SIFT-CPU-HIFT-I/O
|
0,12
|
0,4
|
2,2/2,3
|
2,33
|
2,5
|
9-кан. HPPS
|
0,11
|
0,12
|
1,1/1,3
|
1
|
1,2
|
3-кан. ML-HIFT
|
0,3
|
1
|
1,1/1,1
|
1,1
|
1,2
|
*) показатель для "холодного" резерва.
Достаточно высокий показатель эффективности также имеет ML-HIFT-структура, а повышение требования к жёсткости регламента реального времени и необходимости парирования сбоя или отказа "на лету" делает ML-HIFT-структуру лидером среди структур БК с горячим резервированием для необслуживаемых СУ с задачами навигационного типа.
Низкие показатели эффективности 3-х и более канальных БК скрывают запас резервирования, который создаёт возможность более длительного истощения избыточности [9], что желательно при использовании COTS- и IOTS-компонент. Кроме этого, в обслуживаемых СУ такой подход позволяет производить замену канала БК с наличием отказов на исправный в более мягком режиме [14] без приостановки процесса управления и с меньшей вероятностью возникновения программно-аппаратного сбоя в СУ.
Следует заметить, что рассмотренные структуры, при использовании однотипных компонентов, имеют различный расчётный показатель надёжности, который может либо ограничить возможность применения этой структуры БК, либо потребовать внести изменения в проект БК впоследствии, для обеспечения необходимого показателя, что неизбежно увеличит накладные расходы как в технической, так и в финансовой части последующего образца БК. Необходимо дополнительно отметить, что общий показатель надёжности структуры БК сильно зависит от местоположения дефекта. Так, сбой или отказ в аппаратуре БКУР двухканальной структуры может сначала выключить основной, а затем и резервный каналы даже без объективной информации об отказах или сбоях в каком-либо канале. Для 3-х и более канальных структур с межканальными связями сбой или отказ в аппаратуре межканального обмена одного из каналов парируется за счёт сопоставления данных разных каналов. Как следует из анализа данных, приведённых в табл. 4, наибольшее количество допустимых полных отказов блоков в любой части оборудования позволяет парировать структура ML-HIFT, реализующая возможность накопления отказов и адаптации путём перестройки ярусов в одноканальную конфигурацию.
Таблица 4. Характеристики БК по допустимым отказам
Структура типовой канальности
|
Допустимые отказы в аппаратуре каналов БК
|
Максимально допустимые отказы в аппаратуре обеспечения отказоустойчивости
|
2-кан. АКВИ
|
1 отказ: процессора или памяти или канала ввода/вывода основного процессора
|
Не допустим никакой отказ
|
3-кан. 1 проц. АМКВИ
|
2 отказа: процессор в одном канале и какой-либо из блоков в другом
|
Отказ в межканальной связи с одним из каналов
|
4-кан. 2 проц. АМКВИ
|
4 отказа: отказ любого блока на прикладном уровне в 3-х каналах и отказ любого блока на жизненном уровне в одном канале
|
Отказы в межканальной связи с двумя каналами или любого блока жизненного уровня в двух из четырёх каналов
|
2-кан. Delta-4
|
2 отказа: отказ любого по одному на каждый канал из пары подканалов
|
Отказ общего оборудования пары подканалов или отказ в межканальной связи
|
2-кан. QPR-БК
|
2 отказа: процессор в одном канале и какой-либо из блоков в другом
|
Отказ в перекрёстных связях
|
3-кан. SIFT-CPU-HIFT-I/O
|
2 отказа: один в оборудовании процессоров или памяти одного из каналов, второй - в оборудовании ввода/вывода
|
Отказ в межканальной связи с одним из каналов или любого блока жизненного уровня, один отказ на канал в мажоритарном элементе канала
|
9-кан. HPPS
|
5 отказов в 5 каналах
|
Отказы в межканальной связи с пятью каналами
|
3-кан. ML-HIFT (без реконфи- гурации)
|
N отказов: по одному из отказов на канал в каждом из N ярусов мажоритирования
|
По одному отказу на канал в каждом из N мажоритаров каждого канала
|
3-кан. ML-HIFT (с реконфи- гурацией)
|
2N отказов: по два отказа в каждом из N ярусов в трёх каналах
|
По одному отказу на канал в каждом из N мажоритаров каждого канала
|
Выводы
- IOTS-подход, основанный на использовании электронных компонентов Industry при реализации компьютерных систем для критических и бизнескритических приложений, является частью более общего COTS-подхода. Анализ характеристик достигаемых технически по надёжности (отказоустойчивости), показывает возможность и экономическую целесообразность использования IOTS-компонент в бортовых компьютерах, функционирующих в тяжёлых условиях агрессивной внешней среды и повышенной радиации.
- В рамках IOTS-подхода применение элементов с негарантированным уровнем радиационной стойкости обязывает вводить надёжностную компенсацию за счёт глубоко резервированных структур. Применение HIFT-структур БК позволяет сочетать щадящий режим работы элементов [5] и обеспечивать высокий показатель надёжности многоярусной мажоритарной структуры с адаптацией, что компенсирует потери безотказности аппаратной поддержкой функций АМКВИ.
- Анализ показателей множества рассмотренных отказоустойчивых структур БК позволяет найти оптимальный вариант на этом множестве с учётом желаемого запаса по различным показателям надёжности и стойкости и минимума стоимости при использовании электронных компонентов Industry.
- Проекты отказоустойчивых БК космического назначения являются хорошей иллюстрацией взаимной "миграции" и интеграции аппаратных, программных средств и технологий, разрабатываемых для коммерческих и критических приложений в рамках подходов IOTS (COTS) и CrOTS (Critical-Off-The-Shelf).
Литература
- Кернс Ш.Э., Шейфер Б.Д. Разработка радиационно стойких ИС космического назначения: oбзор подходов // ТИИЭР. 1988. № 11. Т. 76. С. 75–125.
- Prager K., Vahey M., Farwell W., Whitney J., Lieb J. A fault tolerant signal processing computer // Dependable Systems and Networks, 2000. DSN 2000. Proceedings International Conference on. 2000. P. 169–174.
- Байда Н.К., Кривоносов А.И., Лысенко И.В., Харченко В.С., Юрченко Ю.Б. Эволюция отказоустойчивых БЦВК и направления их развития на однокристальных микро-ЭВМ // Системи обробки ЁнформацЁї, ХаркЁв: НАНУ, ПАНМ, ХВУ, 2001. Вип. 4(14). С. 217–225.
- Кривоносов А.И., Байда Н.К., Кулаков А.А, Благодарный Н.П., Харченко В.С. Структурно-алгоритмическая организация и модели надёжности мажоритарно-резервированных систем // КосмЁчна наука Ё технологЁя, 1995. № 1. С. 69–77.
- Харченко В.С., Юрченко Ю.Б., Байда Н.К. Реализация проектов отказоустойчивых бортовых компьютеров космических аппаратов с использованием электронных компонент INDUSTRY // Технология приборостроения № 1, 2002. С. 74–80.
- LaBel K.A., Gates M.M, Moran A.K. и др. Commercial Microelectronics Technologies for Applications in the Satellite Radiation Environment. http://radhome.gsfc.nasa.gov/radhome/papers/aspen.htm.
- Howard J., Webb E., LaBel K. и др. Synopsys V1.3 Proton Dose and Single Event Effects Testing of the Intel Pentium III (P3) and AMD K7 Microprocessoes. http://radhome.gsfc.nasa. gov/radhome/papers/i062100.pdf.
- Тяпченко Ю., Безроднов В. ПЭВМ на борту пилотируемого космического аппарата // СТА, 1997. № 1. С. 34–37.
- Powell D., Arlat J., Beus-Dukic L. и. др. GUARDS: a generic upgradable architecture for real-time dependable systems // Parallel and Distributed Systems. IEEE Transactions on. Vol. 10. Issue 6. June 1999. P. 580–599.
- O`Bryan M.V., LaBel K.A., Reed R.A. и др. Radiation Damage and Single Event Effect Results for Candidate Spacecraft Electronics. http://radhome.gsfc.nasa.gov/ radhome/papers/nsrec01_W15.pdf... W21.pdf.
- Scott J.A., Preckshot G.G., Gallagher J.M. Using Commercial-Off-The-Shelf(COTS) Software in High-Consequence Safety Systems // Lawrence Livermore National Laboratory, UCRL-122246, 1995.
- Hagbae Kim, Kang G. Shin Evaluation of Fault Tolerance Latency from Real-Time Application`s Perspectives // IEEE Transactions on computers, January 2000. Vol. 49. № 1. P. 55–64.
- Melliar-Smith P.M. and Schwartz R.L. Formal Specification and Mechanical Verification of SIFT // A Fault-Tolerant Flight Control System, IEEE Trans. Computers, July 1982. Vol. 31. № 7. P. 616–630.
- Kieckhafer R.M., Walter C.J., Finn A.M. and Thambidurai P.M. The MAFT Architecture for Distributed Fault Tolerance // IEEE Trans. Computers, Apr. 1988. Vol. 37. № 4. P. 398–405.
- Harper R.E. and Lala J.H. Fault-Tolerant Parallel Processor // Guidance, Control and Dynamics, May-June 1990. Vol. 14. № 3. P. 554–563.
- Powell D. Distributed Fault-Tolerance–Lessons from Delta-4 // IEEE Micro, Feb. 1994. Vol. 14. № 1. P. 36–47.
- Афонин В.В., Лисейкин В.А., Милютин В.В., Зиновьев В.Л., Московский А.Н. Синхронизация каналов троированных каналов ПЛК жёсткого РВ // Промышленные АСУ и контроллеры, 2001. № 6. С. 58–60.
- Caldwell D.W., Rennels D.A. FTSM: A Fault-Tolerant Spaceborne Microcontroller // Department of Computer Science. 4731 Boelter Hall University of California. Los Angeles. CA 90024. http://www.chillarege. com/fastabstracts/ftcs98/382.html.
- Бурцев В. Возможности использования зарубежной элементной базы в системах военного применения // Живая электроника России, 2002. С. 33–36.
- Харченко В.С., Юрченко Ю.Б. Повышение отказоустойчивости систем управления на основе мажоритированных вычислительных комплексов с аппаратной синхронизацией // Інформацфйно-керуючЁ системи на залЁзничному транспортЁ. 2001. № 4. С. 122–123.
- http://www.cpm.ru/product/stratus.
|