Обеспечение непрерывной работы серверных приложенийРешение на платформе виртуализации VMware. Секрет вечной жизни. Как обеспечить бесперебойную работу ИТ-инфраструктуры

13.12.2016, ВТ, 11:30, Мск

Современный мир все больше полагается на автоматизированные системы в самых разных областях человеческой деятельности. Растет число приложений, к непрерывной работе которых выдвигаются повышенные требования. Специалисты НПП «Родник» представляют коробочное решение Stratus everRun Enterprise, которое поможет быстро и просто обеспечить бесперебойную работу программного решения или сервиса.

По мере того как ИТ-системы становятся все более привычными, возрастают ожидания к их надежности - все меньше пользователей готовы мириться с простоями или отказами сервисов, от которых ожидаешь непрерывной работы. Для простых информационных или справочных систем отключение на небольшое время не слишком важно. Но для систем, ориентированных на работу и обслуживание пользователей, или корпоративных сервисов для сотрудников это уже менее терпимо.

Далее по степени критичности идут «служебные» системы, например, системы видеонаблюдения и обеспечения безопасности, системы управления зданиями или контроля и наблюдения за производством. Если подобные подсистемы отключатся из-за отказа управляющего ПО, это может привести к дорогостоящим, опасным и даже угрожающим жизни последствиям. С нефункциональной системой нет никакого способа узнать о возникновении чрезвычайной ситуации или оповестить сотрудников об обязательной эвакуации. Возможны и экономические потери от простоя подобных информационных систем, а иногда и юридические обязательства. В этом случае на надежности и отказоустойчивости лучше не экономить.

И, наконец, основные «производственные» процессы. В зависимости от предметной области (банковские системы, управление технологическими процессами, торговые системы и управление продажами и т.п.), такие решения могут быть разными по сложности и стоимости и обычно являются узкоспециальными. Обеспечение их непрерывной работы - важнейшая задача, и может решаться разными способами, в зависимости от масштаба систем и их взаимосвязанности.

Доступный сервис

С целью классификации компьютерные системы обычно разделяют по времени непрерывной работы, в процентах от общей длительности работы. Зачастую доступность сервиса или системы характеризуется параметром в 99–99,9% времени, и число «99,9» выглядит очень надежно. Но на практике это означает до 90 часов простоя в течение года, или же до полутора часов в неделю. Для восстановления работы такой системы обычно используется ее перезапуск, или восстановление из резервной копии.

Недостатки такого способа очевидны - эта процедура требует времени, что не всегда допустимо. Современные сервисы чаще всего работают на виртуальных машинах (ВМ), которые в случае сбоя требуется перезапустить.

Системы высокой доступности работоспособны 99,95–99,99% времени. Здесь используются кластерные системы и технологии, в которых выполнено то или иное запараллеливание сервисов и систем. «Высокая доступность», тем не менее, может означать до нескольких часов простоя в течение года. В зависимости от решения, дублирующий сервис или система могут находиться в так называемом «холодном» резерве, в этом случае для ее запуска требуется какое-то время. Также следует отметить сложность кластерных технологий и повышенные требования к квалификации ИТ-персонала. Кластеры сложны и отнимают много времени на развертывание, требуют тестирования и непрерывного административного контроля. Программное обеспечение обычно приходится лицензировать для каждого из серверов кластера. В результате в случае роста кластерной системы общая стоимость владения быстро растет.

Основные области применения Stratus everRun:

Системы видеонаблюдения и контроля доступа

Cиловые структуры

Финансы и банковские услуги

Телекоммуникации

Медицина

Государственный сектор

Производство

Транспорт и логистика

Непрерывная доступность (англ. fault tolerance) – до 99,999% времени. Такой уровень надежности системы достигается специализированными программными и аппаратными решениями. В зависимости от предметной области (управление технологическими процессами, банковские системы), такие комплексы могут быть очень разными по сложности и стоимости.
Но, как отмечалось выше, есть и менее требовательные сферы применения, от которых ожидается непрерывная работа. Сюда можно отнести системы управления зданиями, системы внешнего контроля (видеонаблюдения), системы контроля доступа, и тому подобные. Вряд ли пользователи будут счастливы, если пропадет сигнал со всех видеокамер и датчиков, или система вентиляции цеха или здания остановит работу.

Готовое решение

Специализированные ИТ-системы, как правило, сложны, требуют настройки и высокой квалификации персонала. Но если они пользуются успехом, то установка и обслуживание со временем упрощаются. Появляются готовые к развертыванию комплексы, не требующие повышенного внимания.

Для систем непрерывной доступности одним из таких решений является программный пакет everRun Enterprise компании Stratus. Он специально спроектирован так, чтобы обеспечить сохранение данных даже при аппаратных или программных сбоях.

Преимущества решения

При использовании everRun Enterprise приложение «живет» в двух ВМ на двух физических серверах. Если одна ВМ выходит из строя, приложение продолжает работать на другом сервере без перерывов или потери данных. Это достигается за счет постоянного считывания состояния работающей виртуальной машины и сохранения ее параметров. В случае сбоя последнее состояние системы переносится на параллельно работающую ВМ, так что выполнение приложений не прерывается. Серверы системы могут быть географически разнесены для повышения надежности.

Программное обеспечение Stratus everRun предназначено для того, чтобы обеспечить непрерывную работу служебных приложений и целостность собираемых данных. При этом система, разумеется, обладает функционалом и для быстрого аварийного восстановления в случае крупного отказа. Решения Stratus everRun базируются на использовании стандартного оборудования, и защищают любые приложения для MS Windows Server и Linux от отказов и сбоев в работе аппаратной части серверов.

Как отмечает представитель компании-интегратора «Родник» Иван Кириллов , «внедрение everRun Enterprise позволяет избежать построения сложной сетевой инфраструктуры, развертывания и настройки дополнительного управляющего ПО, а также затрат на обучение персонала, которые требуются при эксплуатации традиционных кластерных систем».

Как everRun Enterprise обеспечивает непрерывную работу и сохранение данных приложений, развернутых на виртуальных машинах

Для любой компании крайне важна бесперебойная работа ее IT-инфраструктуры, особенно серверов и установленного на них программного обеспечения. Прекращение доступа к Интернет, электронной почте, базам данных и другим приложениям неминуемо приведет к серьезным сбоям в бизнес-процессах компании.

Для обеспечения стабильной работы приложений серверное оборудование должно отвечать высоким требованиям по надежности. Одним из основных методов повышения надежности сервера является резервирование его подсистем путем дублирования компонентов: процессора, оперативной памяти, сетевых подключений, дисковых и твердотельных накопителей, устройств охлаждения, блоков питания. Отказ дублированного компонента не приводит к отказу сервера в целом, но может снизить его производительность. Устранение неисправности обычно выполняется без остановки работы сервера путем "горячей" замены отказавшего компонента.

Однако полное резервирование в рамках традиционной серверной архитектуры невозможно. Такие компоненты сервера как системная плата и контроллер дисков обычно не дублируются. Поэтому их выход из строя будет означать отказ сервера в целом и, как следствие, аварийную остановку всех приложений. Какова вероятность такой ситуации?

Надежность сервера определяется параметром MTBF — средним временем наработки на отказ. MTBF сервера можно вычислить теоретически — на основании известных значений MTBF серверных компонентов. С помощью данного метода мы рассчитали MTBF типового сервера и получили значение, равное 10 годам (детали расчета). Для такого сервера вероятность выхода из строя в течение одного года будет равна 10%.

Согласно статистике нашего сервисного центра серверы Team имеют среднее время наработки на отказ 25 лет, коэффициент готовности 99,99% и вероятность выхода из строя в течение одного года около 4%. При этом в отличие от "теоретического" расчета наша статистика учитывает любые отказы, в том числе и отказы дублированных компонентов, которые не приводят к отказу сервера в целом.

Очевидно, что столь высокие показатели надежности вполне достаточны для обеспечения устойчивой работы серверных приложений и соответствуют потребностям большинства компаний малого и среднего бизнеса.

Однако для некоторых компаний внеплановая остановка бизнес-приложений (пусть даже очень маловероятная) неприемлема. Например, одним из клиентов нашей компании является предприятие непрерывного цикла с численностью работников 150 человек. Производственный процесс на предприятии управляется при помощи специализированного серверного приложения. Остановка этой программы означает остановку производства. Восстановление работоспособности приложения после аппаратного или программного сбоя может занять несколько часов и на протяжении этого времени производство будет простаивать. Поэтому требуется обеспечить гарантированную непрерывность работы этого приложения как необходимое условие непрерывности всего бизнес-процесса.

Переход на виртуальную платформу VMware позволяет решить эту задачу.

Предлагаемое решение основано на использовании кластера двух (или более) серверов с общей системой хранения. В таком кластере все компоненты (в том числе компоненты системы хранения) продублированы. Восстановление работы приложений в случае отказа одного из серверов обеспечивается средствами виртуализации.

В штатном режиме на каждом сервере работает свой набор приложений, каждое приложение — в отдельной виртуальной машине. Все приложения изолированы друг от друга и не влияют на работу других приложений. Виртуальные машины и данные, с которыми они работают, хранятся на общем дисковом массиве, доступ к которому имеют оба сервера. Распределение виртуальных машин по серверам изначально задается администратором. Им же для каждой виртуальной машины выделяется часть аппаратных ресурсов сервера, при этом коэффициент загрузки каждого сервера может достигать 70-80%.

Непрерывность работы приложений обеспечивается средствами виртуальной платформы, которые осуществляют постоянный мониторинг виртуальных машин. В случае остановки виртуальной машины из-за отказа сервера она автоматически перезапустится на другом сервере. После устранения причины отказа и включения сервера виртуальные машины автоматически вернутся на "свой" сервер без прерывания работы.

Данное решение позволяет выполнять плановые работы по техническому обслуживанию серверов без остановки приложений. Перед выключением сервера его приложения "переезжают" на другой сервер, а после завершения работ возвращаются обратно.

Важным достоинством данного решения является его универсальность, поскольку оно подходит для любых приложений и не накладывает практически никаких ограничений на тип гостевых операционных систем виртуальных машин. Этим оно выгодно отличается от службы кластеров Microsoft Windows Server. Другими преимуществами решения являются более эффективное использование аппаратных ресурсов серверов, а также простота внедрения и администрирования.

Состав решения

Решение по обеспечению непрерывной работы серверных приложений на виртуальной платформе VMware включает следующие компоненты:

Два (или более) сервера Team . Все серверы Team совместимы с платформой VMware.
Дисковый RAID-массив с полным резервированием подсистем.
VMware Essentials Plus Kit в качестве платформы виртуализации.
Лицензии на операционные системы в соответствии с количеством виртуальных машин.
Необходимые пользователю серверные приложения.

В рамках внедрения данного решения наша компания готова выполнить следующие работы:

Подбор конфигурации серверов с требуемым уровнем производительности.
Подбор системы хранения.
Поставку серверов, системы хранения и другого необходимого оборудования.
Поставку программного обеспечения.
Монтаж и подключение оборудования.
Установку и настройку платформы виртуализации.
Установку и настройку виртуальных машин, операционных систем и приложений.
Тестирование системы и ввод в эксплуатацию.
Сопровождение в рамках гарантийного обслуживания и, по желанию, по договору аутсорсинга.

В составе решения мы бесплатно предоставим восемь часов работы сертифицированного специалиста VMware и Microsoft для консультаций, обучения и работ по внедрению решения.

В начале этого года на северо-востоке США бушевали невиданной силы грозы. Они нарушили электроснабжение местного call-центра службы спасения 911, и в сервисном отделе фирмы Liebert, входящей в состав компании Emerson Network Power, раздался звонок с просьбой о помощи. Батареи ИБП в ЦОДе вышли из строя, и, учитывая специфику работы call-центра, было необходимо срочно обеспечить его функционирование.

Мы быстро отреагировали, и вскоре call-центр вновь нормально работал. Изучив причины случившегося отказа, представители вендора вместе с руководством call-центра вынуждены были признать, что не была внедрена программа сервисного обслуживания (которая обычно включает профилактическое техобслуживание, регулярные проверки и мониторинг). Если бы в ЦОДе действовала такая программа, то отказа батарей можно было бы избежать.

Подобные случаи постоянно напоминают о том, сколь необходима всеобъемлющая программа профилактического техобслуживания. В сегодняшних быстро меняющихся условиях с неуклонно растущей ролью ЦОДов такая программа совершенно необходима для обеспечения бесперебойной работы.

Перемены повсюду

В условиях постоянно развивающихся ИТ одна из главных трудностей, с которой сталкиваются менеджеры ЦОДов, — это не отстать от перемен. Ушли в прошлое те времена, когда достаточно было иметь небольшую распределенную сеть, охватывающую несколько близлежащих узлов. Сегодня ЦОДов стало меньше, но они теперь гораздо крупнее, более централизованны и берут на себя громадные объемы вычислений.

Также ИТ-инфраструктура многих организаций развилась во взаимозависимую, критически важную сеть, охватывающую данные, приложения, хранение, серверы и собственно сетевое оборудование. Отказ питания в любой точке этой сети может нарушить работу всей организации и негативно сказаться на ее бизнесе.

Ввиду этих перемен очень важно, чтобы организации имели надежные планы профилактического техобслуживания в своих ЦОДах, а также знающих специалистов, что называется, под рукой. Переходя на новое оборудование и осуществляя централизацию своих ЦОДов, организации не должны упускать из вида, что столь же важно иметь надежную инфраструктуру питания и охлаждения, чтобы гарантировать постоянную доступность ИТ.

Слишком часто можно наблюдать такую картину: ИТ-директор решает купить новые серверы для организации, но когда они уже готовятся к установке, менеджер ЦОДа обнаруживает, что не было проведено никакой оценки того, насколько имеющаяся инфраструктура питания и охлаждения соответствует новым требованиям. Профессиональная оценка может определить, например, что на одной из критически важных линий не хватает мощности резервного питания для поддержки новых серверов.

Кроме того, тепловой анализ может показать, что одна из стоек охлаждается недостаточно хорошо. Если бы ИТ-директор и менеджер ЦОДа нашли время встретиться до того, как начинать внедрение, и обратились бы к сервисной организации, чтобы точно определить будущие требования к системам питания и охлаждения, то в смету уже были бы заложены дополнительные капиталовложения и оптимизация этих систем, дабы не создать риска возможных отказов.

Главное — гарантировать безотказность

При наличии хорошо согласованной программы сервисного техобслуживания в рамках всей организации риск нарушения питания, будь то стихийное бедствие или плановый апгрейд оборудования, можно свести к минимуму. ИТ-менеджеры рассчитывают сегодня на 100%-ный уровень готовности. Но как его достичь без всеобъемлющей программы профилактического техобслуживания? Как и ваш автомобиль, ЦОДы также должны быть надежны, им необходим регулярный “техосмотр”, чтобы надежность могла быть гарантирована.

Кроме того, бесперебойность работы зависит от знания менеджерами ЦОДов потенциальных опасностей и их способности разработать план вместе со специалистом по техобслуживанию, чтобы свести к минимуму риск отказа критически важных функций. Хорошо подготовленная организация будет иметь минимум нарушений в работе и будет чувствовать себя уверенно, даже если что-то случится.

Сегодня, как никогда, организации зависят от своей ИТ-инфраструктуры, от ее надежной работы, и не стоит экономить на том, чтобы построить тесные, доверительные отношения с поставщиком сервисных услуг. Опытный специалист поможет разработать и внедрить сильный план обеспечения бесперебойности бизнеса, который гарантирует не только оперативную готовность вашей ИТ-инфраструктуры, но будет охватывать весь жизненный цикл ЦОДа. Но программа, созданная сегодня, может перестать соответствовать требованиям через несколько лет, поэтому необходимо постоянно ее корректировать и развивать. Без такой всеобъемлющей, постоянно развивающейся программы организации подвергают себя риску потерять доходы и вызвать неудовлетворенность заказчиков.

Кроме того, организация может понести незапланированные расходы на ремонт и замену оборудования. Конечно, всё это трудно вписать в ограниченный ИТ-бюджет, но без необходимого техобслуживания затраты могут оказаться еще выше и будут к тому же неожиданными для организации.

Ваши требования к поставщику техобслуживания

Выбирая поставщика услуг техобслуживания, ищите тех, кто инвестирует в лучший инструментарий и знающий персонал. Один из верных способов свести к минимуму риск отказов питания — это внедрить всеобъемлющую программу планово-предупредительного техобслуживания с участием обученных вендором специалистов. Вы можете смело полагаться на поставщиков техобслуживания, если они:

могут гарантировать быстрый отклик по вашему вызову;
имеют опыт работы с установленным у вас оборудованием (чтобы восстановить его работоспособность с первого раза);
гарантируют наличие запчастей;
постоянно обучают своих инженеров, повышая их квалификацию, и снабжают их всеми новейшими приборами и средствами, необходимыми для работы;
имеют репутацию надежного и соблюдающего нормативные требования партнера;
способны дать вам целостную картину состояния вашего ЦОДа благодаря широте своего предложения.

Сегодня многие ведущие поставщики услуг технического обслуживания имеют новейшее тестовое оборудование и прекрасно обученных специалистов, так что проблемы часто можно разрешить, даже не посылая специалиста к заказчику. Имея хорошо спланированную стратегию, менеджеры ЦОДов могут смело рассчитывать на специалистов техобслуживания, которые решат их проблемы без простоев и снижения уровня готовности всех систем.

Заключение

Мы живем в эпоху перемен, в том числе внутри ЦОДов. Перемены неизбежны. ИТ меняются ежечасно, стремясь к совершенству, и это следует принять как данность. Всеобъемлющая программа профилактического техобслуживания, которая включает превентивные меры, регулярные проверки и мониторинг оборудования, просто необходима.

Отказ в call-центре, о котором мы рассказали в начале, был быстро ликвидирован, и его работа почти не пострадала. Но дело могло бы обернуться гораздо хуже, чья-то жизнь могла бы подвергнуться опасности. Сегодня этот call-центр службы спасения уже не берет на себя такого риска. Они внедрили всеобъемлющую программу профилактического техобслуживания, которая гарантирует бесперебойную работу их систем. Такой же выбор следует сделать всем менеджерам ЦОДов в наше время, полное перемен.

Нажав на кнопку "Скачать архив", вы скачаете нужный вам файл совершенно бесплатно.
Перед скачиванием данного файла вспомните о тех хороших рефератах, контрольных, курсовых, дипломных работах, статьях и других документах, которые лежат невостребованными в вашем компьютере. Это ваш труд, он должен участвовать в развитии общества и приносить пользу людям. Найдите эти работы и отправьте в базу знаний.
Мы и все студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будем вам очень благодарны.

Чтобы скачать архив с документом, в поле, расположенное ниже, впишите пятизначное число и нажмите кнопку "Скачать архив"

Подобные документы

Социально-экономическое оздоровление финансово-хозяйственной деятельности. Стратегический анализ положения предприятия. Анализ внутренней и внешней среды предприятия. Горизонтальный анализ актива и пассива баланса. Анализ отчета о прибылях и убытках.

курсовая работа , добавлен 22.12.2011

Экономический анализ хозяйственной деятельности. Анализ аналитического баланса, финансовой устойчивости организации, актива и пассива баланса, качества собственного капитала, основных средств, дебиторской и кредиторской задолженности, доходов и расходов.

курсовая работа , добавлен 23.01.2013

Краткая экономическая характеристика и оценка результатов деятельности ООО "Куброс". Состав и структура источников формирования имущества организации. Расчеты с поставщиками и покупателями, организация кассовых операций. Финансовое планирование фирмы.

отчет по практике , добавлен 24.12.2014

Анализ системы управления и оплаты труда. Органы управления предприятием и структура управления персоналом. Организация экономической работы. Основные показатели финансово-хозяйственной деятельности. Анализ доходов и прибыли.

курсовая работа , добавлен 14.09.2006

Оценка структуры и динамики имущества предприятия и источников его формирования. Взаимосвязь показателей актива и пассива баланса. Анализ ликвидности и платежеспособности, показателей финансовой устойчивости и вероятности банкротства предприятия.

курсовая работа , добавлен 02.11.2011

Роль анализа финансово-хозяйственной деятельности в управлении предприятием. Состав и структура баланса ООО "Элегия", показатели оценки его платежеспособности и ликвидности. Разработка мероприятий по стабилизации финансового состояния предприятия.

курсовая работа , добавлен 20.12.2015

Описание деятельности грузового порта. Расчет производительности труда, динамики и структуры актива и пассива баланса, фонда оплаты труда. Оценка показателей платежеспособности предприятия, эффективности использования капитала, кредитоспособности.

курсовая работа , добавлен 09.06.2015

Сущность и методики анализа финансового состояния организации. Характеристика и анализ бухгалтерского баланса ООО "Изумруд", структура его актива и пассива. Оценка отчета о прибылях и убытках и показателей хозяйственно-экономической деятельности.

курсовая работа , добавлен 27.06.2012

Комплекс Oktell является сложным программным продуктом, обеспечивающим работу в составе сетевой программно-аппаратно инфраструктуры. Бесперебойный характер работы обеспечивается в разных пропорциях всеми частями системы: оборудованием, сетевыми каналами, качеством подключений и т.д. На работу также может оказывать влияние стороннее программное обеспечение: в первую очередь операционная система, ее составляющие части и их состояние, программные продукты, используемые одновременно с комплексом, и т.д.

Очевидно, что программный продукт самостоятельно не в состоянии полностью заботиться о всех составляющих частях системы. Например отключение электричества на длительный период или физический разрыв сетевого канала между сервером телефонии и сервером баз данных - классические примеры внешнего воздействия, в борьбе с которым любое программное обеспечение бессильно. Однако установкой дополнительного оборудования (аккумуляторных батарей или дублирующего сетевого канала соответственно) можно свести вероятность возникновения критического сбоя в контексте описанных примеров к минимуму.

Возможные сбои, возникающие в процессе активной работы сервера уже после ввода его в эксплуатацию по истечении некоторого периода стабильной работы могут иметь различные причины, однако могут быть классифицированы по направлениям. Каждое из направлений необходимо оценить на предмет вероятности возникновения и при необходимости обеспечить профилактику, подготовку персонала и оборудования, а также разработать перечень мероприятий, требующих проведения при возникновении тех или иных критических условий.

Общие проблемы оборудования (плат CTI или составляющих блоков серверной станции)

В зависимости от требований, предъявляемых к системе по обеспечению бесперебойности, могут быть разработаны различные методики борьбы с аппаратными проблемами. В любом случае при необходимости свести к минимуму возможное время простоя требуется дублирование различных узлов системы. Оценка возможных вероятностей и последствий зависит от конкретных условий внедрения. Дублирование может производиться как складированием в запас части подверженных особому риску агрегатов (плат CTI, материнских плат, плат оперативной памяти, телефонных аппаратов и т.д.), так и использованием серверных агрегатов, устойчивых к сбоям и порче составных частей. Например, в отдельных случаях не лишним будет использование в качестве сервера телефонии серверной станции с несколькими блоками питания, серверной материнской платой. Возможно также резервное хранение в запас дублирующего сервера с установленными и настроенными узлами - точными копиями основного. В случае возникновения критических проблем на сервере до момента выяснения и устранения производится полное холодное переключение с одной станции на другую с сохранением всех настроек, имени и IP адреса в сети.

Стоит помнить, что перечисленные варианты - возможное решение лишь аппаратных проблем.

В ряде случаев для удобства настройки и работы распределенной системы рекомендуется выносить БД на отдельный сервер. В этом случае обеспечение быстрого переключения на резервный сервер телефонии в случае аппаратных сбоев на основном производится на порядок проще, так как не требуется перенастройка и восстановление резервных копий БД.

Настоятельно рекомендуется после ввода в эксплуатацию настроенного сервера телефонии производить регулярное резервное копирование необходимых в работе данных: файлов сценариев, баз данных, других (возможно внешних) информационных блоков, участвующих в работе системы.

Также в целях обеспечения защиты от скачков в электросети и отключения электроэнергии рекомендуется снабдить сервер блоком бесперебойного питания. Очевидно, чтобы сервер продолжил обработку вызовов в условиях отсутствия электричества, необходимо, чтобы все узлы, обеспечивающие подключение сервера к внешним провайдерам используемой связи (свитчи, модемы, шлюзы, атс), также функционировали и были обеспечены альтернативными источниками энергии. Также в зависимости от режима работы комплекса может потребоваться настройка сценариев обработки вызовов на альтернативную схему работы при отсутствии операторов и пользователей, а также отсутствии доступа к внешним узлам.

Проблемы связи сервера с провайдерами, с интернет и другими блоками комплекса (АТС, шлюзами, телефонными аппаратами, компьютерами)

Доступ в интернет, обеспечение связи с внешним провайдером SIP и потоков E1 полностью возлагается на системного администратора. В случае нарушений и сбоев в работе каких-либо направлений необходимо иметь альтернативные каналы или условия быстрого устранения возникающих неисправностей. В некоторых случаях провайдеры обеспечивают мгновенное реагирование, и это может не быть критической проблемой, однако в некоторых других случаях по договору или по факту провайдер в состоянии затягивать разрешение возникающих проблем. Необходимо оцениться по ситуации и подготовить план мероприятий, требующих проведения в случае возникновения проблем со связью.

Связь внутриофисных компонентов также должна быть обеспечена системным администратором. Как физически кабелями, так и в плане настроек сетевых подключений.

Дополнительно имеет смысл предусмотреть резервные ветки принимающего звонки сценария, обеспечивающие корректную обработку поступающих вызовов в момент отсутствия связи по используемым рисковым каналам.

Изменения в составе операционной системы (изменение перечня или активности прочего программного обеспечения)

Комплекс работает в операционной системе семейства Windows и использует ее ресурсы. Системные ресурсы сервера разделяются также с другим программным обеспечением, осуществляющим одновременную работу. Возможны случаи, при которых активность сторонних программ может приводить к частичной недееспособности платформы Oktell. В частности, это случаи вредоносной модификации составных частей комплекса, системных файлов платформы FrameWork или ОС, чрезмерной активности, загружающей ресурсы станции: процессорное время, кэш записи/чтения с жесткого диска, сетевые интерфейсы, блокирующие действия на этапе обмена информацией, например файрволлы. Вирусные программы могут оказывать непосредственное влияние на различные уровни системы.

В качестве условий по обеспечению бесперебойности, связанной с вышеописанными проблемами, рекомендуется после настройки сервера не осуществлять установку непроверенного обеспечения, не активизировать ранее неактивные программы, осуществлять контроль за чистотой размещаемых на сервере файлов во избежание попадания вредоносных программ. Не рекомендуется давать прямой и общесетевой доступы к составляющим сервера неквалифицированным и низкоквалифицированным сотрудникам, ограничивать свободный доступ к серверу всех, кроме ответственных администраторов. Крайне осмотрительно производить модификации параметров сетевых интерфейсов, дополнительную настройку брандмауэров, файрволлов и антивирусов. Также настоятельно рекомендуется использовать серверную станцию только по назначению на всем протяжении периода эксплуатации комплекса.

Нехватка дискового пространства

В ходе работы комплекса в зависимости от условий работы осуществляется запись звуковых файлов, разрастание базы данных, также возможны другие причины уменьшения свободного дискового пространства. Система следит за объемом оставшегося места на диске с тем, чтобы предупредить и вовремя прекратить уменьшение места в критической зоне за счет собственных средств, отключая запись коммутаций.

Рекомендуется настраивать запись на дополнительные жесткие диски вместо стандартного системного диска с ОС. Периодически отслеживать изменения и заблаговременно менять или очищать диск от уже неактуальных данных. В систему встроен режим автоматического удаления записанных разговоров (в разделе общих настроек), а также профилактической очистки БД. При необходимости длительного хранения записей используйте внешние носители. Поскольку 1МБ вмещает 10 минут звукозаписи, то современные жесткие диски позволяют достаточно длительный срок вмещать информацию всего офиса. Периодическая смена жестких дисков или архивирование на внешний носитель позволит существенно раздвигать сроки нормальной эксплуатации в этой части.

Переполнение баз данных

В процессе работы (особенно в режиме call-центра) при плотной активной работе базы данных постепенно наполняются большим объемом разнородной статистической информации. Часть ее используется системой при построении стандартных встроенных отчетов, часть может быть использована при создании пользовательских отчетов. Однако в ряде случаев при конкретной настройке комплекса большой объем данных хранится напрасно. Это занимает место на диске, но еще больше мешает серверу баз данных осуществлять быстрый поиск и размещение в оперативной памяти. Разрастание данных в основных таблицах тем пагубнее, что при использовании определенных настроек (таких как, например, поиск наименее занятого оператора) комплекс в реальном времени использует статистическую информацию для маршрутизации. Так, при каждом переключении абонента на задачу неизбежно увеличивается время поиска по статистическим таблицам. Этот процесс плавно ведет к «застреванию» звонков на входе в задачу, и при пересечении допустимой границы ожидания массовым обрывам со стороны абонентов. Рекомендуется полностью формировать проекты перед тем, как осуществлять их настройку и активирование в системе. В ряде случаев информация, собираемая комплексом неинтересна, и можно продлить «легкую» работу, настроив автоматическую очистку таблиц. Также можно пользоваться встроенным режимом удаления данных старее указанной даты из всех оперативных таблиц и автоперестройкой индексов.

Чрезмерная перегрузка одной из составляющих систем выполняемыми одновременно задачами

В случае плотной работы большого числа операторов (или автоматических задач) возможны случаи, когда нагрузка на сервер баз данных возрастает до запредельных значений. В большей степени нагрузка ложится на жесткий диск и его кэш. В этом случае, даже если загрузка процессора в норме, не рекомендуется осуществлять некритичные ко времени процедуры: формировать сложные статистические отчеты, запускать работающие с БД служебные сценарии, проводить другие действия в БД. Совместно с предыдущим пунктом подобные условия могут приводить к неработоспособности или некорректным обработкам.

При формировании проектов рекомендуется предварительно производить анализ и распределение видов работ. В частности, выносить часть данных на другие серверы и строить отчеты на них, использовать внешние БД на других серверах и организовывать распределенную работу в БД модулей и сотрудников, работающих в реальном времени, и тех, кто может отложить до спада активности. В частности, как одна из мер, можно снизить до минимума пребывание в таких модулях call-центра как «Индикаторы», «Ресурсы», «Статистика». При необходимости управления ресурсами возможно отключение использования там наполнения на основе статистических данных.

Однако, стоит иметь в виду, что проблемы с перегрузкой начинаются не сами по себе, а в следствие разрастания оперативных таблиц, что описано в предыдущем пункте. Необходимо рассматривать ситуацию целиком и принимать комплексные решения по оптимизации работы БД. В случае организации сложных и критичных ко времени простоя call-центров, пользуйтесь советами и/или услугами центров внедрения.