Архивирование данных: аппаратное или программное?

Анонс
Компания: DIS Group - ДИС Групп - Дата Интегрейшн Софтвер - Data Integration Software
Компания: Data Integration Software (DIS) Казахстан

Алексей Ананьев, Технический менеджер DIS Group

За последние 5-10 лет мы с вами наблюдаем поистине стремительное развитие компьютерных технологий. Но это развитие повлекло за собой не только возможность увеличения вычислительных мощностей, но и увеличение объемов обрабатываемой, а, следовательно, и хранимой информации. Исторические данные со временем начинают напоминать «чемодан без ручки», который носить неудобно, а выбросить жалко. С одной стороны, данные по разным причинам хранить необходимо. С другой - объемы хранения столь велики, что не дают развиваться системам и новым направлениям бизнеса.

Концепция управления жизненным циклом информации (Information Lifecycle Management) предлагает нам архивировать те данные, которые мы не используем постоянно или перемещать их на более дешевые носители.

Сейчас рынок предлагает широкий спектр решений по архивированию данных. Среди предлагаемых продуктов присутствуют системы двух видов: программные и аппаратные.

До принятия решения о выборе какого-либо из подходов надо четко себе представлять ожидаемый результат и попытаться понять, что мы будем архивировать: файлы или данные. Разница в этих двух подходах очень существенна. Архивируя файл, мы не задумываемся о его содержимом. Архивируя данные, нас совершенно перестает интересовать способ их физического хранения.

Давайте представим себе ситуацию, что используемая база данных сильно выросла, и мы хотели бы перенести часть данных из этой базы в архив. При этом данные за последний месяц нам крайне важны, мы используем их ежедневно для операционной деятельности, а более старые данные нужны только отдельным специалистам для редкого выполнения каких-либо запросов. Как можно избавиться от старых данных так, чтобы решить обе проблемы разом? Если администратор думал об этом с первого дня работы базы данных и предусмотрел разделение данных по нескольким файлам, то файлы со старыми данными могут быть отключены и заархивированы. При таком подходе конкурентов у аппаратного метода работы просто нет. Лучше, чем производитель оборудования, на котором файлы хранятся, этого не сделает никто. Но что, если исторические и оперативные данные не распределены по разным файлам? В этом случае наша задача - перенос в архив только части данных из базы. И методы аппаратного архивирования здесь становятся неприемлемыми.

В такой ситуации на первый план выходит технология, позволяющая в процессе архивации извлечь необходимые данные, сжать их, переместить, а затем удалить из источника данных. Возможно, степень аппаратного сжатия данных будет выше, но программное сжатие позволяет это сделать более тонко. Эта технология позволяет оперировать именно записями базы данных, а не блоками на диске.

Среди предлагаемых решений программного сжатия можно выделить программное обеспечение Informatica Data Archive. Помимо решения вышеуказанной задачи это программное обеспечение имеет дополнительную функциональность. Обычно перенос данных в архив означает, что они более не будут доступны для чтения. Для обращения к ним нужно будет извлечь эти данные из архива и загрузить обратно в исходную базу данных. Informatica Data Archive предлагает несколько иной подход: данные из сжатого файла остаются доступны через интерфейс ODBC. Такая технология раскрывает широкие возможности по интеграции данных для различных целей компании.

Используя такой подход, пользователь получает возможность бесшовного доступа к данным любой глубины независимо от места их хранения. ИТ-подразделение организации сокращает расходы на дисковое пространство и затраты на сопровождение систем, выведенных из эксплуатации, но все равно доступных для приложений и пользователей компании. Таким образом, организация может решить одновременно несколько важных проблем: сократить затраты на сервера и дорогостоящие диски, полностью имея возможность использовать все данные за все время жизни организации и не беспокоиться о производительности используемых решений.