Проект

Новолипецкий металлургический комбинат, НЛМК (ADH - Arenadata Hadoop)

Заказчики: Новолипецкий металлургический комбинат, НЛМК

Новолипецк; Металлургическая промышленность

Подрядчики: Инфосистемы Джет
Продукт: ADH - Arenadata Hadoop
На базе: Apache Hadoop
Второй продукт: Apache Kafka
Третий продукт: Apache Hive

Дата проекта: 2018/08 — 2019/08
Количество лицензий: 20
Технология: СУБД
подрядчики - 272
проекты - 773
системы - 308
вендоры - 148
Технология: BI
подрядчики - 451
проекты - 3060
системы - 1149
вендоры - 559
Технология: Data Mining
подрядчики - 251
проекты - 847
системы - 291
вендоры - 209

2019: Построение Data Lake

Масштаб проекта:

  • 7840 человеко-часов
  • 20 автоматизированных рабочих мест

Использованное ПО:

Решение реализовано на базе отечественного дистрибутива распределенной платформы хранения Arenadata Hadoop. Для решения задач сбора, передачи, трансформации и накопления данных были использованы сервисы Apache Kafka, Apache NiFi и Apache Hive.Как с помощью EvaProject и EvaWiki построить прозрачную бесшовную среду для успешной работы крупного холдинга

Компания НЛМК определила стратегию, затем специалисты ИТ-компании разработали и реализовали техническое решение на платформе Arenadata Hadoop. Внедренная платформа САДиМ класса решений Data Lake собирает данные, предоставляя информацию о производственных и технологических процессах моделям машинного обучения.

Специалисты настроили регулярную выгрузку данных в «озеро данных» из 70 источников (датчиков, а также MES и АСУ ТП), а также загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Емкость построенного «озера данных» составляет 300 терабайт.

В рамках проекта команда подрядчика разработала для НЛМК модель унифицированной витрины данных, реализовала управление мета-данными средствами Apache Atlas (тэгирование, поиск и т.д.) и настроила централизованную ролевую модель, интегрировав ее со службой каталогов Active Directory. Это дало возможность дата-саентистам максимально оперативно получать в Data Lake доступ к нужным им данным.

Для контроля работы Data Lake настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также автоматизирован контроль целостности и полноты данных. Для особо важных и уязвимых данных создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.