2022/08/17 22:13:46

Разметка данных
Data labeling

Мировой рынок машинного обучения растет со скоростью примерно 50% в год. В 2018 году его объем составил 1,8 млрд долл., а на 2023 год он оценивается суммой почти в 20 млрд^[1]. Сюда включаются не только очевидные составляющие - аппаратное и программное обеспечение, сервис, но и качественно новый тип производства, получивший название data labeling или разметка данных. Подробнее о появлении этого термина и применении подобных операций – в материале, подготовленном специально для TAdviser журналистом Леонидом Черняком.

Послушайте 6-и минутный рассказ о разметке данных в нашем подкасте:

Содержание

Разметка данных в России
- 2022: Российский рынок разметки данных вырос на 70%
- 2020: Сбербанк заплатит 400 безработным Кавказа за просмотр и разметку картинок с едой
Робототехника
Примечания

Появление data labeling связано с необходимостью подачи на вход систем обучения больших объемов специально подготовленных данных. Говоря об этом чаще всего ограничиваются простой констатацией того факта, что Big Data служит основой машинного обучения. При этом, объем сегмента data labeling, по данным Cognica Research, в 2023 году достигнет 1,2 млрд. долл^[2].

Потребность в индустрии разметки связана с тем, что практическое значение имеет не некий абстрактный AI (Artificial Intelligence или Искусственный интеллект), а его вполне практически ориентированное подмножество, называемое той же аббревиатурой AI, но от Augmented Intelligence, то есть ИИ, усиливающий возможности человека. К Augmented Intelligence относят задачи распознавания изображений, работу с текстами на естественных языках, управление транспортными средствами и т.д. Всем этим приложениям AI для работы требуется информация о внешнем мире.

Суета вокруг разметки данных позволяет заново переоценить мудрость выражения математика Клива Хамби, сказавшего в 2006 году «Data is the new oil» («Данные новая нефть»). Эту мудрость подтвердил журнал Economist в опубликованном в 2017 году отчете «The world’s most valuable resource is no longer oil, but data» («Теперь самый ценный ресурс в мире не нефть, а данные»). Но сырые данные, как и сырая нефть, сами по себе не имеют потребительской стоимости, в этом их главное сходство. Для превращения нефти в горючее, масла и другие полезные продукты создана гигантская нефтеперерабатывающая промышленность. Самую большую прибыль поучают не нефтедобывающие страны, а мировые концерны, специализирующиеся на переработке нефти. Аналогичную процедуру необходимо проделывать и над данными, чтобы превратить их в товар. Но, в отличие от нефти, пока средств для автоматизации предварительной обработки данных нет и в обозримом будущем не будет, поэтому эту нудную работу вручную будут выполнять низкоквалифицированные работники (handmaid data labeling). Их можно назвать «синими воротничками» индустрии машинного обучения, которая до сих пор была представлена исключительно «белыми воротничками». Рабочие индустрии должны выполнять вручную огромный объем работы. Например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса.

У Китая есть очевидный шанс стать супер монополистом в области data labeling. Страна располагает необходимым количеством высококвалифицированных специалистов, здесь выработаны государственные программы по развитию ИИ, и в то же время наличествует неограниченное количество желающих на роль исполнителей низкого уровня. Они работают надомно или в стесненных условиях на так называемых «фабриках разметки» (tagging factories), получая чрезвычайно низкую заработную плату - менее полутора долларов в час.

У Китая есть очевидный шанс стать супер монополистом в области data labeling

Типичным примером фабрики разметки служит компания Mada Code^[3], насчитывающая более 10 000 надомников, выполняющих разметку данных для задач оптического распознавания (Optical Character Recognition, OCR) и обработки текстов на естественных языках (Natural Language Processing, NLP). Среди ее клиентов крупные компании, в т.ч. Microsoft, и университеты. Ее руководитель сказал:

Мы строительные рабочие цифрового мира, мы кладем кирпич на кирпич, но играем заметную роль в ИИ. Без нас невозможно построить небоскребы.

Несмотря на то, что разметка, казалось бы, тривиальная операция – внесение в изображение или текст тэгов, в этих словах содержится глубокий смысл. В процессе разметки производится качественное преобразование - сырые данные дополняются метаданными и превращаются в информацию. Самое утилитарное определение информации звучит следующим образом «Информация – это данные плюс метаданные»^[4].Кейс «Авито»: как прошла миграция баз данных 1С с Microsoft SQL Server на Postgres Pro Enterprise 2.3 т

Технологии и языки разметки изображений явление новое, первые публикации на эту тему относятся к 2016 году. Идея же разметки текстов намного старее - она родом из полиграфии. Первыми языками разметки были корректурные знаки, вносимые в рукописи. Настоящий переворот в разметке совершил Чарльз Гольдфарб, исследователь из IBM, которого называют «отцом современных языков разметки». Он создал язык Generalized Markup Language (GML), который понимала машина, а не наборщик. Создатель WWW Тим Бернерс-Ли использовал этот язык в качестве прототипа для создания языка разметки гипертекстов HTML, используемого в первом проекте WWW. В середине 90-х другой британец, Йон Борсак, предложил свою версию языка «SGML для Web». Разработка рабочей версии нового языка осуществлялась в 1996 году силами рабочей группы, насчитывавшей 11 человек, а возглавлял ее известный эксперт в области программирования в открытых кодах Джеймс Кларк. Именно он и переложил принятое сейчас название — XML. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging), и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки тестовых тестов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.

Все эти технологии разметки объединяет то, что они позволяют превратить данные в информацию. Потом эта информация станет источником знаний в приложениях, попадающих под определение ИИ, выполняя следующую функцию intelligencе, суть которой заключается в превращении информации в знания.

Наличие этой естественной технологической цепочки отличает машинное обучение от символического подхода к ИИ с его искусственными попытками перенесения человеческих знаний в машину. Возможно когда-то разметка будет автоматизирована, но для этого нужны качественно новые сенсоры и средства для работы с текстами. С их появлением нынешние технологии работы с данными, повсеместно и ошибочно называемые информационными, станут информационными в полном смысле этого слова.

Разметка данных в России

2022: Российский рынок разметки данных вырос на 70%

Российский рынок разметки данных вырос в 2022 году на 70% и составил 1,6 млрд рублей. Об этом компания АБК сообщила 17 августа 2022 года.

При этом количество пользователей, зарегистрированных на специализированных площадках по разметке данных, в первой половине 2022 года выросло на 60%. Годом ранее темпы роста были ниже – 20%.

В частности, существенный прирост пользователей на площадке Elementary произошел за счет самозанятых. На август 2022 года на их долю приходится 85% всех пользователей платформы. Это стало возможно благодаря подключению бесплатной услуги от Сбербанка для корпоративных клиентов - «Реестровые выплаты самозанятым в рамках зарплатного проекта». За счет нее реестровые зачисления денежных средств на счета самозанятых совершаются быстро, а чеки самозанятых формируются автоматически. Пользователю площадки - физическому лицу – нужно только получить статус самозанятого (плательщика налога на профессиональный доход) через сервис «Своё дело» в мобильном приложении СберБанк Онлайн или просто подключить данный сервис, если пользователь уже зарегистрирован как самозанятый в ФНС или другом банке. Регистрация в сервисе занимает всего нескольку минут.

В конце 2021 года в Elementary провели пилот по привлечению к работе по разметке данных сотрудниц ряда территориальных отделений Сбера, находящихся в декретном отпуске. За первые 3 дня пилота на площадке зарегистрировалось более 1 тыс. человек. На август 2022 года декретницы составляют 10% разметчиков, занятых на площадке. Еще 5% приходится на маломобильных граждан и матерей детей с инвалидностью.

С развитием рынка искусственного интеллекта, ростом востребованности и популярности AI-решений, растет и потребность в разметке данных, необходимых для обучения высококачественных моделей машинного обучения. На специализированных площадках, таких как Elementary, ежедневно размечается сотни тысяч данных и для людей, занимающихся этой работой, это хорошая возможность для дополнительного заработка. А возможность работать из дома и в свободном графике особенно важна для женщин в декрете и малоподвижных граждан. Создавая нашу платформу, мы изначально задумывали ее как отчасти социальный проект и видим, что наши ожидания оправдались, - отметил руководитель площадки Elementary Дмитрий Теплицкий.

В 2022 году пилот по привлечению к работе по разметке данных сотрудниц в декрете масштабируется на весь Сбер.

2020: Сбербанк заплатит 400 безработным Кавказа за просмотр и разметку картинок с едой

11 сентября 2020 года Сбербанк сообщил TAdviser о предоставлении безработным жителям семи регионов Северо-Кавказского федерального округа (СКФО) возможность зарабатывать на платформе разметки данных TagMe.

В частности, безработным жителям регионов Северного Кавказа и тем, кто нуждается в подработке, будет предложено заняться разметкой аудиозаписей и изображений еды для ряда проектов SberAI в области распознавания речи и компьютерного зрения. На первом этапе в проекте примет участие до 400 жителей СКФО. Если «пилот» окажется успешным, он может быть масштабирован, в том числе и в других федеральных округах. Подробнее здесь.