Telegram VK YouTube Dzen RuTube
Назад

Al-тренер и NLP-инженер – кто и как обучает искусственный интеллект

Профессиональным тренером ИИ можно стать, будучи ещё школьником

Al-тренер – это педагог, который «очеловечивает» искусственный интеллект. Он учит нейросеть распознавать объекты и грамотно отвечать на вопросы пользователей. Главная задача – убрать ощущение диалога с роботом. На сайтах по поиску работы теперь без труда можно отыскать вакансии таких специалистов.

 

Очевидно, что в дальнейшем их будет требоваться всё больше и больше.

 

Как именно проходит обучение и к каким хитростям прибегают специалисты, рассказывает Дмитрий Устинский – эксперт Центра компетенций по нормативному регулированию цифровой экономики РФ, резидент МПГУ и МФТИ и директор IT-бункера.

 

– Дмитрий, что входит в обязанности специалиста по обучению нейросетей?

 

– Задача тренеров искусственного интеллекта не такая уж и сложная. Мы используем уже готовые алгоритмы и программы в Интернете, через которые прогоняем дата-сеты. Дата-сеты – это картинки, голосовые файлы, данные в виде цифр и наборов текста.

 

По сути, нам нужно помочь «младенцу» начать ходить. «Младенец» уже имеет некий набор исходных данных, нам нужно подготовить для него и представить новую задачу. Для того, чтобы обучить ИИ какому-то действию, нужно несколько раз прогнать через него команды.

 

Например, нужно научить нейросеть распознавать велосипед. Тренер нейросетей берёт примерно тысячу картинок разных велосипедов, выделяет их в рамочку и подбирает веса. Веса – это процент количества попыток обучения, некоторые параметры и отдельно – картинки для обучения. Нейросеть может сама себя проверять. Чем грамотнее будут выставлены веса, тем лучше получится результат.

 

Но нейросеть можно и переучить. Если неграмотно рассчитать веса, то в какой-то момент произойдёт сбой, после чего нейросеть будет видеть велосипеды там, где изображены машины. Такие моменты нужно отлавливать и исправлять. Результат работы – файл с готовым алгоритмом, который можно применять в разных областях.

 

Дмитрий Устинский – разработчик образовательных решений по робототехнике, нейротехнологиям, искусственному интеллекту и машинному зрению

 

– Почему ChatGPT стал таким популярным?

 

– Раньше был DOS – чёрный экран с бегающими буквами. Вводишь команду и получаешь ответ. До 2022 года для обучения нейросети нужно было вводить код на Python и расставлять «веса». Ответ получали тоже в виде текста. ChatGPT сделали классную штуку – они визуализировали то, что крутится внутри нейросетки. Получился такой чат в стиле Telegram. Отправляешь запрос и получаешь ответ.

 

–  И какие возможности у таких чатов?

 

– В ChatGPT загрузили много данных: книг и другой информации на разных языках мира. Всё, что было, то и заложили. Но есть ограничение. Эта нейросеть знает только то, что произошло до 2022 года. Она не в курсе, что происходит сейчас, так как эти данные не заложены. Нейросеть нужно постоянно обучать.

 

Кроме того, её ответы не были похожи на человеческие. Тогда создатели пригласили педагогов, которые «очеловечивали» её ответы. Например, говорили: «Скажи по-другому, используй такой-то оборот». В этом участвовали около 200 человек. «Яндекс» сейчас набирает людей для этой же цели.

 

– Сколько нужно времени, чтобы стать тренером нейросети?

 

– Это не заучивание учебников и не материал, который требует расчёта. На самом деле, дети знакомятся с подобными технологиями с пяти с половиной лет. Такие программы включены в работу технопарков «Орбиталь». То есть в 16 лет ребёнок уже может попасть на стажировку в компанию и стать профессионалом.

 

Это достаточно творческая профессия. Главное – правильно расставлять веса и составлять базу данных. Если заниматься каждый день, то уйдёт примерно две недели, чтобы разобраться на базовом уровне. Этих знаний будет достаточно, чтобы начать тренировать нейросеть. А дальше – практика.

 

Кстати, видели такие тесты с картинками, где нужно доказать, что ты не робот? Нажимаешь на все квадраты со светофорами, например, и тебя пускают на сайт. Один программист придумал это, чтобы научить искусственный интеллект распознавать объекты. Облегчил себе работу. Таким образом, мы – все пользователи Интернета – обучаем нейросеть.

 

– Возможно ли полностью и навсегда обучить искусственный интеллект?

 

– Искусственный интеллект не может быть умнее человека. Потому что учим его мы сами и вкладываем наши знания. Его плюс в том, что он не хочет есть, спать и обрабатывает огромное количество информации. Но он будет пользоваться только теми данными, которые мы в него вложили.

 

ИИ – это среднестатистический человек. Он может давать неправильные ответы и ошибаться. Мы движемся к 100 % точности, но есть критический пик во время расставления дата-сета, где может быть небольшой процент ошибок.

 

Полностью доверять ИИ нельзя. Это лишь полезный инструмент. Например, чтобы подтвердить или опровергнуть диагноз, который поставил искусственный интеллект, нужен врач, ведь его опыт – очень важная составляющая. И так во всех сферах, где используется ИИ. Я думаю, что в будущем создадут правовую базу для работы с искусственным интеллектом.

 

Есть ещё одна профессия, которая связана с обучением нейросетей – NLP-engineer. NLP-инженер – это почти тот же Аl-тренер, но более продвинутого уровня. Список обязанностей у NLP шире: он должен разбираться и в лингвистике, и в математике. Такой инженер не только обучает модели, но и внедряет их в пользовательскую систему. Он должен знать основы программирования и уметь работать с большими объёмами информации.

 

Рассказывает NLP-инженер Амир Гатауллин.

 

– Мы собираем корпус текста, чтобы обучить нейросеть отвечать, как служба поддержки. То есть модель должна давать ответ на запрос клиента. Например, у клиента потерялась карта, и он задаёт в чат вопрос на эту тему. Мы учим нейросеть правильным ответам.

 

Я собираю и подготавливаю данные так, чтобы модель могла их принимать. Также создаю некоторые программы. Иногда мне нужно выбрать вид модели под определённую задачу. Их много. Кстати, самая популярная модель в сфере NLP-инженеринга – «Трансформер».

 

«Трансформер» – это кодировщик и раскодировщик информации. Например, пользователю нужно пообщаться на немецком языке, но он не знает его. Тогда он посылает запрос модели на родном языке, а она ему отвечает уже на немецком.

 

Есть ещё две базовых модели: «Альпака/ Лама» и ChatGPT 3.5. Думаю, что такое название подбирали специально. Хотя LLaMA – это аббревиатура.

 

– Что нужно, чтобы стать NLP-инженером?

 

– Часто сталкиваюсь с выгоранием людей на этой работе. Искусственный интеллект – сфера, где нужно много и активно читать. И постоянно изучать новое. В неделю я могу прочитать 15-20 статей. На работе в любой момент может прилететь новая задача, и в ней придётся разбираться.

 

Ещё нужно знать базу программирования. А ещё – иметь дорогое оборудование для продвинутого развития и запуска программ. На обычном запускаются не все. Финансы – главный минус.

 

Кстати, многие говорят, что постоянно сидеть за компьютером тяжело. Но я считаю, что это зависит от темперамента.

 

– Сколько платят NLP-инженерам?

 

– Есть профессиональная градация: джуниор – начинающий, миддл – продолжающий и сеньор – старший. Джуниорам платят до 120 тысяч рублей, но высшую планку назначают очень редко – в основном, если компания богатая. Миддлы получают от 120 до 250 тысяч рублей. Сеньоры – 350 тысяч рублей, а в лучшем случае – 600. Есть ещё уровни.

 

– Легко ли найти работу в данной сфере?

 

– Профессия NLP-инженера в сфере искусственного интеллекта достаточно популярна, но устроиться на неё тяжело. Можно какое-то время обходиться некоторым определённым набором знаний, однако если требуется сделать что-то качественное, то придётся применять различные методы. То есть, чтобы справиться с конкретной задачей, нужны практические навыки. Новичкам в этом плане тяжело. К тому же следует разбираться в математике и программировании.

 

Советы начинающим от экспертов:

 

  1. Пройдите открытый курс по машинному обучению от Юрия Кашницкого. Курс представлен на русском и английском. В нём содержатся 10 лекций и домашних заданий. Очень хорошая база. Единственный минус – может быть что-то непонятно по математике именно в сфере искусственного интеллекта.

 

  1. Некоторые говорят, что математика не нужна, но это не так. Вы выглядите как обезьяна, которая бесполезно тратит своё время, если не можете теоретически с помощью математики доказать какую-то задачу.

 

  1. После прохождения курса от Юрия Кашницкого стоит пройти другой бесплатный курс по NLP и компьютерному зрению от МФТИ.

 

  1. Следите за обновлениями.

 

  1. Верьте, что любую идею в сфере искусственного интеллекта вы сможете воплотить в реальность.

 

 

Беседовала Елизавета Андреева