Сегодня искусственный интеллект стал частью нашей повседневности, но пока он далеко не безупречен. О том, как учёные ищут слабые места и уязвимости нейронных сетей ради их эволюции и безопасности, на лекции в Ельцин Центре рассказал кандидат физико-математических наук, старший преподаватель Сколтеха Алексей Зайцев.
Учёный Алексей Зайцев руководит лабораторией Центра прикладного искусственного интеллекта Сколтеха, которая занимается как прикладными, так и фундаментальными задачами в области ИИ. Лекция эксперта «Как обмануть искусственный интеллект?» 25 апреля завершила совместный курс Ельцин Центра и Сколковского института науки и технологий, стартовавший в конце января.
— Когда говорят про искусственный интеллект, то имеют в виду такие нейронные сети, которые довольно большое количество задач умеют решать лучше среднего человека, — отметил Зайцев. — Уже сейчас на уровне эксперта они распознают картинки, понимают речь и пишут тексты. Сейчас мы живём в золотую для искусственного интеллекта эпоху, когда у нас получилось решить примерно вообще все задачи, связанные с его обучением, которое сейчас занимает не более одного месяца.
Характерный пример — это Google Translate. Если ещё 15-20 лет назад этот сервис при переводе с русского языка на английский зачастую искажал смысл и выдавал довольно топорные предложения, то сегодня на основе нейронных сетей он работает лучше человека, особенно если это касается бытового общения и специальных технических текстов.
Пример уже универсальной языковой модели искусственного интеллекта — ChatGPT, созданный компанией OpenAI. Такую модель можно использовать для решения различных задач с небольшими дополнительными усилиями. По словам Зайцева, на обучение модели ChatGPT-3, представленной в 2020 году, было потрачено $5 миллионов, у неё было 175 миллиардов обучаемых параметров и в процессе обучения ей было показано 45 терабайт сжатого текста из интернета.
— Сейчас в современных моделях десятки и сотни миллиардов параметров, а в топовых — уже даже полтора триллиона, и в целом это примерно соответствует тому, сколько у человека нейронов. Однако если у нас насчитывается 86 миллиардов только нейронов, то нейронных связей ещё больше. Нейронная сеть человека намного превосходит ту, что есть сейчас внутри машин, поэтому искусственному интеллекту ещё есть куда расти, — подчеркнул учёный.
А поскольку искусственный интеллект определённые задачи уже выполняет лучше человека, то такие модели активно используются в самых различных индустриях. К примеру, в приложениях для смартфонов очень много решений принимается на основе нейронных сетей: в почте есть фильтрация спама, а камера с помощью нейросети обрабатывает картинки.
— Искусственные нейронные сети, обучаясь на большом количестве данных, сегодня умеют выделять некоторую «суть» объектов, и мне кажется, что это довольно близко к тому, что они «думают». Но можно ли обмануть искусственный интеллект?
Нейронные сети — всего лишь мощный инструмент обработки данных, у которого есть свои недостатки. Их структура устроена определённым образом, поэтому их легко обмануть небольшими «возмущениями», искажениями на входе. Так, если к исходному изображению панды, которое распознаётся с вероятностью 57,7 процента, подмешивается специально подобранный «шум», невидимый человеком, но замечаемый нейросетью, то в результате она идентифицирует картинку с пандой как изображение гиббона с вероятностью 99,3 процента.
Второй после классической «атаки на входе» вариант — так называемая one pixel attack, которая также заставляет нейросеть выдать некорректный ответ. Определённый пиксель способен изменить изображение так, чтобы нейросеть стала неправильно классифицировать изображение. По словам Зайцева, изменение цвета одной точки в изображении корабля приводит к тому, что с точки зрения нейронной сети она видит автомобиль, а изменённое в одном пикселе изображение лошади с очень высокой вероятностью распознаётся как лягушка.
Ещё один пример цифровой атаки — это «отравление» обучающей выборки. При ней ошибка закладывается на этапе обучения искусственной нейронной сети, поэтому злоумышленники заранее знают, как её обмануть.
Осуществлять подобные атаки на различные модели нейросетей позволяет многообразие изображений и текстов, поэтому так легко найти объекты, которых нет в обучающей выборке, а в самой структуре искусственного интеллекта не составляет труда отыскать, как изменить объект, чтобы получить искажённый результат, отметил Зайцев.
— Злонамеренное прикладное применение нейросетевых атак — влияние на системы распознавания лиц. Есть мы хотим обмануть такую систему, то можем приклеить на лоб какой-либо стикер, надеть специальную футболку, нанести камуфляжный грим или посветить лазером в камеру распознающей системы, в итоге нейронная сеть получит нетипичное изображение на входе и может выдать внезапный результат. Например, опознает того, кто изображён на футболке, или вообще примет вас за кто-то другого.
По словам учёного, цифровая атака — это первая и самая простая идея, которая позволяет реализовывать обман нейронной сети. Но есть и более сложный вариант — это атаки в физическом мире. К примеру, при обучении нейросети показывают дорожные знаки «Стоп» и «Ограничение скорости», но если на знак «Стоп», стоящий на трассе, специально наклеить какой-либо белый стикер, то искусственный интеллект в системе автопилота может принять его за знак «Ограничение скорости» и продолжит движение автомобиля.
Зайцев отметил, что современные языковые модели искусственного интеллекта — СhatGPT или GigaChat — имеют довольно много ограничений: от генерации запрещённого контента до выполнения действий, противоречащих этическим политикам компаний-разработчиков или даже стран. Однако существуют способы обхода таких ограничений, наложенных на языковую модель. Это можно сделать как вручную, используя специальным образом сформулированные или придуманные запросы, так и с помощью определённых алгоритмов.
— Если мы хотим взломать языковую модель искусственного интеллекта, заставить её говорить что-то запрещённое или классифицировать всё как положительное вместо отрицательного, то это вполне можно делать, ломая модель даже не генерации текста, а модель классификации. Второй вариант — это попытаться выучить и использовать ещё одну генеративную модель, которая будет генерировать какие-то злонамеренные примеры, и они уже будут неправильно классифицироваться исходной нейронной сетью. В целом, несмотря на то, что современные модели искусственного интеллекта довольно умны и хороши, они уязвимы для этих атак.
Новые языковые модели искусственных нейронных сетей появляются практически ежедневно, и построить универсально защищённую модель вполне возможно, — но за это разработчикам придётся заплатить некоторую цену, резюмировал учёный. И именно поэтому наверняка есть определённый предел, определённая точка, после которой такая задача людям станет уже не интересна, они сочтут, что искусственный интеллект работает вполне нормально и больше улучшать его уже не нужно.