В ответ на бум технологий искусственного интеллекта и неутихающие бурные споры вокруг их применения Ельцин Центр и Сколковский институт науки и технологий предложили четырём известным учёным рассказать екатеринбургской публике о новейших исследованиях и открытиях в этой области в рамках нового цикла лекций.
Первая лекция, с которой 30 января в Ельцин Центре профессор Сколтеха, руководитель Центра прикладного искусственного интеллекта, доктор физико-математических наук, руководитель научной группы AIRI Евгений Бурнаев, получила название «Нейросети и творчество». Её главной темой стал генеративный искусственный интеллект и то, как его сегодня пытаются применять, чтобы повысить эффективность творческого процесса.
Профессор, отметил, что люди давно начали пытаться найти применение достижениям науки и техники в искусстве, «автоматизировать» создание образов, а в век компьютеров с этой целью начали использовать различные вычислительные возможности, комбинируя математические формулы, теорию вероятности и машинное обучение (ML) — подраздел искусственного интеллекта.
Так, ещё на заре компьютерной эры, в 1965 году, программисты Майкл Нолл и Бела Хулес создали алгоритм, способный генерировать шаблоны из случайных точек, и даже провели выставку генеративного искусства. Одним из пионеров в области цифрового искусства стал художник Манфред Мор, который в начале 70-х годов прошлого века представил цикл работ в жанре кубизма, написанный на языке программирования FORTRAN IV, а математик и философ Георг Нис в этот же период начал создавать генеративную графику уже в цвете.
— Примечателен тот факт, что люди искусства сразу стали активно использовать первые компьютерные инструменты в своей работе в поисках чего-то нового, в попытках создавать какие-то нетривиальные формы и образы. За созданием разного рода узоров и даже более сложных графических картинок, созданных не руками человека, уже стоял конкретный математический алгоритм, и это не было чудом или сказкой. Однако рисовать какие-то сложные цифровые картины в то время не позволяли имеющиеся вычислительные алгоритмы и мощности. Развитие генеративного искусства приостановилось до поры, пока не возник определённый набор методов искусственного интеллекта.
По словам Бурнаева, интерес к процессу имитации того, как человек рассуждает, возник в середине прошлого века. В США и СССР сложились междисциплинарные научные группы, куда входили нейрофизиологи, психологи, математики и кибернетики. В результате этих исследований стали появляться разные концепции, например математическая концепция персептрона — простая модель искусственной нейронной сети, используемая для классификации входных данных. Она была разработана Фрэнком Розенблаттом в 1957 году и являлась основой для более сложных моделей нейронных сетей.
— Примерно в 90-х годах, одновременно с появлением достаточно мощных компьютеров, возникают первые поколения нейросетей, которые позволили уже решать какие-то определенные полезные инженерные задачи. При этом следует понимать, что нейросети не имеют никакого отношения к тому, как устроен мозг человека. Это как сравнивать птицу и самолет — оба летают, но принцип действия у них разный. Хотя некоторые базовые идеи, конечно, подсказаны физиологами, которые анализировали работу живых систем.
Однако потенциал первого поколения нейросетей в какой-то момент был исчерпан, и снова наступила «зима искусственного интеллекта», продлившаяся примерно до 2014 года, когда появилось второе поколение нейросетей — «глубокие нейросети» (Deep Network). В октябре 2018 года аукционный дом Christie’s в Нью-Йорке впервые продал картину, созданную такой нейронной сетью.
В эпоху нейронных сетей и обилия данных генеративное искусство выходит за рамки графических редакторов, а для создания произведений искусства особенно часто используются генеративно-состязательные сети (GAN). Они обычно состоят из двух нейросетей, противопоставленных друг другу, чтобы обе лучше обучались. Эти нейросети уже используются в различных областях и обладают огромным потенциалом. С каждым годом их функционал расширяется, они становятся более точными и эффективными.
— Как только люди увидели возможности генеративных моделей, то их, естественно, стали сразу применять как некое подспорье художники, создающие мультфильмы и аниме, дизайнеры, придумывающие новые шрифты, они стали использоваться в качестве базовой структуры для создания более сложных произведений искусства и даже оцифровки старых чертежей.
В 2015 году учёные в Германии предложили ещё один интересный способ их применения — нейронный перенос стиля (NST). Его идея состоит в том, чтобы взять определённый образец и переделать его в стиле какого-нибудь другого изображения. Например, оформить картину Леонардо да Винчи «Мона Лиза» в стиле полотен Ван Гога или Пикассо.
Однако у этой медали есть и обратная сторона. Нейросети стали использовать и для создания поддельного аудио, фото или видео. Так человечество столкнулось с дипфейком. И если поначалу в социальных сетях генерировались реалистичные смешные изображения и звук, то впоследствии появились провокационные или порочащие фотографии и видео, а в перспективе технологии дипфейка грозят стать дополнением к арсеналу киберпреступников.
Бурнаев отмечает, что в области искусственного интеллекта сейчас началась битва «брони и пули», поскольку стали появляться специальные методы, которые позволяют находить дипфейки, определять, что в видео, аудио или фото определённым образом вмешались с помощью нейросетей.
Также благодаря искусственному интеллекту появилось множество способов и возможностей для обработки изображений и их генерации. Но на деле оказалось, что всё не так просто и идеально. На картинках, сгенерированных нейросетями, можно встретить шесть или даже восемь пальцев на руке человека.
— Конечно, это такой крайний случай, но он очень характерный, поскольку нейросеть — это сложный супернелинейный алгоритм, и очень трудно контролировать то, насколько он реалистично сгенерировал объект, создал его отвечающим всем типичным характеристикам. Поэтому если меня спрашивают, когда человечество захватит искусственный интеллект, и насколько он опасен, я обычно привожу в пример подобные картинки и на этот счёт иронизирую. Я не опасаюсь этих проблем. Скорее, проблемы у нас могут быть другого толка, но они, как обычно, связаны с человеком.
По словам Бурнаева, в настоящее время учёные активно работают над «оцифровкой естественного языка», пытаясь научить компьютер обращаться с текстом так, как это делает человек, осознавать слова так же, как цифры. Это открывает новые возможности для того, чтобы обрабатывать текст одновременно с картинками.
— Когда мы из интернета можем скачать огромные массивы текстов и изображений, которые этим текстам соответствуют, то мы можем научить нейросеть понимать, что некий конкретный текст лучше всего соответствует определённому изображению. На основе этой идеи компанией OpenAI была разработана нейронная сеть, которая носит аббревиатуру CLIP. Эта разработка легла в основу создания ChatGPT — бота, которого уже сложно отличить от человека. В 2022 году появилась система гораздо более высокого качества, позволилившая не просто генерировать картинку по текстовому запросу, но и дополнять её. То есть эта нейросеть может уже создать версию «Моны Лизы» в полный рост.
Генерировать картинки можно не только при помощи GAN, ставя соответствие между текстами и картинками, но и использовать для этого случайные процессы, подчеркнул Бурнаев. Например, цену акций в зависимости от времени или физические показатели, такие как температура. Для этого существуют специальные математические модели, которые описываются уравнениями диффузии.
— Этот способ оказался гораздо более продуктивным с точки зрения качества получаемых результатов. Как только учёные поняли, что так можно делать, сразу появилось большое количество разработчиков, которые стали такого рода инструментарий изготавливать и предоставлять пользователям в различных бизнес-приложениях.
Исследования подобного типа ведутся и в России, есть несколько крупных компаний и научных организаций, которые занимаются как разработкой алгоритмов, так и обучением соответствующих моделей. В частности, AIRI и Сбер, который выпускает модели в линейке Kandinsky. Технически это очень сложные нейросети с огромным числом параметров и преобразований, которые могут учиться.
— Мы видим, что современные нейросети — это инструменты, которые могут ускорить, повысить качество, внести некое разнообразие и дать художнику возможность более интересным образом творить. И лишь от людей зависит то, как они используют творческий потенциал искусственного интеллекта в создании произведений искусства.