Владислав Горбунов: как ИИ поменял мир за три года

В конце 2022 года появление ChatGPT сделало технологию искусственного интеллекта (ИИ) массовым и повседневным инструментом. С тех пор модели не просто стали умнее — они научились видеть, слышать, рассуждать, пользоваться внешними сервисами и выполнять задачи за человека. О том, какой путь прошла отрасль за минувшие три года, рассказал на лекции в Ельцин Центре в Екатеринбурге Владислав Горбунов — руководитель AI-направления Института прикладных компьютерных наук ИТМО и руководитель магистратуры AI Product.

Его выступление 9 апреля открыло совместный цикл Ельцин Центра и Национального исследовательского университета ИТМО «Естественные проблемы искусственного интеллекта», в рамках которого технологии ИИ рассматриваются не столько с инженерной, сколько с социально-прикладной точки зрения — через их влияние на образование, медицину, общество и этику.

Две «зимы» и одна «весна»

«Сам термин „искусственный интеллект“ предложил в 1956 году американский информатик Джон Маккарти, но первые математические подходы к задаче были заложены ещё раньше — в 1943-м, — начал лектор. — Нейрофизиолог Уоррен Маккалок и логик Уолтер Питтс опубликовали статью „Логическое исчисление идей, имманентных нервной активности“ (A Logical Calculus of the Ideas Immanent in Nervous Activity). Они предложили первую математическую модель нейронной сети, показав, что искусственные нейроны могут выполнять логические операции».

Отрасль пережила две «зимы»: сначала не хватало вычислительных мощностей, позже — данных. Символическими маркерами возвращения интереса к теме стали победы алгоритмов в играх. Первый шахматный автомат El Ajedrecista (исп. «Шахматист») был построен ещё в 1912 году испанским инженером Леонардо Торресом-и-Кеведо. Однако вплоть до 1996 года в большинстве игр у человека оставалось преимущество. Перелом наступил в 1997-м, когда Deep Blue обыграл действовавшего на тот момент чемпиона мира. В 2016 году AlphaGo победила чемпиона по игре го. Затем модели одолели человека в покер и в соревнованиях по Dota 2.

Долгое время алгоритмы решали простые задачи — например, определяли, пришло ли письмо со спамом. Следующий шаг — машина, пытавшаяся предсказывать следующее слово в последовательности, — получился довольно посредственным. Настоящий сдвиг случился в 2015–2017 годах, когда стал активно развиваться механизм внимания: модели научились определять, как на каждое слово в предложении влияют остальные слова и контекст.

Учёные поняли, что, если обучить такую архитектуру на огромном корпусе текстов — всей «Википедии» и не только, — она начнёт гораздо лучше предсказывать следующее слово. Так появились первые большие языковые модели, а следом за ними — генеративные предобученные модели-трансформеры (Generative Pre-trained Transformers, GPT).

В 2020 году компания OpenAI выпустила GPT-3 — модель, которая уже сама обобщала и решала новые задачи без дообучения. А в ноябре 2022-го мир увидел ChatGPT. Впервые массовый пользователь получил возможность общаться с большой языковой моделью, а разработчики — колоссальный поток человеческой обратной связи. Всего за два месяца продукт набрал более ста миллионов пользователей.

От предсказания слов к рассуждению

В 2022 году модели ещё не умели проверять достоверность собственных ответов. Простейший пример — сложение «241 + 241» могло дать неверный результат, потому что модель не обращалась к калькулятору. Многие задавались вопросом: не является ли большая языковая модель просто «Т9 на стероидах»?

По словам Владислава Горбунова, ответ — «и да и нет». Модель действительно предсказывает следующее слово, но делает это с учётом смысла всей цепочки, оценивая вероятности для каждого кандидата. Разработчики научились управлять вариативностью ответа: если всегда выбирать наиболее вероятное слово, тексты получаются скучными. В итоге современные модели способны, например, написать инструкцию к пылесосу в стихах в стиле Тютчева — задача, которую «Т9» никогда не сможет выполнить.

Следующим важным рубежом стала мультимодальность, пришедшая вместе с GPT-4. Модели научились воспринимать не только текст, но и изображения, аудио, распознавать звуки, даже если в записи нет человеческой речи. Объём контекста вырос с двух тысяч слов до величины, позволяющей загрузить целую книгу. Одновременно расширился языковой охват — последние модели свободно работают примерно с сотней языков.

В начале 2025 года своё веское слово сказала китайская компания DeepSeek, выпустившая рассуждающую модель R1. Именно в это время в отрасли закрепился механизм, получивший название reasoning: модель научилась раскладывать запрос на набор задач, определять порядок их выполнения, рассматривать альтернативные сценарии, оценивать собственные ответы и при необходимости их корректировать.

«Эти модели с цепочками рассуждений научились думать по шагам, как человек на экзамене. Сначала составлять план, потом выдавать решение, и это дало следующий скачок качества», — объяснил лектор.

GPT-4 уже решала олимпиадные задачи, а каждое новое поколение моделей становилось сильнее в программировании, юридическом и медицинском анализе. Модели заставляли сдавать экзамены на юристов, врачей, решать математические задачи, искать уязвимости в программном обеспечении — и сравнивать результаты на закрытых наборах тестов.

Фото: Любовь Кабалинова

01/03

«Почему искусственный интеллект вдруг оказался повсюду». Лекция Владислава Горбунова

Руки и голова: от чат-бота к агенту

В 2024 году, как образно выразился Владислав Горбунов, искусственному интеллекту «дали руки». Технически это называется «вызов инструментов» или «вызов функций». Модель научилась самостоятельно обращаться к базам данных, поисковикам, запускать калькулятор, исполнять программный код на языке программирования Python. Появились универсальные протоколы доступа к внешним сервисам — от инструментов дизайна вроде Figma до корпоративных баз знаний.

Следующим шагом стала самостоятельность. Так возник термин «ИИ-агент» — сущность, которая сама принимает решения и выполняет рациональные действия во внешней среде ради поставленной цели. Агент умеет планировать, взаимодействовать с человеком и с другими агентами на том или ином языке, обращаться к памяти и инструментам. Он может запускаться по расписанию: определять, в какой момент ему нужно выйти на связь, выполнять задачу и сохранять результат в файле или отправлять по почте.

В этой архитектуре большая языковая модель выполняет роль центрального органа — «мозга». Она определяет характер запроса, выбирает сценарий работы, запрашивает нужные данные, вызывает подходящие инструменты, пользуется внешними сервисами и обращается к постоянной памяти для сохранения промежуточных результатов. Над всем этим стоит контроллер, который запускает процессы по расписанию и следит, чтобы модель «не ленилась».

2025-й, по оценке лектора, стал стартом эпохи ИИ-агентов, а 2026-й — годом их массового распространения. Ещё одно новое явление — команды или «рои» агентов. В такой системе один агент ищет информацию в сети, второй проверяет факты и критикует, третий готовит итоговый отчёт, четвёртый — презентацию. У каждого свои инструкции и навыки. Главный агент, получив запрос пользователя, решает, кого и в какой последовательности привлечь.

Промпты, навыки, агенты

Разницу между тремя ключевыми понятиями современного ИИ Владислав Горбунов объяснил на практических примерах. Промпт — это разовая инструкция, которую приходится вводить в каждом новом чате. Навык — набор инструкций, скриптов, шаблонов и примеров, однажды сохранённый и подключаемый к модели по ключевому слову. Агент — автономная система, которая сама запускает цепочку действий без участия пользователя между шагами.

— Я, например, попросил в Claude сначала создать мне навык подготовки презентаций, — рассказал лектор. — Он задал мне ряд вопросов: какие презентации я хочу делать, как, зачем, в каком формате. Потом запустил процесс, выдал навык — уже не одним файлом, а множеством: с примерами хороших и плохих результатов, стилями, дизайном. Я всё отредактировал, сохранил, и теперь следующая моя презентация в нужном стиле делается за несколько секунд.

Ключевое отличие агента от обычного чата, по словам эксперта, состоит в том, что агенту не нужно спрашивать пользователя о промежуточных решениях — он уже знает предпочтения и настройки. Но и у такой системы есть пределы: без качественных данных, без цикла обратной связи, без выстроенного цифрового контура внутри компании внедрение ИИ обречено на провал.

«Нельзя просто так купить или подключить ИИ, чтобы он сам работал. Нужно всё равно этим заниматься, внедрять, смотреть на качество результата, оценивать, привлекать экспертов. Без этого, к сожалению, никуда», — подчеркнул Владислав Горбунов.

Картинки, видео и цифровые аватары

К 2023 году генеративные модели уже неплохо справлялись с изображениями — можно вспомнить запросы в стиле «кроссовки, вдохновлённые швейцарским сыром», или «очки виртуальной реальности Леонардо да Винчи», которые тогда активно обсуждались в сети. Российские «Кандинский» от «Сбера» и YandexART шли ноздря в ноздрю с зарубежными конкурентами. В 2024-м случился следующий скачок: модели Midjourney научились создавать изображения с качеством студийной фотографии. К 2026 году, показал лектор, модели от Google уже способны сгенерировать инфографику на русском языке практически без опечаток.

С видео до 2022 года было намного хуже: даже ролики на несколько секунд вызывали у нейросетей серьёзные сложности. Первый прорыв — Sora от OpenAI в 2024 году: фотореалистичные видеоролики. Затем стали появляться модели с открытым кодом (open-source-модели). Параллельно возникли системы, умеющие строить целые миры. Одна фотография комнаты позволяла получить её полноценную 3D-модель, по которой пользователь перемещается с помощью мыши и клавиатуры. Для генерации цифрового аватара теперь достаточно одной фотографии и пятнадцатисекундной записи голоса.

«Я загрузил свою фотку и текстом вбил, что хочу, чтобы моделька рассказала. И в бесплатной версии за пару минут сгенерировалось 30 секунд отличного видео. Мне потребовалось всего пятнадцать секунд, чтобы прочитать на английском фрагмент фразы — этого хватило, чтобы модель запомнила мой голос», — продемонстрировал возможности технологии лектор.

Одновременно развивается и распознавание речи. Банки — в частности «Т-Банк», «Сбер» и «Яндекс» — уже выпустили сервисы, обрабатывающие телефонные звонки в режиме стриминга. Появились системы, которые в реальном времени распознают речь, обращаются к памяти, формируют ответ и синтезируют его быстрее, чем пользователь успевает закончить фразу.

В ИТМО в 2024–2025 учебном году один из преподавателей запустил первый курс с ИИ-преподавателем: агент запоминал ответы каждого студента в течение семестра, вёл беседы, консультировал и проверял работы.

Новые интерфейсы: чат становится невидимым

Чат оказался первым интерфейсом взаимодействия с ИИ — но далеко не последним. В 2024 году стали активно развиваться инструменты глубокого исследования — Deep Research: агенты, которые ходят в интернет, собирают информацию и склеивают её в объёмные отчёты со ссылками на источники. По сути, это замена классическим поисковикам. Модели встроили в редакторы кода, и появились системы, где пользователь описывает спецификацию продукта, а агент уходит думать и возвращается с готовым развёрнутым решением.

В 2025 году бум переживали так называемые no-code-платформы (инструменты для создания сайтов, приложений и автоматизации процессов через визуальный интерфейс без написания кода — ред.): пользователь описывает идею — получает прототип. ИИ внедрили в Notion, Google Docs, Adobe, появились встроенные ассистенты в Microsoft Copilot, способные в реальном времени расшифровывать речь прямо на устройстве, без облака. Компания Anthropic выпустила инструмент Claude Code — агентную систему в редакторе кода, которой можно поручить, например, сделать сайт-визитку. По словам лектора, у него на это ушло пять минут против нескольких дней и 50–100 тысяч рублей, которые пришлось бы отдать разработчикам пару лет назад.

Другой продукт Anthropic — Cowork — позволяет выдать модели папку на компьютере и общаться с ней в чате: ИИ сам создаёт и редактирует нужные файлы, таблицы, презентации. Но, предупредил лектор, с такими инструментами надо быть аккуратнее: был случай, когда зарубежный студент при защите кандидатской диссертации случайно удалил себе операционную систему, попросив модель заменить ссылки на библиографию в конце файла.

Где ИИ работает уже сейчас

Искусственный интеллект существенно продвинулся в науке. Была решена задача предсказания структуры белков — за это Нобелевскую премию получили разработчики AlphaFold. Система GNoME (Graph Networks for Materials Exploration), по словам лектора, открыла около 380 тысяч потенциально стабильных кристаллических структур для новых материалов и лекарств. Один из студентов Владислава Горбунова разрабатывает сейчас решение для чтения снимков МРТ. Оно позволит ставить диагноз сразу же после обследования — без пересылки данных за пределы диагностического центра.

В медицине агенты становятся ассистентами врача: модели расшифровывают результаты анализов, предлагают сценарии диагноза и следующие шаги, оставляя итоговое решение за специалистом. В юриспруденции зарубежные юристы уже анализируют с помощью ИИ контракты, ищут противоречия, собирают судебную практику — за минуты вместо недель. В образовании модели адаптируются под скорость конкретного ученика, строят индивидуальную траекторию, объясняют сложные статьи на понятном языке. В маркетинге задачи генерации текстов, картинок и видео фактически решены.

Фото: Любовь Кабалинова

01/03

«Почему искусственный интеллект вдруг оказался повсюду». Лекция Владислава Горбунова

Экономика: гонка или пузырь?

За ИИ-бумом стоит беспрецедентный приток инвестиций. Сотни миллиардов долларов вкладываются в графические процессоры, дата-центры и стартапы, связанные с искусственным интеллектом, — больше, чем в любую другую технологию в мире. OpenAI, xAI, Anthropic привлекают десятки миллиардов долларов, хотя операционно большинство этих компаний всё ещё работает в убыток. США ужесточают экспорт чипов, Китай форсирует собственные разработки — компания Huawei выпускает видеокарты, конкурирующие с продукцией NVIDIA.

Индустрия уже ощущает побочный эффект. Ближайшие несколько лет, предупредил лектор, могут привести к кризису оперативной и постоянной памяти: производителей стало на одного меньше, а основные заказы идут от дата-центров. Цены на память в розничных магазинах уже выросли в два-три раза.

В открытой экосистеме тем временем идут свои прорывы. DeepSeek V3, по словам разработчиков, была обучена примерно за 5,5 миллиона долларов — в сотни раз дешевле аналогов; та же компания выпустила первую рассуждающую модель уровня OpenAI. Китайская Alibaba представила мультимодальную Qwen 3.5, которая в отдельных задачах превосходит модели прошлого поколения, будучи в несколько раз меньше. Компания Z.ai, по оценкам разработчиков, отстаёт от Claude всего на несколько месяцев. Google выпустила модели семейства Gemma — одна из них настолько компактная, что может запускаться на мобильных устройствах.

«Если вы большая корпорация, которая готова позволить себе сервера на несколько миллионов рублей, чтобы развернуть собственные модели в закрытом контуре, вы можете сейчас использовать лучшие решения, находящиеся на острие науки», — отметил Владислав Горбунов.

Главный вопрос, волнующий отрасль: не является ли происходящее «пузырём»? NVIDIA инвестирует в производителей моделей, те на эти деньги закупают у NVIDIA оборудование и обучают новые модели. Круг замыкается. Правительство США скептически относится к монопольному положению NVIDIA, а OpenAI, ставшая самой дорогой компанией мира, до сих пор не получает прибыли. На рынке регулярно появляются новости об увольнениях сотрудников — и следом о том, что их спешно возвращают, потому что инфраструктура «легла»: так было и у IBM, и у Amazon Web Services.

Исследование Массачусетского технологического института, процитированное лектором, показало: подавляющее большинство организаций пока не получили ощутимой отдачи от инвестиций в генеративный ИИ. Разработчики, применяющие большие языковые модели для написания кода, по объективным метрикам task-трекеров не демонстрируют существенного прироста производительности — лишь субъективно ощущают его.

Что не изменилось

Несмотря на впечатляющий прогресс, ряд ограничений остаётся. Модели по-прежнему «галлюцинируют». Они по-прежнему остаются «чёрным ящиком» — механизмы, с помощью которых они приходят к ответам, до конца не поняты. Модели предвзяты, а разработчиков во многих странах заставляют вносить политические корректировки — поэтому, в частности, некоторые китайские модели не могут обсуждать определённые исторические события.

К перечню новых проблем добавились дипфейки — подделанные мошенниками визуальные изображения и голоса реальных людей. Лектор особо предостерёг слушателей: если звонит знакомый с неожиданной просьбой, лучше перезвонить в другом мессенджере и убедиться, что это действительно он. Под вопросом оказалось и авторское право: генеративные видео-модели обучены на огромных датасетах фильмов и сериалов, и отношения с Голливудом и студиями пока не урегулированы.

Что касается профессий, то, по наблюдению Владислава Горбунова, ни одна профессия на сегодня не исчезла, но некоторые роли существенно автоматизировались. Одна точка зрения: ИИ создаст новые профессии, поднимет производительность и благосостояние. Другая: миллиарды людей окажутся ненужными, вырастут безработица и неравенство. Однозначно ответить, кто прав, пока нельзя.

«Модели очень сильно упрощают жизнь мне как специалисту, принимающему решения. Моя личная деятельность трансформировалась, я ускорился в десятки и сотни раз в решении прикладных задач. Поэтому лично я не очень верю в то, что нас всех уволят, — поделился опытом лектор. — Но, скорее всего, появятся какие-то новые роли — операторы тех устройств, которые будут выполнять задачи. Как раньше это случилось с операторами станков с ЧПУ».

С чего начать?

Завершая лекцию, Владислав Горбунов дал аудитории несколько практических рекомендаций. Для объяснения сложных тем — ChatGPT или Claude. Для работы с источниками — Perplexity. Для обработки пользовательских материалов — NotebookLM от Google: в него можно загрузить любые документы, получить ответы, автоматически сгенерированную презентацию, инфографику. Для изучения иностранных языков — голосовой режим ChatGPT или Gemini от Google, которые работают в реальном времени и умеют подстраиваться под уровень собеседника.

Для написания текстов лектор рекомендовал Claude — по его оценке, тексты этой модели сложнее всего отличить от человеческих. Для картинок в России хорошо работают «Кандинский» в GigaChat и «Алиса», за рубежом — Midjourney, DALL-E и Flux. Для видео — Kling и Runway, для синтеза речи — ElevenLabs, сервисы «Т-Банка», «Яндекса» и «Сбера».

Отдельный совет — установить редактор кода VS Code и подключить к нему расширение Claude Code. По словам Владислава Горбунова, это один из лучших способов самообучения, даже если пользователь не пишет код: знакомые ему менеджеры продуктов таким образом ведут базу знаний своих продуктов на обычном русском языке. Если важна конфиденциальность данных, следует обратить внимание на локальный запуск моделей через LM Studio и открытые веса.

«Не нужно глубоко погружаться в то, как это работает. Нужно просто запустить и поставить задачу — самую первую, самую простую. А если непонятно, как её сформулировать, попросите модель создать инструкцию, чтобы в будущем не вводить всё заново. Она сохранит её и подхватит в следующий раз», — посоветовал лектор.

По его наблюдению, опыт работы первой недели с ИИ-инструментами кардинально отличается от опыта первого месяца и тем более полугода. Коллеги Владислава Горбунова сегодня работают не в одном окне с одним чатом, а в шести параллельных консолях: задают задачи, проверяют результаты с периодичностью раз в полчаса или раз в час, тем самым ускоряя получение первых прототипов в несколько раз.

Почему ИИ прижился и будет развиваться дальше

За прошедшие после ChatGPT три года случилось минимум пять настоящих прорывов, подвёл итог Владислав Горбунов: появились рассуждающие модели, мультимодальность, качественная генерация видео, речи и игровых миров, ИИ-агенты и, наконец, новые интерфейсы, в которых чат становится невидимым слоем.

«В ближайшие год-два мы, скорее всего, увидим ещё более компактные модели с тем же качеством, что есть сейчас, — прогнозирует эксперт. — Персональные ассистенты, встроенные в телефоны и компьютеры, — это уже реальность. А рой агентов в будущем позволит работать с ИИ в режиме живой коллаборации, когда человек сможет отслеживать каждый шаг и вносить правки на лету», — говорит он.

Искусственный интеллект, по словам лектора, прижился в повседневной жизни не только потому, что технологии созрели, но и потому, что он усиливает человеческое мышление — помогает быстрее получать и перерабатывать информацию, расширяет границы того, что можно понять, создать и решить. Именно поэтому, заключил Владислав Горбунов, ИИ так быстро вошёл в нашу жизнь — и наша жизнь уже поменялась. Хочется верить, что к лучшему.

Владислав Горбунов: как ИИ поменял мир за три года

Другие новости

Кадровый голод: в объективе Евгения Кондакова

Был ли шанс сохранить Союз?

Анатолий Рыбаков: писатель, взломавший советский миф

Льготные категории посетителей

Оставить заявку