
Интерес к генеративному искусственному интеллекту (ГИИ) постоянно растет. Он уже применяется во многих сферах, открывая перед пользователями новые возможности. Стоит ли доверять ГИИ, в каких случаях бизнес может получить реальный эффект и как предотвратить вероятные риски?
Что такое генеративный ИИ
Классический трехтомник Рассела и Норвига об искусственном интеллекте («Искусственный интеллект. Современный подход») открывается классическим же определением ИИ как систем, которые действуют либо рассуждают подобно человеку или рационально. Мы можем скорректировать это максимально инклюзивное определение так, чтобы охватить только современные системы генеративного ИИ: это системы, которые способны создавать новые, оригинальные артефакты (тексты, изображения, аудио, видео, таблицы цифр, код, технологические чертежи, символические рассуждения, программы действий в физическом мире и так далее), которые похожи на обучающие данные, но не являются их копией, то есть демонстрируя поведение, сходное с человеческим творчеством.
Такая способность отличает генеративный ИИ от традиционных дискриминативных моделей, которые не умеют придумывать новые данные, а только определяют, к какому классу относится входной образец, выбирают действие или предсказывают уровень количественного показателя. Говоря более техническим языком, если алгоритмы традиционного машинного обучения пытаются «обучиться» условной вероятности получить Y, когда предъявлен некоторый X, то генеративная модель хочет ухватить из данных сам процесс их генерации. Именно способность моделей ГИИ «творить» делает их предметом такого ажиотажа.
Как в прежние времена вода, пар, или электричество, так теперь ИИ может запитать любое устройство, если будет создан необходимый «коннектор» и оплачено необходимое количество вызовов API.
Близким понятием к ГИИ являются «фундаментальные модели» (foundation models) – крупномасштабные нейронные сети, обученные на обширных наборах данных с использованием методов самообучения. Сегодня все ГИИ – это фундаментальные модели. Сочетание особых методов обучения и разнообразия обучающих данных привело к тому, что такие модели можно адаптировать к выполнению широкого спектра задач без необходимости дообучения. Примеры ГИИ в виде фундаментальных моделей варьируют от традиционных больших языковых моделей (LLM), таких как GPT, до мультимодальных, способных обрабатывать одновременно различные типы данных, обычно текст+изображение, или текст+аудио, а иногда и экзотические модальности типа сигналов электроэнцефалографа, ультразвуковых «слов» дельфинов или облаков точек, имитирующих 3D-объекты.
Процесс обучения фундаментальных моделей требует существенных вычислительных ресурсов, затрат времени и высокопрофессионального штата специалистов c редкими квалификациями. Поэтому сегодня сложилась экономическая модель доступа к ГИИ, когда относительно узкий круг хорошо капитализированных провайдеров предоставляют API (Application Programming Interface, интерфейс прикладного программирования) своих моделей за деньги; а параллельно этому существует мир открытых моделей, которые могут быть развернуты on premise («на месте») и эксплуатация которых не требует уникальных навыков. Все это приводит к тому, что генеративный искусственный интеллект превращается в некоторое подобие электричества или интернета, то есть происходит коммодитизация способности к креативности и целенаправленному поведению. Как в прежние времена вода, пар, или электричество, так теперь ИИ может запитать любое устройство, если будет создан необходимый «коннектор» и оплачено необходимое количество вызовов API.
Что сейчас происходит в ГИИ
После весьма динамичного старта в 2022–2023 годах технологии генеративного ИИ только ускорились. Текущая стадия характеризуется одновременно усложнением моделей, диверсификацией их форм и встраиванием ГИИ в повседневные процессы. Позади волны модульных и адаптивных нейросетевых архитектур (Mamba, Mixture of Experts), рассуждающих моделей и интеграции с векторными базами данных. «Модные» в 2025 году технологические темы – мультимодальность, агенты, выравнивание (alignment), экономичные модели и внедрение на периферийных устройствах. Разберем кратко каждую.
Агенты на базе генеративного ИИ
Чтобы разобраться с понятием ГИИ-агента, нужно сделать шаг назад и понять, как способности текстовых моделей обогащаются векторными базами знаний и способностями к рассуждению. Представьте, что вам нужно найти неисправность и путь ее устранения в сложном техническом устройстве – например, автомобиле или самолете определенной модели. «Голая» большая языковая модель не поможет: обученная приносить собеседнику пользу любой ценой, но не имеющая доступа к конкретным узкоспециализированным знаниям, она выдумает очень правдоподобные детали и инструкции, некритичное принятие которых пользователем скорее нанесет ущерб, чем поможет.
Для обучения такой модели использовались все тексты, написанные человечеством за последние пять тысяч лет, которые удалось оцифровать. Конечно, инструкция по эксплуатации вашего самолета или автомобиля там тоже есть, но это буквально иголка в стоге сена. Сгенерировать ответ «как в мануале» система не сможет. Поэтому LLM нужно снабжать источником знаний для формулировки точного ответа не на этапе обучения, а на этапе инференса. Здесь на помощь приходит Retrieval-Augmented Generation (RAG) – метод, который позволяет обогащать контекст текстовых ГИИ релевантными фрагментами из внешних источников данных (в виде векторных – текстовых – баз данных), и генерировать точные ответы.
Другим важным дополнением возможностей ГИИ стала способность рассуждать. На заре своего развития LLM демонстрировали порой ошеломляющие провалы в базовой логике. Например, на вопрос: «Одно яйцо варится 5 минут. Сколько времени потребуется, чтобы сварить 20 яиц?» GPT 3.5 отвечала: «100 минут». Было замечено, что если попросить модель рассуждать по шагам, она все же приходила к правильному ответу. Так появилась идея, а потом и реализация – рассуждающего текстового ГИИ, который уже на этапе обучения должен был сначала рассуждать шаг за шагом, а потом генерировать финальный ответ, отталкиваясь от своих рассуждений.
RAG и рассуждающие модели стали базой ИИ-ассистентов и копилотов – хита 2024 года, которые многократно усилили интеллектуальные способности самого широкого круга «белых воротничков», а сферу программирования так и вовсе радикально перестроили. Но еще они стали основой ГИИ-решений следующего поколения: агентов.
ГИИ-агент умеет, рассуждая, наметить для себя план действий, а затем приступить к его реализации, выполняя шаг за шагом, накапливая и изменяя знания во внутренней базе по мере реализации плана и корректируя сам план. А еще агент обучается умению целенаправленно вызывать нужные инструменты – другие компьютерные программы, например, браузер для поиска и просмотра сайтов, консоль с интерпретатором кода для выполнения сгенерированных программ или файловый менеджер для манипуляции файлами. Причем в настольном приложении агент умеет имитировать клики мышкой и ввод текстовых команд, то есть он буквально по‑человечески взаимодействует с программой, которую сделали для человека. Оснащение агентов инструментами (tooling) сделало их еще более автономными. Они могут выполнять роль секретаря, брать на себя рутинные, но плохо формализуемые операции по обработке данных, управлять документооборотом, координировать встречи и даже вести переговоры от имени человека. В 2025 году такие агенты становятся неотъемлемой частью цифрового рабочего пространства.
В самом конце 2024 г. текстовые ГИИ научились «думать глазами». Современные модели способны анализировать изображения, схемы и даже рукописные заметки, интегрируя визуальную информацию в цепочку рассуждений.
Мультимодальность
В 2023 году и большую часть 2024‑го ГИИ работал в одной модальности – чаще всего текстовой или статичной визуальной, реже – в звуковой. Большинство бизнес-кейсов были сосредоточены в текстовых ГИИ, а схемы, графики или фото ставили их в тупик. В самом конце 2024 г. текстовые ГИИ научились «думать глазами». Современные модели способны анализировать изображения, схемы и даже рукописные заметки, интегрируя визуальную информацию в цепочку рассуждений. А еще мультимодальность означает способность генерировать аудио «на лету», параллельно с текстом, в ответ на текстовое или аудиосообщение с пользователем. Когда OpenAI впервые представила свой говорящий ChatGPT, который умел уместно интонировать (на английском) и даже мгновенно понимал шутки и умел шутить сам – это казалось чудом. А сейчас к нему все привыкли.
Но самое интересное начинается тогда, когда понимаешь, что мультимодальность не ограничивается картинкой и звуком; ведь она может включать и, к примеру, команды для физического перемещения роботов. Передовые Gemini Robotics от Google DeepMind, или VIMA – примеры таких систем. Они объединяют визуальное восприятие, понимание языка и физические действия, позволяя роботам выполнять сложные задачи, такие как складывание бумаги или упаковка предметов, реагируя на голосовые команды. Модели могут адаптироваться к различным типам роботов, от манипуляторов до гуманоидов, и выполнять действия, даже если ранее не сталкивались с подобными задачами. Очевидно, что в сочетании с агентностью мультимодальность открывает дорогу к тому, что ранее мы читали и смотрели только в sci-fi – к массовым рассуждающим автономным роботам-универсалам.
Выравнивание (Alignment) и AI TRiSM
По мере того как ГИИ все больше и больше входит в самые разные человеческие и корпоративные практики, обнаруживаются новые нестыковки между человеческим и корпоративным – с одной стороны, и генеративным – с другой. Термином «выравнивание» (alignment) в ГИИ обозначают набор приемов, которыми добиваются, чтобы модель не просто выдавала «правдоподобный» текст, а отвечала в рамках заданных бизнес-правил и стандартов человечности. IBM Research определяет выравнивание как «процесс кодирования человеческих ценностей и целей в большие языковые модели, чтобы они были максимально полезными, безопасными и предсказуемыми». Для бизнеса сегодня выравнивание важно прежде всего потому, что Generative AI легко «галлюцинирует» факты или предлагает решения, которые могут идти вразрез с внутренними требованиями. Для бизнеса завтра выравнивание важно, потому что агентный и мультимодальный ГИИ будущего умеет взаимодействовать с цифровыми и физическими объектами реального мира.
К alignment по смыслу близка аббревиатура «AI TRiSM» (Trust, Risk & Security Management) – класс технологий и организационных практик, позволяющих компаниям внедрять и эксплуатировать GenAI без сюрпризов. Gartner дает такое определение: TRiSM обеспечивает управление, доверие, справедливость, надежность и защиту данных во всех ИИ-решениях. В TRiSM выделяют четыре основных слоя: установление корпоративных правил (AI Governance), контроль работы моделей на лету (Runtime Inspection and Enforcement), управление информацией и доступами (Information Governance) и надежную инфраструктуру. То есть изначально выравнивание работало на этапе обучения модели, а AI TRiSM – на этапе инференса.
Что же происходит с выравниванием и AI TRiSM сейчас? Во-первых, если раньше выравнивание было отдельным этапом в процессе обучения модели (backward alignment), то сейчас лучшей практикой считается align by design, то есть планирование и внедрение выравнивания еще на этапе проектирования системы. Кроме того, теперь ответы модели проходят проверку на соответствие правилам, и отклонения блокируются до того, как они достигнут пользователя. Преимущество тут в том, что теперь, если бизнес-правила меняются, это не требует полного переобучения и «перевыравнивания» моделей. То же самое происходит и в AI TRiSM – сегодня эти практики выходят за рамки периодических аудитов и становятся встраиваемой частью CI/CD-пайплайнов для ГИИ. Появились непрерывные петли обратной связи: специально встроенные метрики автоматически отслеживают галлюцинации, смещения и несоответствия целям, корректируя оценку ответов в реальном времени. Каждый релиз, каждый новый прецедент использования сразу попадает под инспекцию и оценку риска. Ну и, естественно, выравнивание стало мультимодальным и агентным: ГИИ теперь переводят текст в речь и обратно, понимают изображения и управляют внешними инструментами, соблюдая при этом выработанные принципы безопасности и корпоративные политики.
Дешевле, меньше, быстрее
Итак, большие языковые модели – это суперинструмент, но очень дорогое удовольствие. Обучение фундаментальных моделей обходится в десятки миллионов долларов (GPT-4 стоил примерно 63 млн долларов), а расходы на генерацию при высоких нагрузках могут достигать сотен тысяч долларов в месяц. Чтобы снизить издержки, в 2025 году активно развиваются малые языковые модели (SLM), технологии дистилляции и квантизации. По оценкам исследователей, SLM-архитектуры с несколькими миллиардами параметров (в сравнении с несколькими десятками миллиардов у топовых моделей) при грамотном дообучении решают 80–90% задач уровня GPT-4 при стоимости запроса на 70% меньше оригинала.
Большие языковые модели — это суперинструмент, но очень дорогое удовольствие. Обучение фундаментальных моделей обходится в десятки миллионов долларов (GPT-4 стоил примерно 63 млн долларов), а расходы на генерацию при высоких нагрузках могут достигать сотен тысяч долларов в месяц.
Дистилляция – это процесс, когда большая обученная модель («учитель») передает свои знания более компактной модели-«ученику». Учитель генерирует для ученика «мягкие» метки и распределения вероятностей ответов, а студент учится воспроизводить ту же логику с куда меньшим количеством параметров и более умеренными вычислительными требованиями. Квантизация – это перевод весов и активаций модели из 32- или 16‑битного формата в 8- или даже 4‑битные целые числа. Это позволяет сократить объем памяти и ускорить арифметические операции на процессоре, при этом «особо важные» веса могут храниться в более высокой точности, а основная часть вычислений идет в низкой, без заметного падения качества генерации.
Крупные провайдеры фундаментальных моделей запускают «Flash-Lite» и «mini» варианты больших моделей – урезанные, но все еще мультимодальные и способные обрабатывать аудио, видео и текст, при этом стоящие считанные центы за миллион токенов. Соревнуются в доступности и открытые модели вроде Llama 3.1 8B и DeepSeek R1: первая позволяет запускать диалог на десятках языков с локальным инференсом, вторая – делать это «за копейки», потому что операционные расходы у нее составляют лишь пару процентов от того, что платят за крупные коммерческие API. А последние достижения в 4‑битной квантизации (QUIK и другие схемы) показывают, что можно без серьезной потери качества сжать модель так, чтобы она работала на обычном сервере вдвое быстрее и вчетверо дешевле.
Внедрение на периферийных устройствах (Edge AI)
Наконец, ГИИ-инференс все чаще спускается с облаков непосредственно на устройства: смартфоны, промышленные контроллеры, дроны и умные камеры. При этом задержка сигналов падает до десятков миллисекунд, что критично для реального времени в AR-очках или автономных машинах, а конфиденциальность возрастает: все чувствительные данные (медицинские снимки, личные заметки) остаются на устройстве. Даже при потере связи устройство продолжает работать автономно, например, станки на фабриках диагностируют неисправности и генерируют инструкции по ремонту без доступа к интернету. Специальные чипы (NPU, DSP) от Qualcomm, NVIDIA и других интегрируют мультимодальные GenAI-ядра прямо в SoC, что позволяет запускать операции по синтезу речи, анализу видео и выполнению команд, машинному зрению без внешнего сервера. Исследования показывают, что уже модели с 1–3 млрд параметров на бытовых SBC (например, Raspberry Pi или NVIDIA Orin) в смешанной 4-битной квантизации работают с приемлемой скоростью и энергопотреблением, хотя полное устранение «узких мест» памяти и вычислений пока кажется мечтой.
Чтобы заполнить эти бреши, в 2025 году бизнес начинает активно внедрять гибридные схемы: часть генерации идет локально на Edge-чипах (NPU, DSP), часть – по запросу в облако, а для тяжелых генерирующих задач применяют распределенный инференс. Для компании это означает мгновенный отклик и минимальные риски утечки данных – все остается на устройстве – плюс стабильную работу при потере связи с интернетом. Низкая задержка критична для AR-очков, операторских панелей и автономных роботов, где каждое миллисекундное ускорение улучшает опыт и безопасность. AMD прогнозирует, что уже к 2030 году подавляющая часть инференса будет выполняться именно на устройствах, а не в ЦОДах – и эта тенденция открывает новые горизонты для масштабирования ГИИ-решений без гигантских счетов за пропускную способность и облачные CPU/GPU.
Бизнес-кейсы
Термину «искусственный интеллект» уже более 70 лет. Впервые за этот долгий срок для взаимодействия с ним не требуется команда высококвалифицированных дорогостоящих специалистов. Интерфейс к ГИИ самый простой и естественный: это обычный человеческий язык, доступный любому специалисту. Вполне логично предположить, что первые эффекты будут заметнее всего в самых «логоцентричных» типах экономической деятельности, в которых высока доля когнитивного труда и работы с информацией. К таковым относятся образование, разработка ПО, маркетинг, клиентский сервис, СМИ, финансовая и нефинансовая отчетность, секретарские и кадровые функции, государственные услуги.
McKinsey оценивает дополнительный экономический эффект ГИИ в 2,6–4,4 трлн долларов в год, и 75% этой выгоды приходится на клиентские операции, маркетинг, разработку ПО и R&D. Немного отстают другие ориентированные на знание отрасли: медиа/развлечения, право и комплаенс, научные исследования и инженерные разработки, фармацевтика и здравоохранение. При этом уже существующие «истории успеха» можно разделить на три части: ГИИ для персональной эффективности; процессный ГИИ, повышающий эффективность одного или нескольких бизнес-процессов внутри компании (а иногда и трансформирующий ее до неузнаваемости); и ГИИ-единороги – стартапы, которые упаковали определенный класс рабочих задач в ГИИ-агента или ассистента.
McKinsey оценивает дополнительный экономический эффект ГИИ в 2,6–4,4 трлн долларов в год, и 75% этой выгоды приходится на клиентские операции, маркетинг, разработку ПО и R&D.
В качестве примеров повышения персональной продуктивности можно привести результаты исследований Nielsen Norman Group, которые зафиксировали рост эффективности на 13,8% у специалистов поддержки, на 60% у бизнес-аналитиков при создании документов и на впечатляющие 126% у программистов. Это исследование фокусировалось именно на использовании базовой версии ChatGPT без специализированных модификаций бизнес-профессионалами, не получившими какой‑либо существенной специальной подготовки. Эти данные подтверждаются экспериментальным исследованием (Noy & Zhang, 2023), в котором группа из примерно 450 офисных работников (маркетинг, HR и других) выполняла типичные письменные задачи: писала пресс-релизы, письма, обзоры с помощью ChatGPT или без него. Результат: группа с ГИИ справлялась заметно продуктивнее, создавая в среднем на 60% больше документов в час по сравнению с контрольной группой. Время на черновик текста резко сокращалось – модель генерировала основу за секунды, поэтому люди могли потратить больше времени на редактирование и доводку, получая более качественный итог. Так, качество документов (оцененное экспертами по шкале 1–7) выросло с 3,8 до 4,5 балла при использовании ChatGPT. Особенно сильно выиграли слабые авторы: разрыв между сильнейшими и слабейшими участниками по качеству сократился втрое – ИИ помог менее опытным написать текст почти на уровне лучших сотрудников.

Большинство кейсов повышения продуктивности относятся ко второму типу, процессного ГИИ. В базе данных, собранных нашей лабораторией, таких кейсов уже свыше 1600. Один из наиболее распространенных сценариев – это HR и использование ГИИ в клиентских сервисах и колл-центрах: в среднем LLM-боты сокращают время ответа на 14% и повышают индекс потребительской лояльности.
Harvard Business Review приводит кейс, где ГИИ-модель для подготовки ответов клиентам дала +10% рост показателя продуктивности продаж в сегменте в терминах прироста выручки на сотрудника. Также маркетологи отмечают ускорение согласования материалов: ИИ быстро генерирует несколько вариантов рекламы или слогана, экономя часы мозгового штурма, после чего команда выбирает и дорабатывает лучший. В многоязычном маркетинге ГИИ помогают сразу создавать контент на разных языках, расширяя охват без найма дополнительных переводчиков. Например, испанская компания Telefónica сообщала, что встроенный в их систему ассистент на базе ИИ сократил время подготовки двуязычных кампаний почти на 30% (англоязычный текст сразу переводится ИИ на испанский с минимальной правкой). В целом, в креативных бизнес-задачах генеративный ИИ становится «ускорителем» – он берет на себя черновую генерацию идей и текста, а человек – отбор и улучшение, что совместно дает существенный выигрыш во времени.
В последние годы появилось множество стартапов, которые используют большие языковые модели для разработки специализированных продуктов. Яркие примеры: Harvey – юридический ИИ-ассистент (235 клиентов, 300 млн долларов инвестиций), Hippocratic AI – платформа медицинских ИИ-агентов с фокусом на безопасность и эмпатию (оценка 1,64 млрд долларов), Jasper – копилот для маркетингового контента, который за год вышел на 55 млн долларов годовой выручки и 100 тысяч платящих клиентов, опережая классические копирайтерские агентства по скорости и маржинальности; и Cursor от Anysphere – среда программирования с ИИ-сопровождением, ставшая одной из самых быстрорастущих DevTools-платформ (100 млн долларов годовой выручки за 12 месяцев).
В креативных бизнес-задачах генеративный ИИ становится «ускорителем» – он берет на себя черновую генерацию идей и текста, а человек – отбор и улучшение, что совместно дает существенный выигрыш во времени.
Копилоты – для программирования это лидирующий продукт такого типа. Программисты вообще одними из первых начали применять ГИИ для помощи в кодировании. В контролируемом эксперименте от GitHub и Microsoft (который разрабатывает конкурента Cursor – Copilot) группа разработчиков решала типичную задачу (написать небольшое веб-приложение, примерно 25 задач) с Copilot или без него. Результат: с Copilot задачу успешно завершили 78% участников (против 70% без него), и главное – сделали это значительно быстрее. Среднее время с ИИ составило 1 час 11 минут, без ИИ – 2 часа 41 минуту. То есть разработчики с Copilot справились на 55% быстрее. Этот выигрыш статистически значим и соответствует диапазону ускорения от 21% до 89% (95% доверительный интервал). Иными словами, где без ИИ программист тратил приблизительно 3 часа, с ИИ он тратит 1,5–2 часа.
Аналогичные результаты получены в академическом исследовании: разработчики, использующие ГИИ, могут выполнить на 126% больше задач в неделю (то есть в 2 раза больше) по сравнению с теми, кто кодирует без ГИИ. Таким образом, плотность кода, создаваемого в единицу времени, резко возрастает. Особенно это заметно на стандартных участках кода (например, шаблонные функции, тесты): по отдельным оценкам, Copilot ускоряет написание нового кода на 34%, а модульных тестов – почти на 38%. 96% разработчиков, попробовавших Copilot, говорят, что он ускорил их работу. Это позволяет компаниям сократить сроки разработки.
Перспективы
Общее показание к применению ГИИ – использовать его там, где текст (реже изображение) является посредником во взаимодействии между сотрудниками компании или между сотрудниками и клиентами. При этом во внимание следует принимать кодифицированность области (существуют ли общепонятные правила генерации текста), наличие всеми принимаемых критериев хорошего ответа (а еще лучше – готовой базы «правильных» ответов), спрос на новизну, важность словесной точности, стоимость и простоту поиска ошибки (скорость и стоимость фидбека). В клиентском сервисе или маркетинговой коммуникации, в большинстве случаев, высокая точность высказываний не требуется. Разработка новых продуктов или оценочных средств в образовательном домене – достаточно хорошо кодифицированные области, благодаря дизайн-мышлению в первом случае и классификации Блума – во втором. А вот медицинская диагностика, правовое суждение и научно-исследовательский поиск требуют порой такого уровня точности, надежности и способности к сложному рассуждению, которому нынешние ГИИ-модели зачастую не способны соответствовать.
Другой пример – творческие индустрии. Нет общепринятых критериев того, что считать «хорошим» сценарием фильма или прописанным персонажем сериала. В этих областях много интересных стартапов, много громких исследований, но мало по‑настоящему масштабных внедрений. За пределами «низковисящих фруктов» (код-ассистенты, чат-боты поддержки, резюмирование встреч) максимальный эффект от ГИИ проявится в двух полярных зонах:
1) там, где концентрируются крупнейшие пулы кодифицированного знания и высока цена ошибки, но уже выстроен контур проверки (финансы, госуправление, биофарма, «правовой оперштаб» компаний);
2) там, где цена ошибки минимальна, а толерантность к творческому отклонению высока (развлечения /IP-индустрия) – плюс грядущий физический фронтир «воплощенный» LLM в робототехнике.
В сфере образования генеративный ИИ рассматривается как потенциально трансформирующий фактор, способный изменить как логику преподавания, так и структуру учебных взаимодействий. В обозримой перспективе развитие персонализированных ИИ-учителей может привести к адаптивному обучению, где каждый учащийся получает поддержку, соразмерную его уровню и стилю восприятия. Объективные преимущества ГИИ тут: масштабируемость, автоматизация рутинных задач, помощь в разработке учебных материалов. Однако ключевым вызовом станет обеспечение развития мышления, а не только усвоения информации. Не исключено, что основным следствием внедрения таких систем будет не устранение педагога, а перераспределение его функций: от транслятора к фасилитатору и критическому редактору ИИ-сгенерированного контента.
В медицине генеративный ИИ имеет потенциал стать неотъемлемой частью клинического процесса – от предварительного сбора анамнеза до поддержки диагностического решения. Особенно велико его значение для систем здравоохранения, испытывающих нехватку специалистов или перегрузку потоком данных. На горизонте пяти-десяти лет можно ожидать появления ИИ-ассистентов, участвующих в построении дифференциального диагноза, генерации выписок и мониторинге отклонений. Однако, в отличие от сфер, где результат можно мгновенно верифицировать, здесь ошибки дорогостоящи, а потому практическое внедрение будет идти медленно и строго регламентированно. Критическим фактором станут системы обратной связи, обеспечивающие двойную проверку с участием человека.
Фармацевтика и биотехнологии, напротив, представляют собой область, где генеративный ИИ уже в ближайшие годы может обеспечить кратное ускорение ранних стадий исследований. Формализованность химических представлений и стандартизированность критериев позволяют использовать модели для генерации новых молекулярных структур, предварительного предсказания их свойств и отбора кандидатов на доклинические испытания. По мере развития инструментов символьной и графовой генерации возможно появление ИИ-систем, способных формировать не только отдельные молекулы, но и целостные терапевтические гипотезы, что может радикально изменить структуру научного поиска в фарме.
В инженерии и производстве генеративный ИИ способен изменить саму логику проектирования. Его будущее применение – в генерации инженерных решений, сочетающих критерии прочности, стоимости и удобства обслуживания. Вместо перебора типовых вариантов человек будет формулировать ограничения, а модель – предлагать сотни вариантов реализации. Элементы такого подхода уже складываются в связке с цифровыми двойниками: виртуальные тестирования, оптимизация производственных сценариев, быстрая адаптация конструкции под изменяющиеся условия. Это создает задел для глубокой перестройки роли инженера: от ручного проектирования к управлению сложными системами генерации, анализа и отбора решений.
Финансовый сектор является одним из наиболее перспективных с точки зрения масштабного и эффективного внедрения генеративного ИИ. Высокая степень структурированности информации, регламентированность процессов и наличие обратной связи в виде аудита или комплаенса создают идеальные условия для автоматизации. В обозримом будущем ИИ будет все чаще использоваться для генерации черновиков клиентских писем, автоматического ответа на запросы, подготовки первичных аналитических обзоров, а также автоматизированной обработки нормативной документации. Основной эффект будет достигаться не за счет замены профессионалов, а через значительное ускорение документооборота, снижение издержек и рост прозрачности.
Генеративный ИИ в краткосрочной перспективе изменит те сферы, где язык уже является основным посредником деятельности, а стоимость ошибки низка или легко управляется.
В государственном управлении внедрение генеративного ИИ также представляется высоко перспективным, особенно в тех областях, где процессы регламентированы, а объемы документооборота критически велики – от обработки обращений граждан до нормотворческой подготовки. ИИ здесь может взять на себя первичный разбор информации, автоматическую генерацию справок, шаблонов ответов, пояснительных записок. Однако скорость внедрения будет напрямую зависеть от готовности регуляторов пересматривать процедуры ответственности и допуска к принятию решений. При этом потенциальный выигрыш – экономия времени тысяч сотрудников и повышение прозрачности управленческих процессов выглядит значительным.
Особое положение занимают креативные индустрии – кино, телевидение, музыка, игры. Здесь структурные предпосылки для масштабной генерации особенно выражены: контент формализуем, критерии оценки субъективны, а цена ошибки относительно невысока. Генеративные модели могут создавать сценарии, персонажей, диалоги, фоны и даже модули поведения в игровых средах. В перспективе нескольких лет можно ожидать появления платформ, где исходный контент разрабатывается совместно человеком и ИИ, а сами процессы производства станут многократно более быстрыми и дешевыми. Это, в свою очередь, повлияет и на структуру рынка труда, и на подходы к интеллектуальной собственности.
Юриспруденция, напротив, остается областью повышенного риска. Несмотря на огромное количество текстов, доступных для обучения, и высокую степень формализации, цена ошибки здесь критична. Кроме того, большинство задач в праве – это не просто генерация текста, а тонкое применение норм к конкретной ситуации. В перспективе возможны вспомогательные системы, проверяющие корректность ссылок, подбирающие релевантные прецеденты, создающие черновики, но полноценная замена юриста маловероятна. Внедрение ИИ будет двигаться постепенно, с жесткими ограничениями на автономное принятие решений.
Наконец, перспективным направлением остается интеграция генеративных моделей в робототехнические системы. Мультимодальные LLM, способные воспринимать и обрабатывать одновременно текст, изображение и сенсорные сигналы, уже рассматриваются как потенциальная когнитивная надстройка для автономных агентов. Однако здесь встает вопрос физической ошибки – неверное действие машины в реальном мире может повлечь за собой травмы, поломки или иные материальные последствия. Поэтому реальные применения в сервисной робототехнике появятся позже, когда будут отработаны надежные механизмы симуляции, ограничения поведения и контрольных сценариев.
Общая картина такова: генеративный ИИ в краткосрочной перспективе изменит те сферы, где язык уже является основным посредником деятельности, а стоимость ошибки низка или легко управляется. В долгосрочной – проникнет в более сложные области, где высокий уровень требований к достоверности, логике и ответственности будет компенсирован повышением качества инструментов, развитием регуляторной базы и интеграцией с внешними источниками проверки.
Риски и управление ими
Риски при внедрении генеративного ИИ в бизнес напрямую зависят от двух исходных факторов. Первый – это то, кто контролирует модель: разрабатывает ли компания собственную LLM или арендует доступ к модели через API внешнего поставщика. Второй – характер бизнес-процесса, в который интегрируется ИИ: работает ли он во внутреннем контуре, с сотрудниками компании, или во внешнем – с клиентами, партнерами и пользователями.
Если модель принадлежит самой компании, у нее есть доступ к внутреннему устройству модели и возможность влиять на ее поведение. Это означает, что возможна реализация так называемого выравнивания – тонкой настройки модели в соответствии с корпоративными требованиями, нормами и ожиданиями. Здесь речь идет не только о дообучении, но и о таких механизмах, как фильтрация обучающего корпуса, обучение с обратной связью от человека, формализация требований в виде инструкционных префиксов, а также построение собственной системы оценки и метрик, отслеживающих точность, допустимость, токсичность, корректность ссылок и другие важные параметры. Однако создание и сопровождение собственной LLM – это дорого, требует инфраструктуры, компетенций и времени, поэтому доступно только ограниченному числу организаций.
Критически важный параметр 150 это то, кому предназначены результаты работы ИИ. Если модель встроена во внутренние процессы – например, помогает сотрудникам службы поддержки или HR, то основным риском становится утечка чувствительной информации.
Если же используется внешняя модель через API – например, ChatGPT от OpenAI, Claude от Anthropic, – компания не имеет доступа ни к тренировочным данным, ни к механизму генерации, ни к весам модели. В этом случае основным инструментом становится не выравнивание, а комплекс решений под общим названием AI TRiSM. Это совокупность политик, инструментов и процедур, направленных на управление ИИ в условиях ограниченного контроля. В рамках AI TRiSM используется несколько типов решений. Во-первых, это прокси-контроль на уровне запросов: фильтрация промптов и выходных сообщений, логи и анализ истории обращений, мониторинг отклонений, аномалий и токсичности. Во-вторых, используются внешние «оценщики» – модели или правила, которые проверяют результат до его отправки конечному пользователю. В-третьих, важно вести аудит: вести версионирование системных промптов, сохранять историю запросов пользователей и ответы (действия) системы.
Дополнительный критически важный параметр – это то, кому предназначены результаты работы ИИ. Если модель встроена во внутренние процессы – например, помогает сотрудникам службы поддержки или HR, то основным риском становится утечка чувствительной информации. Пользователи не всегда осознают, что даже без злого умысла они могут загрузить в запросы конфиденциальные данные: личные сведения сотрудников, договоры, номера счетов, коммерчески чувствительные документы. Особенно это опасно при работе с внешними API, которые физически размещены в другой юрисдикции. В таких случаях передача персональных данных может оказаться незаконной. Поэтому ключевыми элементами становятся обучение сотрудников ИИ-гигиене, ограничение типов передаваемой информации, а также наличие технических ограничений на вывод из корпоративного периметра.
Если же ИИ работает во внешнем контуре – например, взаимодействует с клиентами или встроен в пользовательский интерфейс продукта, то помимо утечки данных возникает дополнительный класс рисков, связанных с некорректными, вредоносными или юридически уязвимыми высказываниями. Это может быть дезинформация, токсичность, дискриминационные формулировки, нарушение авторских прав или недостоверные юридические рекомендации. В этом случае критичен не только технический контроль, но и юридическое обоснование границ ответственности: кто отвечает за сказанное моделью, как фиксируется контекст, есть ли пользовательское согласие на использование ИИ, как реализована функция отказа от использования генеративного контента.
Что делать?
Рассмотрим, что делать бизнесу, который хочет получить эффект от ГИИ уже сейчас. Выше мы уже обсудили немедленный прирост производительности труда, который вызывается базовым повсеместным внедрением ГИИ на рабочем месте. Отсюда следует первый шаг: во‑первых, нужен массовый всеобуч всех «белых воротничков» на фирме – от CEO до младшего специалиста отдела учета быстроизнашивающихся и малоценных предметов – базовой ГИИ-грамотности: что это такое, как это устроено, чего от этого можно обоснованно ожидать, а чего ожидать не следует, как промптить, как не промптить и какие бывают еще генеративные сервисы кроме chatGPT от OpenAI.
Поучаствовав в изрядном количестве подобных всеобучей в предыдущие три года, не устаю удивляться восторгам клерков при обнаружении ими возможности написать коммерческое предложение или составить презентацию продукта, то есть выполнить работу, ранее занимавшую половину рабочего дня, за несколько секунд. Естественно, неотъемлемой частью такого всеобуча должен быть модуль о запретах на трансграничную передачу персональных данных и в целом – о необходимости защиты данных определенного типа. Для среднего и высшего уровня дополнительно нужна стратегическая сессия с образовательной компонентой: как внедрять ГИИ на уровне процессов.
Во-вторых, задуматься о внедрении ГИИ в процессы компании. Как выбирать процесс? В ритейле и общепите есть понятие «длинный хвост» – такая часть ассортимента магазина или меню ресторана, каждый конкретный элемент которой посетитель выбирает редко, но суммарно они отвечают за весомую часть выручки. В задачах каждого работника тоже есть такой длинный хвост. Сотрудник HR-отдела ежедневно дает множество мелких консультаций сотрудникам об оформлении документов или имеющихся льготах. Специалист отдела поддержки отвечает на сотни однотипных, но все же разных вопросов о продукте.
Нужен массовый всеобуч всех «белых воротничков» на фирме – от CEO до младшего специалиста отдела учета быстроизнашивающихся и малоценных предметов – базовой ГИИ-грамотности: что это такое, как это устроено, чего от этого можно обоснованно ожидать, а чего ожидать не следует.
Массовое выполнение рабочей функции, имеющее всякий раз немного разный вход и немного разный выход, – идеальный сценарий первого внедрения. Важно придать такому внедрению статус эксперимента: определить его временные и пространственные (в рамках фирмы) границы, операционализировать гипотезу в терминах целевых метрик – сколько рабочих часов будет сэкономлено? Насколько удастся масштабировать процесс? Важно определиться с уровнем толерантности к ошибке, разработать или найти гайдлайны по формулировке «лучшего» ответа. Если такая толерантность невысока, выбирайте процессы, где или существует хорошо кодифицированный способ получения ответа на вопрос; или уже существует аналог «компилятора», то есть быстрого способа внешней проверки ответа на валидность; а лучше и то и другое.
Разрабатывая нового ИИ-ассистента у себя в Сколково, мы всегда начинаем с создания внутреннего «эвала» – базы данных эталонных вопросов и ответов. Другая, не конкурирующая, а дополняющая эвристика – доступ к явному корпусу знаний и ущерб (потеря выгоды) от невозможности их масштабировать или интегрировать. Если ваш сотрудник, вырабатывая какой‑то текст, опирается на внутреннее ощущение, эмпатию, интуицию и фирма, по сути, выступает инструментом капитализации этих неуловимых сущностей, попытка автоматизировать сотрудника принесет ущерб. Если существует корпус знаний (инструкции по эксплуатации, законы, гайдлайны) – ГИИ-технологии способны быстро превратить их в универсальный, дешевый и переиспользуемый ресурс.
Александр ДИДЕНКО, руководитель Лаборатории искусственного интеллекта Школы управления СКОЛКОВО































