ИИ-агент — это программное обеспечение, использующее искусственный интеллект для автономного выполнения задач без постоянного участия человека. Это может быть принятие решений, устранение каких-то неполадок, взаимодействие с внешней средой или выполнение конкретных действий.
По большому счету, речь идет об автономной интеллектуальной системе, которая может предпринимать что-то без участия человека. От традиционных ИИ-систем они отличаются тем, что способны самообучаться на потоке поступающих задач.
Есть разные классификации типов ИИ-агентов, и одна из них, по сути, отражает эволюционное развитие таких инструментов.
Делят ИИ-агентов и по уровням автономности — от простых уровня L1 до полностью автономного уровня L5. К примеру, ChatGPT от OpenAI и Gemini от Google пока можно отнести лишь к уровню L1, однако недавно представленный общественности OpenAI ИИ-агент Operator может уже претендовать на L2, ведь он не только выполняет задачи, но умеет действовать и принимать решения самостоятельно.
Функциональность ИИ-агентов невероятно разнообразна, и их применение постоянно расширяется. Рассмотрим, например, сферу
Чат-бот на странице банка, предлагающий оформить кредитную карту, – это типичный пример ИИ-агента. Он не просто отвечает на запросы пользователей, а ведет диалог, уточняя детали и собирая необходимую информацию. Он анализирует данные клиента, его историю платежей, кредитный лимит и другие параметры, задавая цепочку вопросов, логически связанных друг с другом.
Например, если клиент запрашивает информацию об оплате счета, бот может затем уточнить дату платежа или сумму, а если клиент интересуется увеличением кредитного лимита, бот запросит информацию о доходах и расходах.
В случае, если бот сталкивается со сложной ситуацией или недостатком информации, он может передать запрос оператору-человеку, обеспечивая бесшовное обслуживание клиента.
Более того, такие агенты способны выявлять подозрительную активность, анализируя транзакции на предмет мошенничества, что значительно снижает финансовые риски для банка и его клиентов. Они также могут помогать в принятии решений по кредитованию, оценивая кредитный риск заемщиков и мониторя изменения в их финансовом положении в режиме реального времени, что позволяет своевременно реагировать на потенциальные проблемы. Все эти задачи выполняются автономно, без постоянного вмешательства человека.
В здравоохранении ИИ-агенты также демонстрируют огромный потенциал. Представьте себе систему, анализирующую медицинские изображения – рентгеновские снимки, УЗИ, КТ или МРТ. Обученная на огромных массивах данных модель способна обнаруживать признаки различных заболеваний с высокой точностью.
ИИ-агент, интегрированный в такую систему, может обрабатывать изображения нового пациента, выделяя ключевые особенности и предоставляя врачу краткое, но информативное заключение, включающее вероятные диагнозы и рекомендации по дальнейшему обследованию и лечению.
Агенты также могут анализировать историю болезни пациента, учитывая генетические факторы и симптомы, чтобы предложить врачу варианты диагностики и составить предварительный план лечения. Это значительно ускоряет процесс диагностики и позволяет принимать более обоснованные решения, особенно в сложных случаях.
Разработка автономных ИИ-агентов активно ведется многими крупными компаниями. Antropic, например, представила модель Claude 3.5 Sonnet, способную взаимодействовать с компьютерным интерфейсом, имитируя действия человека: нажатия клавиш, перемещения курсора и клики мышью. Эта модель используется в таких платформах, как Replit, для автоматизации разработки программного обеспечения.
Google представила семейство ИИ-агентов, включая Project Mariner (для работы в браузере), Jules (для разработчиков на GitHub) и Project Astra (универсальный помощник для поиска, Lens и Maps).
OpenAI также внесла свой вклад, представив Operator – автономного агента, способного выполнять многошаговые задачи на компьютере по текстовым инструкциям пользователя. Он анализирует веб-страницы, выполняет действия на сайтах и отчитывается о результатах.
Создаются ИИ-агенты с помощью специальных конструкторов на базе технологий машинного обучения и обработки естественного языка (NLP). Разберемся, что у таких систем “под капотом”.
Мозг ИИ-агента – это большие языковые модели, его руки – это инструменты, которые можно запускать с использованием кода. Вот основные этапы работы ИИ-агента.
Первое, что необходимо сделать, если вы решили внедрить ИИ-агента в бизнес-процессы – определить его цель. Что именно от него требуется – возможно, рассчитать кредитный рейтинг или сформировать список локаций, подходящих для открытия новой точки магазина?
Второе – требуется понять, какую информацию для этих целей ИИ-агент будет использовать, и откуда ее можно брать. Часто входные данные можно черпать из множества источников, они могут быть разного типа – картинки, отсканированная документация, аудио, карты и пр. Также определитесь, как именно агент получит доступ к этой информации.
Третье – определите правила, по которым агент должен анализировать предоставленные сведения, чтобы получить тот или иной результат. Этот этап может предполагать предоставление доступа к правилам или моделям машинного обучения.
Затем нужно выбрать действия, которые требуются для получения результата (например, обновление какой-то переменной процесса, обновление данных и др.)
Наконец, стоит разрешить ИИ-агенту предоставлять обратную связь, а не только выполнять конкретные действия. Это поможет ему обучаться и адаптироваться к меняющимся запросам.
Если разбить создание собственного ИИ-агента на этапы, то получится следующая инструкция.
В то же время отметим, что создание полноценного ИИ-агента – не такая уж простая задача, и зачастую куда легче обратиться за этим к специализированным разработчикам таких решений. Кроме того, есть no-code и low-code решения: Make, n8n, CrewAI, LangGraph, LangFlow.
Самое главное, что нужно осознавать – ИИ-агент не заберет на себя всю работу, он может лишь точечно снять с сотрудников нагрузку. Строить завышенных ожиданий не стоит.
В целом, при создании приложений с LLM лучше всего искать максимально простое решение – работать будет лучше. А еще – хорошо подумайте, нужны ли вам вообще ИИ-агенты. Для многих приложений вполне достаточно оптимизировать единичные вызовы LLM с использованием поиска и контекстных примеров.
Среди других барьеров можно назвать низкое качество и доступность корпоративных данных, которые используются в работе ИИ-агента, проблемы с их интеграцией в ИТ-инфраструктуру (предоставление доступа к чувствительным данным, протоколы информационной безопасности) и их последующей поддержкой.
Сложно также обеспечивать предсказуемость и контролируемость действий ИИ-агентов – иногда они могут принимать неожиданные решения. Важно также понять, как будут распределяться роли между сотрудниками и ИИ-агентами – ведь, по сути, сейчас формируется новая управленческая парадигма, в которой каждый сотрудник начинает “менеджерить” ИИ-подопечного – четко формулировать для него цели и задачи и верифицировать результаты его работы.