Командная работа: возможности современных LLM
Последние версии больших языковых моделей поражают воображение. Скажем, две недавние ИИ-разработки — GPT-4o от OpenAI и Project Astra от Google — уже освоили ряд профессий.
Они научились распознавать и создавать изображения и видео, поддерживать обычный разговор с человеком на отвлеченные темы и даже подшучивать над собеседником. Этих ботов, которые могут быть персонализированы под нужды конкретного пользователя, разработчики называют универсальными ИИ-агентами.
ИИ-агенты собираются в системы
В отличие от уже известных всем платформ ИИ, которые выполняют четко сформулированную человеком задачу, такой агент способен принимать решения самостоятельно.
Покажите ему понравившиеся вам изображения, и ИИ предоставит список галерей с подобными картинами, посоветует, где посмотреть фильмы данной тематики, и т. д. Естественно, такой ИИ будет способен взять на себя и часть функций по выполнению каких-либо производственных задач.
Как показывает практика, ИИ-агент отлично справляется с относительно простыми заданиями. Проблемы возникают, когда агент берется за решение сложных многоступенчатых задач. Кроме того, ИИ подходит к решению таких задач последовательно, переходя от одного этапа к другому, что сказывается на скорости выполнения. Например, в традиционных (человеческих) компаниях решение многоуровневой задачи можно повесить на разных сотрудников, когда каждый из них получает свой посильный фронт. Таким образом, двигаться к результату можно параллельным курсом, увеличивая тем самым конечную скорость выполнения задания.
Именно по этой причине разработчики задумались над тем, чтобы научить большие языковые модели кооперироваться, работая совместно.
Такой футуристический «коллектив» ИИ-агентов получил название мультиагентных систем (Multi-Agent Systems или MAS). Концепция таких систем предполагала, что внутри MAS агенты смогут ставить друг другу задачи, обсуждать возникающие проблемы с помощью текстовых или голосовых сообщений (изображений), и находить решения, выходящие за рамки возможностей каждой из LLM по отдельности.
Первые «пилоты»
Одними из первых возможности MAS протестировали специалисты министерства обороны США. Трем ИИ-агентам, объединенным в MAS, поставили задачу найти и обезвредить взрывные устройства в виртуальном здании. Когда один из агентов обнаружил бомбу, он сообщил другим членам группы ее местоположение и предложил вариант обезвреживания. Другие члены подчинились ему и обсудили, что из виртуального инструментария лучше подойдет для реализации задуманного плана (т. е. самостоятельно, без указания человека, определили иерархию внутри MAS).
Позднее в Массачусетском технологическом институте (США) экспериментально доказали, что два чат-бота в диалоге лучше справляются с решением математических задач. Сначала два агента решали задачу по отдельности, а затем им было предложено обновить ответ с учетом результата партнера. И, если результаты были разными, они в конечном итоге приходили к общему знаменателю, находя правильный ответ.
Команды справляются лучше, чем одиночные агенты, потому что любую работу можно разделить на более мелкие и более специализированные задачи. Одна LLM также способна разделить задачи, но будет выполнять их последовательно, а это действует как ограничитель,— говорит Чи Ван, главный научный сотрудник Microsoft Research.
Ученый пришел к такому выводу, создав MAS, которая специализируется на написании программного обеспечения. ИИ-команда Чи Вана состоит из агента-руководителя (получает инструкции от человека и делегирует подзадачи агенту) и агента-программиста (пишет коды). Еще один агент-тестировщик отвечает за безопасность и проверяет результаты работы перед отправкой их назад по цепочке.
Присматриваются к концепции MAS и технологические корпорации. К примеру, Сатья Наделла, СЕО Microsoft считает, что возможность чат-ботов общаться и координировать действия может стать ключевой для развития компании. Microsoft уже выпустила AutoGen — специальную платформу с открытым кодом для создания команд LLM.
Три эры ИИ
Все эти новости с энтузиазмом были встречены гигантом электронной индустрии — корпорацией Intel. По мнению Сачина Катти, старшего вице-президента и генерального менеджера подразделения Intel Network and Edge Group, глобальное развитие ИИ пройдет в три этапа.
Сегодня технология находится в стадии «пилота». Вторым этапом станет переход от одиночных ИИ к ИИ-агентам, которые смогут взять на себя определенную часть рабочей нагрузки в компаниях. Третий этап будет характеризоваться масштабным внедрением MAS, которые смогут заменить значительное количество позиций в девелоперских компаниях.
Следующая эра станет эпохой ИИ-функций. Не одного агента, а группы агентов. Они становятся командой, чтобы, взаимодействуя друг с другом, взять на себя функции целых отделов. Задумайтесь о своем финансовом отделе, задумайтесь о своем отделе кадро,— прогнозирует Сачина Катти.
Проблемы от внедрения MAS
Первое, что бросается в глаза — социальные последствия наступление третьего этапа. Широкое внедрение MAS оставит без работы сотни тысяч людей из IT, сферы управления, финансов и т. д. Конечно, это не случится прямо завтра, но и ясных ответов на этот вызов пока нет.
Кроме того, распространение мультиагентных ИИ-сетей потребует громадных вычислительных мощностей и, соответственно, мегаинвестиций. Как рассказал Брайан Вентуро, соучредитель и директор по стратегии единорога CoreWeave, даже нынешний спрос на облачные вычисления выходит за рамки разумного. «Рынок движется намного быстрее, чем создаются цепочки поставок (дата-центры, энергетическая инфраструктура — GN). Это спринт, для которого потребуется весь капитал мира», — заявил Вентуро.
В Nvidia Corp., кстати, уже подсчитали, что только на оборудование для дата-центров потребуется инвестиций в $250 млрд ежегодно.
Есть и другие опасения. Как известно, у ИИ бывают так называемые галлюцинации, из-за которых система выдает выдуманные результаты. К сожалению, MAS также подвержены этому явлению. Более того, галлюцинация, начавшись у одного агента, подобно эпидемии, распространяется на всех участников мультиагентной ИИ-системы.
Если вопрос с «цифровым бредом» не решить до наступления «третьей эры» развития ИИ, то он может превратиться в глобальную проблему. Представьте возможные последствия «массового помешательства», которое охватило ИИ-сотрудников финансового или логистического департамента крупной международной корпорации.
Да и на главное преимущество MAS — способность договариваться и действовать командой — можно глянуть не только через розовые очки. К примеру, уже зафиксированы случаи, когда один из агентов, сделавший неправильные выводы, убеждал в них всю группу. Так, во время описанного эксперимента Минобороны США, участник MAS уговорил «коллег» не искать новые бомбы, а еще раз разминировать уже найденные (для быстрого достижения количественного результата).
Тут необходимо вспомнить, что современные коммерческие чат-боты имеют встроенные механизмы ограничения вредных действий. Если одиночному ИИ дать задание взломать другую LLM, написать фишинговое электронное письмо или разработать план кибератаки, бот попросту откажется это делать.
С MAS, как оказалось, все сложнее. В Шанхайской лаборатории ИИ, изучающей мультиагентные системы с открытым кодом (AutoGen, CAMEL-AI и др.), исследователи убедили одного из агентов отбросить этические нормы. В результате агент-злоумышленник смог обойти блокировки системы и поручил своим ИИ-партнерам выполнить вредоносные задачи.
Иными словами, попав не в те руки, команда ИИ-агентов может превратиться в серьезное оружие. Если такой MAS предоставить доступ к личной информации, программным системам и браузерам — последствия могут оказаться непредсказуемыми: можно лишиться как данных или денег, так и потерять контроль над управлением условными энергосетями.
По мере развития технологии, группа агентов одной LLM-системы сможет устанавливать партнерство с MAS других систем, поэтому перечисленные риски могут только возрасти.