Новости
2023-06-22

Градация деградации: ожидает ли генеративный искусственный интеллект вырождение

Ученые бьют тревогу: если обучать искусственный интеллект на текстах, написанных его же «коллегой», это может привести к краху нейросетей. Насколько серьезна эта проблема и к чему она может привести?

**Интернет наполняется ерундой **

Спустя всего полгода после появления ChatGPT в широком доступе все больше людей применяют ИИ в создании и публикации контента. По данным McKinsey and Company, уже около 50% сотрудников по всему миру используют в своей работе подобные инструменты. Но что происходит по мере распространения контента, сгенерированного ИИ, по всему интернету, когда модели ИИ начинают обучаться на нем, а не на том, что создал человек?

Группа исследователей из Великобритании и Канады изучила эту проблему и недавно опубликовала статью о своей работе. То, что они обнаружили, вызывает тревогу для существующей технологии генеративного ИИ и ее будущего: использование контента, сгенерированного моделями, при обучении приводит к необратимым дефектам. Это, в свою очередь, приводит к коллапсу модели — «дегенеративному процессу, при котором со временем модели забывают истинное распределение исходных данных <...> этот процесс неизбежен даже для кейсов с почти идеальными условиями для долгосрочного обучения», пишут они.

«Со временем ошибки усугубляются и в конечном счете заставляют модели, которые учатся на сгенерированных данных, еще больше искажать реальность, — прокомментировал VentureBeat один из ведущих авторов статьи Илья Шумайлов. — Мы были удивлены, наблюдая, как быстро происходит разрушение модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально извлекли уроки». Таким образом, производительность ИИ ухудшается, это приводит к большему количеству ошибок в ответах и создаваемом контенте и к гораздо меньшему разнообразию безошибочных ответов. <….>

В ожидании коллапса

Действительно ли проблема настолько серьезная? Что значит «коллапс модели» и каким может быть решение? Не случится ли так, что ИИ, обучаемый на некорректных данных, сломает все и разрушит? Forbes опросил российских специалистов в области ИИ, что они думают по этому поводу. Опрошенные эксперты признают проблему некорректного обучения ИИ, однако не склонны ее драматизировать. «Проблема «шумных» данных была в машинном обучении всегда, начиная с классических моделей, — поясняет директор по ИИ и цифровым продуктам «Билайна» Константин Романов. — Однако сейчас ей стали уделять более пристальное внимание. Связано это с тем, что такой выход модели, как «текст» или «изображение», человеку проще оценить критически, нежели некоторые числовые выходы».

По мнению ведущего инженера NLP Just AI Константина Котика, то, что ИИ обучается на данных, сгенерированных самим же ИИ, не значит, что нейросети начнут деградировать. Он напоминает, что многие существующие модели, подобные тем, что заложены в ChatGPT, были получены за счет обучения на текстах, сгенерированных с помощью СhatGPT, например известная модель от Стэнфорда Alpaca. «Скорее нужно контролировать качество данных, а не ограничивать использование синтетических данных», — полагает он.