Мы сознательно сфокусировались не на доработке языковой модели, а на архитектуре вокруг нее — на том, как корпоративные знания организованы и как по ним проходит запрос. DCD задает трехуровневую карту знаний и управляемый маршрут обработки: сначала система определяет, в какой области знаний искать, затем — в каком тематическом срезе, и только после этого извлекает источники и формирует ответ.
Олег Конорев, директор департамента развития машинного обучения и искусственного интеллекта Билайн Big Data & AI и Алексей Жданов, директор продукта Smart Platform компании red_mad_robot, — о создании DCD Design — тиражируемого подхода и продуктовой архитектуры работы с корпоративными данными и знаниями для ИИ-агентов.
Билайн в партнерстве с red_mad_robot представили DCD Design (Domain–Collection–Document) — тиражируемый подход и продуктовую архитектуру работы с корпоративными данными и знаниями для ИИ-агентов. Это позволяет перевести корпоративных ИИ-агентов из разовых внедрений в повторяемую практику: дать компаниям не единичный чат-бот, а архитектуру знаний, которую можно многократно применять в разных доменах и организациях, сохраняя качество и управляемость. О создании решения рассказывают Олег Конорев, директор департамента развития машинного обучения и искусственного интеллекта Билайн Big Data & AI, и Алексей Жданов, директор продукта Smart Platform компании red_mad_robot — номинанты на премию Data Award.
Алексей Жданов: Идея DCD Design родилась из практики множества проектов внедрения технологии генерации с дополненной выборкой (Retrieval-Augmented Generation, RAG), где каждый пилот приходилось собирать с нуля: от структуры базы знаний до настройки поиска и оценки качества. На демо «наивный» RAG работал приемлемо, но на реальных корпусах — регламенты, юридические документы, сложные инструкции — начинал терять контекст, путаться в многосоставных запросах и давать нестабильный результат.
Мы пришли к выводу, что без доменно ориентированной архитектуры знаний и управляемого сценария вокруг модели бизнесу сложно выйти за рамки «хаоса пилотов». Так появился DCD (Domain–Collection–Document): иерархия знаний и управляемый роутинг запросов, который можно переносить между заказчиками и доменами без переизобретения архитектуры.
Олег Конорев: Многие компании застревают на уровне единичных пилотов: каждый ИИ агент проектируется с нуля, архитектура знаний не формализована, а накопленный опыт сложно перенести на других заказчиков или процессы. Рынок перегрет пилотами и испытывает дефицит устойчивых тиражируемых решений. DCD Design решает именно эту проблему: он делает корпоративные знания управляемым активом — со структурой, метаданными, версиями и границами доменов — и переводит внедрение ИИ агентов в стандартизируемый процесс с измеримым качеством.
Алексей Жданов: Мы исходили из простой гипотезы: качество генерации резко растет, когда модель работает не по «плоскому» полю документов, а внутри семантически однородных областей знаний. Поэтому DCD вводит три уровня — Domain, Collection, Document — и управляемую маршрутизацию запроса сверху вниз. В результате один и тот же подход к доменам, коллекциям, подготовке текстов и маршрутизации запросов переносится между заказчиками и доменами без переизобретения.
А.Ж.: Мы сознательно сфокусировались не на доработке языковой модели, а на архитектуре вокруг нее — на том, как корпоративные знания организованы и как по ним проходит запрос. DCD задает трехуровневую карту знаний и управляемый маршрут обработки: сначала система определяет, в какой области знаний искать, затем — в каком тематическом срезе, и только после этого извлекает источники и формирует ответ.
Этот маршрут дополняется «умным» чанкингом (sliding window, header based, contextual/meta chunking), гибридным поиском и встроенной валидацией через Guardrails и RAGAS подходы. Если сказать проще: мы сначала «запираем» запрос в правильной области знаний, затем извлекаем релевантный контекст и только потом генерируем ответ. Это снижает риск смешения контекстов и версий документов и дает стабильный результат на сложных запросах.
О.К.: Для Билайна было принципиально, что этот подход сразу интегрируется в существующую ИИ-платформу и процессы, а не живет отдельным исследовательским проектом. DCD Design встроен в Smart Platform, которая уже использовалась для запуска ИИ-агентов: ассистентов продавцов, операторов контакт центров, аналитиков, маркетологов, ассистентов секретаря. Поэтому архитектуру изначально проектировали совместимой с on premise развертыванием, гибридным поиском и агентными сценариями.
А.Ж.: Технологический стек состоит из нескольких слоев. На уровне данных мы подключаемся к корпоративным системам (Confluence, Jira, Google Drive, реляционные СУБД и др.), забираем оттуда документы, таблицы, изображения, аудио и видео и нарезаем их на удобные для ИИ фрагменты: по скользящему окну, по заголовкам и с учетом контекста и метаданных — это сохраняет структуру и смысл даже в больших разнородных массивах.
На уровне поиска используется гибридная схема: классический полнотекстовый поиск, поиск по «смысловым» векторным представлениям текста и их комбинации с семантическим переупорядочиванием результатов; мы дополняем это приемом HyDE (сначала генерируем «гипотетический» ответ и по нему подбираем документы), расширением исходного запроса близкими формулировками и выделением ключевых сущностей (NER — имена, компании, даты, суммы и т.п.). Поверх этого работает DCD Router — компонент, который шаг за шагом выбирает нужную область знаний и набор документов, а затем фиксирует маршрут в структурированном виде.
Отдельный слой — защитный контур Guardrails: фильтры нежелательного контента, проверки на галлюцинации и нарушения политик компании, плюс подходы RAGAS и LLM as Judge. Важно, что все эти компоненты собраны не как «витрина технологий», а как повторяемый контур качества: он одинаково применяется при запуске ИИ-агентов на новых корпусах и у новых заказчиков.
Источник – Издательство «Открытые системы»