Как мы научили ИИ понимать строительные ГОСТы и СНиПы: история создания «Цифрового стандарта»
Эту историю специально для моего блога подготовил Алексей Кривоносов.
Около года назад я интегрировал ChatGPT в свои рабочие процессы. Мой основной бизнес — загородное строительство, параллельно я развиваю профильный YouTube-канал компании. Поначалу нейросеть отлично справлялась с рутиной: писала сценарии, составляла контент-планы и помогала оформлять технические отчеты.
Однако при попытке делегировать ИИ работу с нормативной документацией — сводами правил (СП), ГОСТами и отраслевыми регламентами — я столкнулся с серьезным барьером. Нейросеть начала «галлюцинировать»: выдумывала несуществующие пункты нормативов и приводила цифры, которые полностью противоречили официальным документам.
Это подтолкнуло меня и мою команду к созданию собственного инструмента — «Цифровой стандарт». За полгода мы вручную оцифровали строительную базу, перевели ее в векторный формат и настроили алгоритм, который исключает домыслы и выдает только проверенные данные.
Этап 1. Теневая сторона ChatGPT: почему ИИ нельзя доверять расчеты
В инженерных задачах я использую нейросети для верификации решений и поиска альтернатив. Однако принимать итоговое решение на основе «сырых» ответов модели — огромный риск.
Типичный пример: я запрашиваю требования к толщине утеплителя согласно СП 50.13330.2012. ChatGPT уверенно называет параметр (например, 150 мм) и ссылается на конкретный пункт документа. Но при проверке выясняется, что такого пункта не существует, либо в нем идет речь о совершенно других величинах.
Даже загрузка полного текста документа в контекстное окно не решает проблему. Из-за особенностей архитектуры модель может игнорировать середину файла или искажать смысл, вырывая фразы из контекста.
Причина проста: ChatGPT — это вероятностная модель. Она предсказывает наиболее подходящее следующее слово, а не проверяет факты в реальном времени. В строительстве такая ошибка критична: неверно рассчитанная нагрузка или теплопроводность — это прямая угроза безопасности и долговечности здания.
Этап 2. Архитектура RAG как спасение для инженера
Изучая опыт разработчиков нейросетевых решений, я пришел к архитектуре RAG (Retrieval-Augmented Generation). Ее суть в том, что модель сначала ищет релевантную информацию в закрытой базе данных и только потом формирует ответ, опираясь исключительно на найденные фрагменты.
Мы решили не загружать документы целиком, а создать структурированную базу, где каждый норматив хранится в специальном формате. ChatGPT в этой связке выполняет роль «переводчика», который приводит технический текст к понятному пользователю виду. Мы жестко ограничили интерпретацию: цитаты из первоисточников маркируются отдельно, чтобы пользователь четко видел разницу между текстом закона и пояснениями ИИ.
Проект быстро перерос формат «инструмента для личного пользования» и превратился в коммерческий продукт. Так появилась компания «Цифровой стандарт». Чтобы лучше понимать процессы, я за каникулы освоил Python, хотя до этого мой опыт программирования ограничивался университетским курсом Pascal.
Вместо популярных фреймворков вроде LangChain мы написали собственную архитектуру на Node.js и TypeScript, что позволило кастомизировать каждый этап обработки данных.
Этап 3. Ручная оцифровка: полгода борьбы с PDF и формулами
Главная сложность строительных норм — их формат. Автоматическое распознавание PDF часто превращает таблицы и формулы в нечитаемый набор символов. Нам пришлось вручную разбивать десятки СП и ГОСТов на логические смысловые блоки (чанки).
Каждый фрагмент снабжался метаданными и переводился в векторный формат — математическое представление смысла текста. На старте мы получили более 5500 таких фрагментов, и база продолжает расти.

Математическая точность
Особое внимание уделили формулам. В строительстве расчет теплопотерь или нагрузок на фундамент — основа проектирования. При обычной конвертации формула R = δ/λ часто превращалась в мусор. Мы перевели все математические выражения в формат LaTeX, обеспечив их корректное чтение нейросетью.

Преимущество векторного поиска перед обычным полнотекстовым в том, что система понимает смысл. На запрос о вентиляции она найдет разделы про «воздухообмен» и «аэрацию», даже если точное слово «вентиляция» в заголовке отсутствует.
Этап 4. Работа алгоритма: от вопроса к экспертному ответу
Система работает в связке с ChatGPT-4.1 и нашей векторной базой. Процесс выглядит так:
- Нормализация: Пользователь задает вопрос на бытовом языке. ИИ превращает его в профессиональный поисковый запрос.
- Поиск: Система извлекает топ-10 самых релевантных фрагментов из базы.
- Генерация: На основе этих данных ИИ формирует ответ, строго следуя многостраничной инструкции (промпту). Если информации в базе нет, система прямо скажет об этом, не пытаясь фантазировать.
Пользователь может выбрать глубину ответа: от краткого резюме до подробного экспертного разбора объемом до 12 000 знаков.

Этап 5. Путь к релизу и первые результаты
Оцифровка шла волнами: сначала базовые документы для ИЖС, затем расширенные ГОСТы. Мы столкнулись с массой технических вызовов — от нестабильности источников данных до сложностей с отображением графических схем.
Проект был запущен в открытый доступ 31 декабря 2025 года. Несмотря на праздники, мы сразу получили первых платных клиентов. Сейчас системой интересуются не только частные застройщики, но и национальные ассоциации, а также образовательные центры, готовящие кадры для строительной отрасли.
Технологический стек
- Искусственный интеллект: ChatGPT-4.1 и модель эмбеддингов text-embedding-3-large от OpenAI.
- База данных: Векторная СУБД Qdrant.
- Разработка: Node.js, TypeScript, Python.
- Форматирование: LaTeX для формул, Markdown для структуры.
Перспективы развития
В наших планах — внедрение ролевых моделей (прораб, инспектор стройконтроля, заказчик), автоматическое отслеживание изменений в законодательстве и запуск API для интеграции с профессиональным софтом. Мы стремимся сделать работу с нормами прозрачной и исключить человеческий фактор там, где цена ошибки слишком высока.
В моем Telegram-канале я опубликовал подробную схему сравнения классической ChatGPT и нашей RAG-архитектуры. Присоединяйтесь, чтобы следить за развитием проекта!


