Как ChatGPT год помогал мне в строительстве, пока не начал выдумывать несуществующие ГОСТы

3 Фев в 17:42

Как мы научили ИИ понимать строительные ГОСТы и СНиПы: история создания «Цифрового стандарта»

Эту историю специально для моего блога подготовил Алексей Кривоносов.

Около года назад я интегрировал ChatGPT в свои рабочие процессы. Мой основной бизнес — загородное строительство, параллельно я развиваю профильный YouTube-канал компании. Поначалу нейросеть отлично справлялась с рутиной: писала сценарии, составляла контент-планы и помогала оформлять технические отчеты.

Однако при попытке делегировать ИИ работу с нормативной документацией — сводами правил (СП), ГОСТами и отраслевыми регламентами — я столкнулся с серьезным барьером. Нейросеть начала «галлюцинировать»: выдумывала несуществующие пункты нормативов и приводила цифры, которые полностью противоречили официальным документам.

Это подтолкнуло меня и мою команду к созданию собственного инструмента — «Цифровой стандарт». За полгода мы вручную оцифровали строительную базу, перевели ее в векторный формат и настроили алгоритм, который исключает домыслы и выдает только проверенные данные.

Этап 1. Теневая сторона ChatGPT: почему ИИ нельзя доверять расчеты

В инженерных задачах я использую нейросети для верификации решений и поиска альтернатив. Однако принимать итоговое решение на основе «сырых» ответов модели — огромный риск.

Типичный пример: я запрашиваю требования к толщине утеплителя согласно СП 50.13330.2012. ChatGPT уверенно называет параметр (например, 150 мм) и ссылается на конкретный пункт документа. Но при проверке выясняется, что такого пункта не существует, либо в нем идет речь о совершенно других величинах.

Даже загрузка полного текста документа в контекстное окно не решает проблему. Из-за особенностей архитектуры модель может игнорировать середину файла или искажать смысл, вырывая фразы из контекста.

Причина проста: ChatGPT — это вероятностная модель. Она предсказывает наиболее подходящее следующее слово, а не проверяет факты в реальном времени. В строительстве такая ошибка критична: неверно рассчитанная нагрузка или теплопроводность — это прямая угроза безопасности и долговечности здания.

Этап 2. Архитектура RAG как спасение для инженера

Изучая опыт разработчиков нейросетевых решений, я пришел к архитектуре RAG (Retrieval-Augmented Generation). Ее суть в том, что модель сначала ищет релевантную информацию в закрытой базе данных и только потом формирует ответ, опираясь исключительно на найденные фрагменты.

Мы решили не загружать документы целиком, а создать структурированную базу, где каждый норматив хранится в специальном формате. ChatGPT в этой связке выполняет роль «переводчика», который приводит технический текст к понятному пользователю виду. Мы жестко ограничили интерпретацию: цитаты из первоисточников маркируются отдельно, чтобы пользователь четко видел разницу между текстом закона и пояснениями ИИ.

Проект быстро перерос формат «инструмента для личного пользования» и превратился в коммерческий продукт. Так появилась компания «Цифровой стандарт». Чтобы лучше понимать процессы, я за каникулы освоил Python, хотя до этого мой опыт программирования ограничивался университетским курсом Pascal.

Вместо популярных фреймворков вроде LangChain мы написали собственную архитектуру на Node.js и TypeScript, что позволило кастомизировать каждый этап обработки данных.

Этап 3. Ручная оцифровка: полгода борьбы с PDF и формулами

Главная сложность строительных норм — их формат. Автоматическое распознавание PDF часто превращает таблицы и формулы в нечитаемый набор символов. Нам пришлось вручную разбивать десятки СП и ГОСТов на логические смысловые блоки (чанки).

Каждый фрагмент снабжался метаданными и переводился в векторный формат — математическое представление смысла текста. На старте мы получили более 5500 таких фрагментов, и база продолжает расти.

Как ChatGPT год помогал мне в строительстве, пока не начал выдумывать несуществующие ГОСТы — Структура рабочего ядра нормативной базы (СП, ГОСТ, ТТК)

Математическая точность

Особое внимание уделили формулам. В строительстве расчет теплопотерь или нагрузок на фундамент — основа проектирования. При обычной конвертации формула R = δ/λ часто превращалась в мусор. Мы перевели все математические выражения в формат LaTeX, обеспечив их корректное чтение нейросетью.

Конвертация формул в LaTeX — Процесс перевода сложных формул в формат LaTeX для корректной интерпретации ИИ

Преимущество векторного поиска перед обычным полнотекстовым в том, что система понимает смысл. На запрос о вентиляции она найдет разделы про «воздухообмен» и «аэрацию», даже если точное слово «вентиляция» в заголовке отсутствует.

Этап 4. Работа алгоритма: от вопроса к экспертному ответу

Система работает в связке с ChatGPT-4.1 и нашей векторной базой. Процесс выглядит так:

Нормализация: Пользователь задает вопрос на бытовом языке. ИИ превращает его в профессиональный поисковый запрос.
Поиск: Система извлекает топ-10 самых релевантных фрагментов из базы.
Генерация: На основе этих данных ИИ формирует ответ, строго следуя многостраничной инструкции (промпту). Если информации в базе нет, система прямо скажет об этом, не пытаясь фантазировать.

Пользователь может выбрать глубину ответа: от краткого резюме до подробного экспертного разбора объемом до 12 000 знаков.

Пример генерации ответа со ссылками на СП — Пример работы системы: четкий вывод с прямой ссылкой на пункты нормативных документов

Этап 5. Путь к релизу и первые результаты

Оцифровка шла волнами: сначала базовые документы для ИЖС, затем расширенные ГОСТы. Мы столкнулись с массой технических вызовов — от нестабильности источников данных до сложностей с отображением графических схем.

Проект был запущен в открытый доступ 31 декабря 2025 года. Несмотря на праздники, мы сразу получили первых платных клиентов. Сейчас системой интересуются не только частные застройщики, но и национальные ассоциации, а также образовательные центры, готовящие кадры для строительной отрасли.

Технологический стек

Искусственный интеллект: ChatGPT-4.1 и модель эмбеддингов text-embedding-3-large от OpenAI.
База данных: Векторная СУБД Qdrant.
Разработка: Node.js, TypeScript, Python.
Форматирование: LaTeX для формул, Markdown для структуры.

Перспективы развития

В наших планах — внедрение ролевых моделей (прораб, инспектор стройконтроля, заказчик), автоматическое отслеживание изменений в законодательстве и запуск API для интеграции с профессиональным софтом. Мы стремимся сделать работу с нормами прозрачной и исключить человеческий фактор там, где цена ошибки слишком высока.

В моем Telegram-канале я опубликовал подробную схему сравнения классической ChatGPT и нашей RAG-архитектуры. Присоединяйтесь, чтобы следить за развитием проекта!

Источник