Абстракт
Стремительное развитие технологий искусственного интеллекта (ИИ) произвело радикальный переворот в науке о материалах, открыв новые пути решения ключевых проблем. Используя тщательно описанные наборы данных, извлеченные из научной литературы, инструменты на базе ИИ, включая методы обработки естественного языка (NLP), позволяют ускорить исследования в области материалов. Совершенствование NLP-подходов и появление больших языковых моделей (LLMs) способствуют более эффективному извлечению и использованию информации. В настоящем обзоре рассматриваются возможности применения инструментов NLP в науке о материалах, с особым вниманием к автоматическому извлечению данных, поиску новых материалов и автономным исследованиям. Также обсуждаются вызовы и перспективы, связанные с использованием LLMs, и очерчиваются будущие достижения, способные вывести отрасль на новый уровень.
Дисклеймер: это вольный перевод статьи научного журнала Nature. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Введение
Искусственный интеллект (AI) и машинное обучение (ML) уже произвели коренные преобразования в науке о материалах. Целый ряд примеров продемонстрировал ценность подхода, основанного на данных, для структурного проектирования материалов, оптимизации состава и технологических процессов, автономных экспериментов и интеллектуальных вычислений, позволяя выявлять новые взаимосвязи и закономерности. Большие и хорошо охарактеризованные наборы данных обеспечивают прочную основу для оценки точности и надежности предсказаний о материалах. Подавляющая часть знаний о материалах публикуется в виде рецензируемой научной литературы с достоверными данными. Традиционно в научных и технологических исследованиях данные вручную собирались и систематизировались из опубликованных работ и/или лабораторных экспериментов. Развитие баз данных материалов также предоставило дополнительные источники доступной информации. Однако этот процесс чрезвычайно трудоемок и серьезно снижает эффективность крупномасштабного накопления данных. Автоматизированное извлечение информации о материалах становится все более востребованным.
Развитие обработки естественного языка (NLP) открыло возможность автоматического создания крупномасштабных наборов данных по материалам и дало толчок к применению инструментов NLP в исследованиях, основанных на данных. NLP зародилась в 1950-х годах, и, пройдя шестидесятилетнюю эволюцию, впервые вошла в область химии материалов в 2011 году. С тех пор она продолжает оказывать все большее влияние на информатику материалов. Чаще всего NLP используют для автоматического извлечения информации из литературы, касающейся состава соединений и их свойств, процессов синтеза и соответствующих параметров, сплавов и их характеристик, а также технологических маршрутов. Разрабатывая алгоритмы (например, распознавание именованных сущностей и выделение связей в конкретных областях), исследователи создали ряд пайплайнов для извлечения данных из материаловедческих публикаций.
Значение векторных представлений слов (word embeddings) в NLP трудно переоценить. Именно благодаря этим распределенным представлениям слова модели могут «читать» фразы и понимать лежащие за словами концепции и контекст подобно человеку. Кроме того, научные знания, содержащиеся в материалах и описанные в литературе, можно эффективно переносить в виде информационно насыщенных векторных представлений. Такие векторы невысокой размерности успешно применяются для расчета сходства материалов, что помогает в открытии новых решений. В последнее время появление предварительно обученных моделей ознаменовало новую эпоху в исследованиях и разработках NLP. Большие языковые модели (LLMs), такие как Generative Pre-trained Transformer (GPT), Falcon и Bidirectional Encoder Representations from Transformers (BERT), демонстрируют свою «интеллектуальность» за счет масштабных данных, глубоких нейронных сетей, методов самообучения и полусамообучения, а также мощных аппаратных ресурсов. Архитектура Transformer, основанная на механизме внимания, лежит в основе LLM и уже применяется для решения многих задач, связанных с извлечением информации, генерацией кода и автоматизацией химических исследований.
В последнее время GPT-модели начали использоваться в науке о материалах, предлагая новый подход к извлечению информации из материаловедческой литературы посредством инженерии запросов (prompt engineering), что отличается от традиционного NLP-пайплайна. Суть такого подхода состоит в умении формулировать запросы, которые направляют генерацию текста моделями. Эти запросы, являясь входными инструкциями или вопросами для ИИ, играют решающую роль в определении качества, релевантности и оригинальности ответов. Грамотно составленные запросы крайне важны для эффективной работы GPT, поскольку они включают элементы ясности, структуры, контекста, примеров, ограничений и итеративной доработки.
Хотя облачные версии GPT позволяют быстро получать выводы, их обучение занимает значительное время – от нескольких недель до месяцев. Длительность обучения влияет на способность модели к обучению и сходимости: чем дольше процесс тренировки, тем выше может быть качество результатов. Количество и характеристики графических процессоров (GPU) также влияют на размер модели и скорость ее обучения: более производительные или многочисленные GPU позволяют тренировать более крупные модели и быстрее проводить эксперименты и итерации.
Однако, как показал недавний опыт с DeepSeek-R1, грамотный выбор алгоритмов и оптимальное использование ресурсов могут существенно сократить размер языковых моделей без ущерба для их производительности. Объем обучающего корпуса также сильно влияет на эффективность LLM: большие корпуса обеспечивают более обширные и разнообразные знания, в то время как их качество (например, тщательная проверка и низкий уровень шума) определяет способность модели улавливать содержательные представления. Специализация корпуса по тематикам также формирует навыки модели в конкретных областях, например, при обучении на научной литературе она лучше справляется с научными задачами, чем модели, обученные на общедоступном веб-контенте. Помимо извлечения информации, ведутся исследования по применению GPT в прогнозировании и проектировании материалов. С помощью методов дообучения исследователи стремятся дополнить крупные модели специализированными знаниями, выходящими за рамки их общих возможностей, чтобы они могли проводить количественные расчеты для индивидуального проектирования компонентов, оптимизации процессов, предсказания свойств и автономного научного поиска.
Тем не менее, между ожиданиями материаловедов и реальными возможностями существующих моделей сохраняются заметные разрывы. Одна из основных проблем заключается в необходимости обеспечения более точных и надежных предсказаний в приложениях материаловедения. Хотя такие модели, как GPT, уже демонстрируют успешные результаты в разных областях, им нередко недостает достаточной конкретики и экспертных знаний, необходимых для решения тонких задач в науке о материалах. Исследователи стремятся к тому, чтобы модели могли давать точные прогнозы и аналитические выводы о свойствах, поведении и работе материалов при различных условиях, а также предоставлять объяснения своих предсказаний, позволяющие глубже понять заложенные механизмы и принимать более взвешенные решения на основе полученных данных.
Еще одной значимой потребностью является интеграция специализированных отраслевых знаний в работу моделей. Материаловедение охватывает множество дисциплин и терминов, и модели должны уметь эффективно использовать этот комплекс знаний, чтобы повышать точность своих прогнозов и предоставлять уместную информацию в нужном контексте. Кроме того, при развитии подходов, основанных на больших языковых моделях, необходимо учитывать создание локализованных решений, оптимальное использование вычислительных ресурсов и доступность открытых версий моделей. Все это определяет ключевые условия для применения больших языковых моделей в материаловедении и открывает перспективы дальнейшего прогресса в этой области.
В предлагаемом обзоре мы рассматриваем концепции, подходы и достигнутые на сегодняшний день результаты в извлечении информации о материалах, языковые модели в контексте материалов и их влияние. В то время как другие исследователи уже провели анализ методов извлечения данных с помощью NLP и текст-майнинга, стремительное развитие больших языковых моделей позволяет использовать преимущества контекстных последовательных представлений, которые приближаются к человеческому уровню понимания.
Недавние работы, посвященные комплексному проектированию сплавов на основе больших языковых моделей, подчеркивают их потенциал в ускорении создания новых материалов. Предлагается включать критерии проектирования для конкретных задач либо выбирать информацию из публикаций и патентов, целостно анализировать ограничения и использовать специальные инструкции (prompt engineering), чтобы правильно упорядочивать и объединять эти ограничения в зависимости от целей.
Мы рассматриваем достижения последних лет, которые привели к появлению систем на основе подобных подсказок, специализированным моделям для науки о материалах, а также к полной интеграции ресурсов, позволяющих вести автономные научные исследования. Обзор состоит из пяти разделов. Сначала мы затрагиваем общую концепцию NLP и прослеживаем ее развитие в материаловедении.
В разделе 3 дается обзор NLP-пайплайнов для автоматического извлечения данных о материалах и анализируются случаи, связанные с составом, свойствами и маршрутами синтеза, включая как традиционные методы извлечения информации, так и современные решения на базе больших языковых моделей.
В разделе 4 обсуждаются результаты и влияние языковых моделей на материаловедение: мы показываем, как векторные представления слов, специализированные языковые модели и интеллектуальные агенты способствуют открытию новых материалов, прогнозированию свойств и автономным исследованиям.
Наконец, в разделе 5 дается обзор текущего состояния исследований, связанных с NLP и большими языковыми моделями в материаловедении, а также определяются будущие вызовы и возможности. Наша цель – не только выделить последние достижения и тенденции, но и предоставить практические рекомендации, критический анализ и ценные идеи, которые могут быть полезны ученым, инженерам и всем заинтересованным специалистам в области материаловедения.
Развитие методов обработки естественного языка
NLP имеет долгую историю, берущую начало еще в 1950-х годах. Основная цель состоит в том, чтобы научить компьютер понимать и формировать текст, что сводится к двум ключевым задачам: пониманию естественного языка (NLU) и генерации естественного языка (NLG). NLU ориентируется на машинное понимание текста, используя синтаксический и семантический анализ, чтобы улавливать скрытые смыслы. NLG, напротив, занимается генерацией слов, предложений и абзацев в заданном контексте. Первые системы строились на базе вручную прописанных правил, основанных на экспертных знаниях, и были способны решать лишь узкие, четко ограниченные задачи.
Затем, в конце 1980-х, с ростом объемов цифровых данных и вычислительных ресурсов, на смену пришли алгоритмы машинного обучения (ML). Вместо того чтобы прописывать правила вручную, ML анализировал большие коллекции размеченных текстов для выявления закономерностей. Однако ML требует от исследователей разработки признаков (features), и из-за огромного количества слов и их сочетаний неизбежно возникает проблема разреженных данных и проклятия размерности. Ситуация изменилась с появлением глубинного обучения (DL), способного автоматически формировать признаки из обучающих данных. Именно это привело к появлению сетевых архитектур, таких как двунаправленная сеть LSTM (BiLSTM) и Transformer, лежащий в основе больших языковых моделей.
На рисунке 1 показаны основные этапы развития технологий NLP — от ручной разработки правил до глубокого обучения, а также задачи NLP, отвечающие потребностям в извлечении информации и открытии новых материалов. Ниже кратко описаны некоторые ключевые концепции, которые продвинули эту область вперед.

Векторные представления слов
Чтобы языковые модели могли «читать» предложения и улавливать стоящие за словами идеи, сходные с тем, как это делает человек, необходима числовая репрезентация каждого слова. Желательно, чтобы такая репрезентация отражала лингвистическое значение слова и его семантические связи с другими словами. Векторные представления слов (word embeddings) позволяют преобразовать слова в вектор. Это плотные, маломерные репрезентации, сохраняющие контекстную близость слов. Две популярные архитектуры, Continuous Bag-of-Words (CBOW) и Skip-Gram (SG), эффективно выучивают такие векторные представления, улавливая латентные синтаксические и семантические сходства между словами. Модели Word2vec и GloVe широко известны в этой области: они строят векторные представления, используя статистику глобальной сочетаемости слов из крупного корпуса. При этом слова со сходным значением получают похожие вектора, а косинусное сходство между ними служит мерой их связи. Изначально данные эмбеддинги были «статическими» и не учитывали порядок слов в последовательности, но впоследствии появились «контекстные» или динамические представления благодаря механизму самовнимания.
Механизм внимания
Механизм внимания изначально появился как расширение архитектуры «энкодер-декодер». В такой модели первый модуль кодирует исходную последовательность, а второй — декодирует ее, генерируя выходную. С помощью внимания модель концентрируется на тех участках исходной фразы (отдельном слове или выражении), где сосредоточена наиболее важная информация, а затем предсказывает следующее слово, учитывая окружающий контекст. В самовнимании (self-attention) статические векторные представления слов преобразуются в динамические или контекстные за счет учета связей каждого слова с предыдущими и последующими словами в последовательности.
Подходы к предварительному обучению
Одно из главных препятствий в NLP — нехватка данных для обучения, поскольку специализированные наборы обычно включают лишь несколько тысяч размеченных примеров. Чтобы компенсировать этот дефицит, были разработаны методы предварительного обучения, которые используют огромные объемы неразмеченного текста для формирования универсальных языковых моделей. Такие задачи обучения в общем виде можно условно разделить на контролируемое, неконтролируемое и полусамообучение. В контролируемом обучении алгоритм формирует зависимость между входными характеристиками и выходным значением на основе обучающей выборки. При неконтролируемом задача сводится к обнаружению закономерностей или знаний из неразмеченных данных путем кластеризации, анализа плотности и поиска скрытых структур. Полусамообучение предполагает предсказывать недостающие фрагменты входных данных, исходя из уже имеющихся в этих данных частей. Примером служит метод «маскированная языковая модель», который старается восстановить спрятанные слова в предложении, опираясь на остальные. Модель, прошедшая подобное предварительное обучение, может затем дообучаться на относительно небольших тематических наборах, что часто дает улучшенную обобщающую способность и ускоряет сходимость при решении целевых задач.
Большие языковые модели
Ранее предложенные модели вроде ELMo и BERT были нацелены на обучение контекстных векторных представлений, отражающих лексическую и семантическую среду слов. В последнее время большие языковые модели проявили способность к обобщенному представлению языка, включая понимание и генерацию текстов. Под термином «большая языковая модель» обычно подразумевают модель, имеющую внушительное число параметров, обученную на колоссальных объемах данных с высокой вычислительной мощностью, что позволяет ей улавливать сложные языковые паттерны. GPT (Generative Pretrained Transformer), разработанная OpenAI, — одна из наиболее масштабных подобных моделей: она включает несколько уровней трансформер-блоков, где используется самовнимание и прямое распространение сигналов так, чтобы каждое входное «токен-слово» влияло на следующие с учетом авторегрессии.
Версии GPT развивались по мере роста числа параметров и перехода к многоцелевому обучению, а также освоению техник мета-обучения и обучения в контексте. При создании ранних вариантов ChatGPT (разновидности GPT-3.5) применялось обучение с подкреплением, учитывающее обратную связь от человека, что постепенно улучшало модель. Итоговая версия ChatGPT достигает уровня, близкого к человеческому, на различных профессиональных и академических тестах, основываясь на GPT-4 — большой мультимодальной модели, которая принимает изображения и текст на вход и выдает текст на выходе.
Как показано на рисунке 1, в науке о материалах NLP обычно применяют в трех направлениях. Во-первых, это извлечение информации — описание соединений и состава, маршрутов синтеза, параметров и свойств, позволяющее фильтровать обширный массив нерелевантных сведений и формировать базы данных для дальнейшего проектирования материалов на основе данных. Во-вторых, научные знания о материалах из опубликованной литературы можно эффективно кодировать в виде векторных представлений, плотных по информации. Используя семантическую близость текстов, удается выявлять новые материалы со сходными свойствами без ручной разметки или контроля. Эти эмбеддинги также можно применять для кодирования сведений, связанных с прогнозированием свойств. В-третьих, разговорные большие языковые модели могут работать в замкнутом контуре для самостоятельного проектирования, планирования и проведения сложных экспериментов, что ведет к появлению автономных исследований в области материалов.
NLP-пайплайн для автоматического извлечения данных о материалах
Общие сведения о NLP и его отличие от больших языковых моделей
NLP охватывает широкий спектр задач, включая поиск информации, распознавание именованных сущностей, извлечение отношений, классификацию текстов, тематическое моделирование, определение семантического сходства, машинный перевод и системы вопросов-ответов. На базе этих задач были созданы NLP-пайплайны для автоматического извлечения данных из журналов по химическому составу, свойствам и методам синтеза органических и неорганических соединений, а также сплавов. Получение информации о материалах из научной литературы осуществляется двумя основными методами: традиционным NLP и NLP на базе больших языковых моделей. Оба подхода имеют ряд общих этапов: сбор корпуса, предварительную обработку, извлечение информации и разрешение взаимозависимостей. При традиционном NLP используются конкретные инструменты для извлечения данных (например, классификация текста, парсинг таблиц, распознавание именованных сущностей, извлечение связей), тогда как в LLM-подходе основную роль играют инженерия запросов и дообучение, позволяющие получать нужную информацию в ходе интерактивных диалогов (см. рис. 2).

Первым шагом становится автоматический сбор релевантного корпуса научных статей. Многие журналы и издатели предоставляют контент в виде HTML, обычного текста или XML при помощи соответствующих API, что упрощает дальнейшее взаимодействие по сравнению с форматом PDF. Статьи содержат текст и метаданные (название журнала, заголовок, аннотацию, сведения об авторах). После получения корпуса выполняется несколько стадий предварительной обработки: очистка корпуса, токенизация и морфологическая разметка. Очистка устраняет служебные теги HTML и XML, а также несвязанные метаданные, которые входят в программно загружаемые статьи. Токенизация разбивает текст на осмысленные фрагменты (предложения, фразы, слова или их части), которые впоследствии обрабатываются либо по отдельности, либо в виде последовательности. Так формируется очищенный, нормализованный корпус для извлечения информации.
В традиционном NLP после этого проводят классификацию текста, чтобы определить, в каких предложениях или абзацах содержатся состав, свойства или методика синтеза, используя двоичный классификатор (с позитивными примерами для релевантных абзацев и негативными для нерелевантных), тематическое моделирование либо набор правил. Таблицы часто становятся объектом извлечения из-за высокой плотности данных, и парсинг таблиц переводит всю информацию (включая заголовок и тело) в структурированный формат.
Задачи распознавания именованных сущностей и извлечения связей считаются важнейшими компонентами при работе с материалами: они позволяют идентифицировать соединения, составы сплавов, свойства, параметры синтеза, а также выявлять семантические взаимосвязи, например между соединением и его свойствами. Разрешение взаимозависимостей объединяет информацию о химическом составе, технологических маршрутах и свойствах одного и того же материала.
При использовании NLP на базе больших языковых моделей, после предварительной обработки выполняется инженерия запросов, направляющая модель на выдачу ответов, соответствующих целям извлечения данных, при этом параметры самой модели не меняются. Такой подход избавляет от необходимости дополнительной тренировки, позволяя дорабатывать запросы для более точных ответов. Если же этого недостаточно, прибегают к дообучению. В этом случае модель доучивают на корпусе текстов, связанных с областью материалов, чтобы адаптировать ее к специфическим задачам извлечения информации.
Традиционный NLP-пайплайн
Общие методы распознавания именованных сущностей (NER) и извлечения связей охватывают поиск в словарях, правила, полусамообучение и подходы на основе машинного обучения, как показано на рисунке 3. Выбор метода зависит от объема размеченного корпуса: при достаточном количестве размеченных данных обычно применяют прямые методы на базе машинного обучения, включая вычисление схожести представлений. Если имеется достаточно большой объём размеченного корпуса, для задач NER и извлечения связей можно обучать сеть BiLSTM с CRF-слоем. BiLSTM является двунаправленной рекуррентной нейронной сетью с ячейкой LSTM, что помогает решать проблему долгосрочной зависимости в текстовых данных и лучше улавливать семантический контекст предложений. На вход BiLSTM подают векторные представления слов, а выходные вероятности для каждого слова передаются в CRF-слой, который совместно декодирует оптимальную последовательность меток, учитывая взаимосвязи между соседними метками. Для относительно небольших корпусов подходы полусамообучения и основанные на правилах, как правило, показывают лучшие результаты.

Большое внимание уделяется извлечению состава материалов и их свойств с помощью традиционных NLP-пайплайнов. В химической области были разработаны инструменты и методы для автоматического извлечения химических сущностей, их свойств и измерений. Уже в начале 2010-х годов начали появляться системы для распознавания химических сущностей в литературе, такие как OSCAR, ChemicalTagger и ChemDataExtractor. Это комплексные решения для текст-майнинга в химии, позволяющие заполнять структурированные базы данных.
В 2016 году был создан ChemDataExtractor — гибридный подход, сочетающий методы на основе словарей и правил с алгоритмами машинного обучения; он предоставляет удобный пайплайн для обработки текста, включая токенизацию, морфологическую разметку, распознавание именованных сущностей и синтаксический разбор фраз. В дальнейшем появились расширенные версии, в том числе ChemDataExtractor2.0, позволяющие автоматически формировать онтологии, извлекать химические и физические свойства и иерархически структурировать данные в виде вложенных сущностей.
Эти инструменты успешно применяются для извлечения сведений о различных материалах, включая перовскиты, красители для солнечных элементов, полупроводниковые материалы, магнетики и сплавы с подробными характеристиками (температура Кюри, диэлектрическая проницаемость и т. д.). В других работах обучали модель BiLSTM-CRF для извлечения огромных массивов именованных сущностей, связанных с материалами, а также использовали модели на базе BERT, адаптированные для предсказания свойств полимеров и иных материалов.
В отличие от обширного массива литературы по органическим и неорганическим материалам, корпус, посвященный сплавам (включая суперсплавы, алюминиевые сплавы, сталь и другие), значительно меньше и ограничен лишь несколькими десятками тысяч публикаций. Это создает трудности при формировании крупных размеченных наборов данных для обучения глубинных моделей в задачах NER и извлечения связей. В некоторых исследованиях предлагались автоматизированные NLP-пайплайны для извлечения состава и физических свойств суперсплавов (температура солидуса, ликвидуса, плотность и т. д.), на основе которых затем строили модели для прогнозирования ещё не изученных сплавов. Параллельно разрабатывались полусамообучающиеся фреймворки, которые расширяют набор размеченных данных и повышают точность извлечения свойств для суперсплавов. В других работах использовались и чисто правил-based методы для выделения состава и характеристик алюминиевых сплавов из научных статей и патентов.
При поиске материалов с особыми свойствами важно учитывать не только химический состав и структуру, но и разнообразные технологические маршруты. Обычно процессы синтеза и обработки представлены как последовательность действий, связанных друг с другом. Эти действия разнообразны по типу, выражаются по-разному и зависят от конкретных условий и параметров. К тому же такая цепочка событий часто переплетается с описанием экспериментальных феноменов и промежуточных продуктов, что усложняет задачу выявления действий и параметров.
Было проведено множество исследований, посвященных извлечению методик химического синтеза в неорганических материалах (см. рис. 4). Kim и соавторы применили сочетание нейросетевого и парсингового подхода, чтобы выделить набор параметров синтеза для 30 различных оксидных систем из более чем 640 000 журнальных статей. Wilary и коллеги разработали программный инструмент ReactionDataExtractor, позволяющий автоматически собирать информацию из многошаговых реакционных схем. Huo и соавторы представили полусамообучающийся метод на базе скрытого распределения Дирихле (latent Dirichlet allocation) для классификации описаний синтеза неорганических материалов, который также позволил воссоздать блок-схему возможных вариантов синтеза посредством представления последовательности экспериментов в виде марковской цепи. Они объединили модель BiLSTM-CRF, зависимость между предложениями и правила для извлечения «рецептов» синтеза неорганических материалов, включающих цели, прекурсоры, операции, условия и реакции, а также методики синтеза для наночастиц золота и неорганических материалов, получаемых из растворов. Используя базу знаний с 29 900 рецептами твердофазного синтеза, автоматически извлеченными из научной литературы, они смогли рекомендовать прекурсоры для получения новых материалов. Такой подход, основанный на данных, выявляет химическое сходство веществ и сопоставляет синтез некой новой цели с уже известными методами для материалов-аналогов, достигая успеха не менее чем в 82% случаев. Чтобы эффективно использовать извлеченные данные о методах синтеза, Vaucher и соавторы разработали набор действий с заданными свойствами и модель на базе трансформера для преобразования экспериментальных инструкций в последовательности действий. Kim и коллеги представили безучебный метод на базе условного вариационного автоэнкодера для сопоставления научных публикаций с контекстными идеями по планированию синтеза неорганических материалов.

В корпусах, посвященных сплавам, процессы синтеза и обработки описываются как на уровне отдельных токенов, так и на уровне «фрагментов» (chunks), в зависимости от длины фразы, тогда как в химическом синтезе обычно упоминаются только токен-уровни действий. Кроме того, в описании действий при работе со сплавами большое значение имеет их позиция в технологическом цикле: например, стадия старения может встречаться в виде первичной или вторичной термообработки. Это создает дополнительные сложности при ручной разметке таких сущностей. В одной из работ Wang и соавторы предложили полусамообучающийся алгоритм рекомендаций для токен-уровня и многоуровневый алгоритм бутстрэппинга для «фрагментного» уровня, позволяющие извлекать параметры, связанные с последовательностью этапов синтеза и обработки суперсплавов. В результате удалось автоматически выявить 9853 действия по синтезу и обработке суперсплавов вместе с данными по химическому составу, проанализировав корпус из 16 604 статей, посвященных суперсплавам.
Недавние разработки с использованием больших языковых моделей
Традиционное NLP отличается простотой и хорошо приспособленными к конкретным задачам решениями, однако оно с трудом справляется с гибкостью и повышенной сложностью. В последнее время в моделях GPT применяется архитектура декодера Transformer, состоящая из механизмов самовнимания и прямого распространения, что позволяет моделям генерировать текст. Диалоговые большие языковые модели, такие как GPT-4, демонстрируют исключительную эффективность в извлечении данных из больших массивов научных статей. Их применение для анализа информации, выделения ключевых деталей и генерации ответов становится все более популярным во многих областях исследований в автономном режиме, используя методы инженерии запросов и дообучения, а также интеграцию с другими научными инструментами.
Значительного повышения качества работы диалоговых моделей можно добиться с помощью инженерии запросов, где создаются продуманные «подсказки» (prompts), позволяющие направлять модель на получение точных и релевантных ответов. Суть инженерии запросов заключается в продуманном формировании и уточнении входных инструкций для модели, что помогает снижать вероятность появления выдуманных ответов. Так, Zheng и соавторы представили структуру, в которой с помощью инженерии запросов ChatGPT автоматически выделил 26257 различных параметров синтеза для 800 металло-органических каркасов из научной литературы, обеспечив показатели точности, полноты и F1-меры на уровне 90–99%. На основе этих данных затем обучалась модель машинного обучения для прогнозирования кристаллизации металло-органических каркасов. Da и коллеги показали, что большие языковые модели могут автоматически извлекать детали синтеза ретикулярных материалов из научных публикаций, если снабдить их подробными «подсказками», включающими инструкции по задаче и примеры. С ограниченным количеством примеров нескольким моделям удалось добиться впечатляющих результатов (F1 до 0.98 при классификации абзацев и точности 0.96 при извлечении информации). Другие исследователи изучали работу GPT-3.5 для парсинга и извлечения сведений о синтезе термоэлектрических материалов (в частности, твердофазных методов синтеза для троичных халькогенидов). Создав набор данных «золотого стандарта» и набор «подсказок» с точностью извлечения 73%, они показали, что модель способна обработать 61 статью из 168. В другом исследовании предложен инструмент ChatExtract, который, используя ChatGPT в режиме «zero-shot» с продуманными «подсказками», позволяет в автоматическом режиме и без больших предварительных усилий извлекать данные о свойствах материалов в формате «Материал—Значение—Единица». Этот метод обеспечивает точность 90.8% и полноту 87.7% при выделении значений модуля объемного сжатия, а также точность 91.6% и полноту 83.6% при определении критических скоростей охлаждения металлических стекол.

Дообучение больших языковых моделей позволяет им глубже сосредоточиться на знаниях в области материалов и учесть специфические требования задачи, что повышает точность извлечения данных, адаптивность и устойчивость модели, а также расширяет ее возможности. Dagdelen и соавторы показали, что при использовании крупномасштабных моделей вроде GPT-3 и Llama-2 в режиме «sequence-to-sequence», дообученных на нескольких сотнях примеров «текст—разметка», можно эффективно решать задачи распознавания сущностей и выявления связей в сложной предметной области и тем самым извлекать большие объемы структурированных данных из научной литературы. Xie и коллеги предложили новый тип задачи «structured information inference», чтобы преобразовывать неструктурированные научные данные в структурированные форматы, что полезно для применения в материаловедении. За счет дообучения модели llama-7b-hf им удалось автоматически обновлять набор данных по перовскитным солнечным элементам с F1-метрикой 87.14% при формировании схемы и учете многоуровневой информации об устройстве материалов в актуальных публикациях.
Развитие материалов на основе языковых моделей
Векторные представления слов для открытия новых материалов
Хотя технологии NLP в области материаловедения находятся на ранней стадии, набирает обороты тенденция к созданию специализированных языковых моделей для материалов, способных формировать высококачественные векторные представления (эмбеддинги) для химических веществ, элементов и других сведений о материалах. Эти представления позволяют улавливать скрытые синтаксические и семантические сходства между словами в литературе, что упрощает отбор потенциальных кандидатных материалов и служит входными векторами для задач прогноза свойств.
Первые векторные представления слов в материаловедении строили методом Word2vec, исходя из совместных вхождений слов в научной литературе. В ходе обучения целевые слова кодировались вектором из нулей и единиц (one-hot encoding), где на месте соответствующего индекса в словаре ставилась единица, а на всех остальных – ноль. Такие вектора подавались на вход однослойной нейронной сети, которая обучалась предсказывать слова, встречающиеся в некотором радиусе от данного. Для похожих материалов, например «железо» и «сталь», при соответствующей выборке текстов вектор для «железа» будет ближе по косинусному расстоянию к «сталь», чем к «органика». Слова, близкие по смыслу, как правило, встречаются в схожих контекстах, а аналогии выявляются при помощи операций сложения и вычитания над этими эмбеддингами. Так, Тшитоян и соавторы применяли вариацию skip-gram из алгоритма Word2vec к 3,3 млн научных рефератов из более чем тысячи журналов по материалам, опубликованных с 1922 по 2018 год. В результате для каждого слова было получено 200-мерное представление, позволяющее находить потенциальные материалы со схожими свойствами на основе косинусного сходства. При этом некоторые материалы, имеющие высокое косинусное сходство со словом «термоэлектрик», ни разу не упоминались в тех же рефератах вместе с данным словом или другими маркерами термоэлектриков. Пэй и соавторы также применили алгоритм skip-gram на 6,4 млн рефератов, связанных с материалами, включая металлические, и успешно описали высокоэнтропийные сплавы в виде 200-мерных векторных представлений. Подход позволил выявить известные сплавы типа FCC Cantor и BCC Senkov как наиболее перспективные представители высокоэнтропийных систем задолго до их реального открытия и синтеза. Word2vec хорошо улавливает лексико-семантическую близость слов, но при этом создает статические эмбеддинги, которые не учитывают контекст, в котором слово встречается. Кроме того, при работе с новыми или редкими словами, отсутствующими в обучающем корпусе, модель не способна сформировать корректное векторное представление.

Дообученные языковые модели и прогноз свойств
Чтобы преодолеть эти ограничения, появились языковые модели на базе архитектуры Transformer, в которых механизмы самовнимания определяют вес различных фрагментов входных данных, позволяя учитывать дальнодействующие связи в тексте. Модель BERT, предложенная Google в 2018 году, формирует контекстуализированные векторные представления слов, то есть учитывает окружение слова в конкретном предложении. Это отличает ее от классических методов Word2Vec или GloVe, где у каждого слова одно неизменное векторное представление. На основе BERT появилось множество других моделей, таких как RoBERTa, ALBERT и DistilBERT, стремящихся повысить эффективность и точность. Изначально BERT обучался на корпусе Books Corpus (800 млн слов) и английской Википедии (2500 млн слов), имея в словаре около 30 млн токенов. Однако такая модель не обладает специализированными знаниями о материалах, поэтому не формирует надежных эмбеддингов для этой области.

Чтобы улучшить адаптацию BERT к научным текстам, Бельтаги и соавторы предложили SCIBERT — предобученную языковую модель на базе BERT, натренированную на мультидоменном корпусе из 1,14 млн научных публикаций, где 18% статей посвящено компьютерным наукам, а 82% — биомедицине. Общий объем этого корпуса составил 3,17 млрд токенов, обучение шло на TPU v3 с 8 ядрами. SCIBERT значительно превосходит исходную версию BERT-Base и достигает новых эталонных результатов на ряде задач в научном NLP.
Продолжая дообучение модели SciBERT, исследователи представили MatSciBERT — языковую модель, учитывающую специфику материаловедения. Ее обучали на корпусе рецензированных статей по пяти ключевым семьям материалов: неорганические стекла, металлические стекла, сплавы, цемент и бетон, а также двумерные материалы. МатSciBERT эффективно обучалась в течение пятнадцати дней при максимальной длине последовательности в 512 токенов на двух графических процессорах NVIDIA V100 32GB. Всего в корпус вошли 3,17 миллиарда слов (SciBERT) и дополнительно 0,28 миллиарда слов (MatSciBERT), то есть суммарно 3,45 миллиарда слов. MatSciBERT показывает более высокие результаты по сравнению с SciBERT в задачах классификации документов, распознавания именованных сущностей (NER) и классификации связей.
В другом исследовании была представлена модель MaterialBERT, обученная с помощью оригинального кода BERT на 750 000 статей по неорганическим, органическим и композитным материалам, опубликованным в период с 2005 по 2019 год. В совокупности корпус составил около 3000 миллионов слов. Обучение происходило на двух GPU NVIDIA Tesla V100 и заняло три месяца. Модель MaterialBERT можно использовать как отправную точку для трансферного обучения при создании более узкоспециализированных моделей BERT в материаловедении (например, «фазовые диаграммы», «смолы», «жидкие кристаллы» и т. д.).
Опираясь на корпус литературы, посвященной конкретному материалу, а также на выбранную версию BERT, можно получить специализированную модель BERT для конкретной области. Широта корпуса зависит от целей и применений. Так, для оптических исследований была разработана модель OpticalBERT, обученная на корпусе по оптическим материалам. Также создана BatteryBERT, тренированная на наборе статей по батарейным исследованиям. Предобученные версии BatteryBERT затем дообучались на конкретные задачи, такие как классификация статей о батареях и ответы на вопросы с определением анодов, катодов и электролитов. Подобные специализированные модели BERT демонстрируют более высокую точность классификации текстов и распознавания сущностей, чем исходные версии BERT, когда речь идет о предметной области.
Помимо извлечения информации о материалах, BERT-модели могут работать и как энкодер, формируя числовые представления последовательностей данных (например, химических отпечатков полимеров и маршрутов синтеза), что позволяет устанавливать связь с их свойствами. Один из примеров — модель polyBERT, основанная на архитектуре DeBERTa и обученная на наборе данных из 100 миллионов гипотетических полимеров, полученных путем перебора химических фрагментов из базы свыше 13 000 синтезированных полимеров. В результате polyBERT обучается преобразовывать входные строки PSMILES в числовые «отпечатки» полимеров, а затем в многозадачном ML-фреймворке эти отпечатки служат для прогноза свойств. По оценкам, суммарные выбросы CO2 при определении 29 свойств 100 миллионов гипотетических полимеров составили 5,5 кгCO2-экв. Другой пример — модель TransPolymer, которая была предварительно обучена на примерно 5 миллионах неразмеченных полимеров из базы PI1M, используя задачу маскированной языковой модели (MLM). В такой задаче некоторые токены в последовательности скрываются (маскируются), и цель — восстановить их, исходя из контекста. TransPolymer затем дообучается на десяти наборах данных полимеров с разными свойствами (электропроводность, ширина запрещенной зоны, электронная аффинность, энергия ионизации, склонность к кристаллизации, диэлектрическая проницаемость, показатель преломления и эффективность преобразования энергии в полимерных солнечных ячейках p-типа).
Для сплавов была создана модель SteelBERT, которую также обучали с помощью DeBERTa на корпусе из 4,2 миллиона материаловедческих рефератов и 55 000 полнотекстовых статей по сталям. SteelBERT «специализируется» на лексике, связанной со сталью. После токенизации данные подаются в DeBERTa с 12 блоками Transformer, каждый из которых имеет 12 голов внимания. SteelBERT формирует вектора размерностью 768, кодирующие текст описания технологических маршрутов и химический состав. Далее используется глубокая нейросеть, которая принимает состав и векторизованное описание обработки на вход для прогноза механических свойств. Коэффициенты детерминации (R2) для предела текучести, временного сопротивления разрыву и относительного удлинения достигают 78,17% (±3,40%), 82,56% (±1,96%) и 81,44% (±2,98%) соответственно для 18 недавно описанных сталей. Более того, при дополнительном дообучении на малых лабораторных наборах данных модель способна оптимизировать текстовую последовательность, связанную с изготовлением новых сталей 15Cr аустенитного класса, и добивается более высоких результатов, чем те, что упоминаются в литературе.

Чтобы в полной мере использовать возможности больших языковых моделей, их дообучают на материалах, связанных с наукой о материалах и устройствами, что помогает им лучше решать научные задачи. Например, представлены наборы LLaMA, ориентированные на физику, химию и материаловедение, которые сочетают открытые фреймворки и объединяют структурированные и неструктурированные научные данные из общедоступных баз и литературных источников. Такие модели позволяют прогнозировать свойства материалов и устройств, включающие классификацию, регрессию и обратное проектирование. GPT-модели можно применять для генерации новых материалов, расширяя химическое пространство в поисках нужных характеристик. В одной из работ был создан CatGPT, обученный на текстовом описании структур неорганических катализаторов в широком химическом пространстве. Модель способна генерировать структуры катализаторов и служит базовой моделью для целенаправленной генерации катализаторов путем условной генерации текста и дообучения. В частности, после дообучения на наборе данных бинарных сплавов данная модель генерирует структуры катализаторов, разработанные специально для двухэлектронной реакции восстановления кислорода.
ИИ-агенты для автономных исследований в области материаловедения
Дообучение помогает улучшить работу модели при решении конкретных задач (например, предсказание свойств материалов), тогда как ИИ-агенты на основе больших языковых моделей и интегрированных инструментов обучаются автоматически выполнять комплексные задачи. Такой агент умеет планировать, принимать решения и вызывать нужные инструменты; его поведение задается путем составления входных инструкций, что позволяет настраивать работу в соответствии с определенными требованиями. Возможность обучения «на месте» дает агенту возможность накапливать опыт и развиваться, делая его действия более согласованными, логичными и эффективными. Подходы с пошаговым рассуждением или древовидной структурой рассуждений разбивают сложные задачи на более мелкие подзадачи, а обращение к внешним инструментам дает возможность превращать разработанные планы в конкретные действия, которые эффективно выполняются.
В последнее время ИИ-агенты применяются и для автономного проектирования материалов и экспериментов. Интеграция больших языковых моделей с модулями поиска помогает агентам самостоятельно находить нужные сведения в документах, базах данных и графах знаний. Они могут решать задачи вроде реферирования, планирования экспериментов, выполнения определенных операций, что упрощает поиск ответов на вопросы, выдвижение гипотез, предсказание свойств и структуры, а также автоматизацию экспериментов.
Для генерации гипотез была предложена система, которая помогает находить новые идеи в материаловедении, используя комбинацию языковых моделей, графов знаний и специализированных ИИ-агентов. Агент выявляет скрытые взаимосвязи между научными концепциями и исследует новые свойства материалов. Система автоматизирует сложные научные задачи, позволяя агентам совместно предлагать и улучшать гипотезы. Такой подход ускоряет появление новых открытий, подтверждая, что ИИ может оказаться действенным инструментом для развития научных исследований.
Для задач, связанных с предсказанием свойств и структуры, разработана платформа, где ИИ-агенты работают в динамической среде и автоматически решают задачи проектирования материалов. Сочетание больших языковых моделей, модулей извлечения знаний, мультимодальных данных и физического моделирования позволяет эффективно разрабатывать сплавы. Вычислительные эксперименты показывают, что агенты способны выполнять расчеты свойств и анализ дефектов, создавая новые сплавы с улучшенными характеристиками по сравнению с исходными металлами. Другие исследования представляют системы, которые используют языковые модели и контрастное обучение для генерации кристаллических структур, превосходя традиционные методы. Внедрение высококачественных баз знаний, удобных инструментов и эффективных механизмов поиска позволяет повысить результативность языковых моделей в задачах, связанных с наукой о материалах. Разработаны специальные решения, используя крупную языковую модель, способную обрабатывать задачи по поиску информации, прогнозированию свойств и генерации структур, достигая при этом высокой точности. Эти системы могут успешно генерировать материалы с заданными характеристиками, включая определенную площадь поверхности или требуемый уровень водородопоглощения. В других проектах ИИ-агент для органических полевых транзисторов интегрирует крупную языковую модель и обученный алгоритм машинного обучения, извлекая из научной литературы экспериментальные параметры с точностью свыше 92%. При этом агент предлагает схему оптимизации, позволяющую втрое увеличить подвижность носителей заряда в транзисторах на основе 2,6-дифенилдитиено[3,2-b:2′,3′-d]тиофена.
При объединении ИИ-агентов с роботизированными экспериментальными установками можно достичь полного исключения человека из исследовательского процесса. Примером служит система, самостоятельно планирующая, выполняющая и оптимизирующая химические эксперименты. Сочетая крупную языковую модель со специальными инструментами (поиск в сети и документах, исполнение кода и автоматизация экспериментов), система демонстрирует умение выстраивать сложные научные рассуждения и генерировать качественный программный код. Правильно сформировав входные инструкции, удается успешно проводить и оптимизировать эксперименты по реакциям перекрестного сопряжения. Такой подход показывает, что ИИ способен значительно ускорить научные исследования, повысить их масштабируемость и обеспечить лучшую воспроизводимость и надежность получаемых результатов.

Проблемы и перспективы развития
Методы NLP и большие языковые модели внесли значительный вклад в анализ, извлечение и интерпретацию полезной информации из обширной научной литературы, посвященной материалам. Однако специфика и сложность данной области ставят перед большими языковыми моделями немало проблем, среди которых особенно заметны числовое понимание, количественное предсказание, интерпретация структур и необходимость научной аргументации.
Числовое понимание
Числовые данные в научных текстах играют критически важную роль, особенно при прогнозировании свойств материалов. Однако большие языковые модели нередко испытывают трудности с корректным восприятием чисел. Например, им сложно соотнести вектор «100» со значением 100.0, что влечет неточности при сопоставлении состава или технологических маршрутов с характеристиками материалов. Для систематического повышения «числовых» возможностей больших языковых моделей требуется комплексный подход: формирование качественных наборов данных, адаптация архитектуры модели, продуманные стратегии обучения и интеграция внешних инструментов. Специализированные наборы данных с точными числовыми значениями, относящимися к области материалов, помогут моделям осознанно оперировать числами и минимизировать ошибки при их интерпретации.
Количественное предсказание
Для больших языковых моделей непросто выявлять количественные связи между составом, маршрутами обработки и свойствами. К примеру, обучение модели Llama 8B на небольшом наборе (около 677 примеров) даёт неудовлетворительные результаты при прогнозировании свойств. Одним из возможных решений может стать создание сквозных (end-to-end) фреймворков, где языковой энкодер, обученный на материалах, напрямую связывается с моделью для предсказания свойств. Кроме того, привлечение ИИ-агентов, способных взаимодействовать с вычислительными инструментами (моделирование методом конечных элементов, термодинамические симуляторы, предиктивные модели свойств), может существенно улучшить точность вычислений.
Эффективность и оптимизация ресурсов
Учитывая высокие вычислительные затраты на обучение больших языковых моделей, возникает вопрос, как при меньшем числе параметров достичь сравнимой производительности. Так, модель LLaMA 8B в задачах по сталям иногда превосходит более крупную LLaMA 70B, указывая на то, что большие модели-декодеры, хотя и эффективны для обобщенных задач, могут испытывать трудности в узкоспециализированных областях. Причина кроется в объеме и составе обучающего корпуса: крупные модели стремятся к универсальности, тогда как меньший масштаб может лучше фокусироваться на специфике. Перспективный путь к балансу между размером модели и качеством — метод дистилляции знаний, когда «студент»-модель с меньшим числом параметров учится воспроизводить логику «учителя», обладающего большим количеством параметров. Такой подход позволяет сократить ресурсы без существенной потери точности. В будущем задача оптимизации больших языковых моделей для материаловедческих задач будет заключаться в разумном подборе размеров модели, разнообразия обучающих данных и их ориентации на конкретную предметную область. Вероятно, наилучшие результаты дадут комбинированные стратегии, сочетающие архитектуры, экономные в плане параметров, дообучение в предметной области и дистилляцию знаний.
Научная аргументация
Основная часть корпусов, на которых учатся модели, содержит в основном общий текст и зачастую не включает узкоспециализированную терминологию и точные научные сведения. В результате большие языковые модели могут допускать неточности или генерировать выдуманную информацию, включая неверные числовые значения и нереалистичные материалы или процессы. Такое поведение создаёт проблемы при извлечении точных сведений и затрудняет их применение в материаловедении. Для уменьшения «галлюцинаций» активно применяется генерация с учётом внешних источников (Retrieval-Augmented Generation, RAG), когда модель обращается к проверенным базам данных перед формированием ответа. Однако помимо этого требуются усовершенствованные методы обучения, повышающие уровень научной логики. В последнее время появилась модель DeepSeek-R1, завоевавшая внимание благодаря высокой эффективности и умеренным потребностям в ресурсах. В основе её «логического» модуля лежит масштабное обучение с подкреплением (RL) по принципу Proximal Policy Optimization, что улучшает математические рассуждения и снижает нагрузку на память. Подключение минимального объёма «холодных» (cold-start) данных даёт старт многоэтапному обучению: сначала идёт RL с учётом рассуждений и системой вознаграждений, затем выборка правильных примеров (rejection sampling) и, наконец, вторая стадия RL для дополнительной доработки. DeepSeek-R1 показывает сопоставимые результаты с OpenAI-o1-1217 в задаче сложных рассуждений, причём активно применяет дистилляцию для уменьшения размера модели: это даёт модели возможность обучить меньших «учеников», базирующихся на Llama или Qwen, которые по итогам даже превосходят openAI-o1-mini и GPT-4o-0513 в логических задачах. Таким образом, интеграция RL в область материаловедения открывает путь к более глубоким рассуждениям и лучшим прогнозам, позволяя ускорить открытие новых материалов и сделать исследования более достоверными.
Несмотря на все сложности, методы NLP и большие языковые модели уже доказали свою пользу в задачах проектирования материалов. Они помогают ускорять исследования, анализируя большие массивы данных, выделяя закономерности и выдвигая гипотезы. С их помощью можно предсказывать свойства материалов, определять оптимальный состав и технологические условия — например, в области разработки новых сплавов и полимеров получены весьма обнадёживающие результаты. Предполагается, что дальнейшее развитие будет связано с улучшением числовых возможностей, количественного анализа и структурной интерпретации. Успех будет зависеть от комплексной интеграции языковых моделей с вычислительными и экспериментальными инструментами, что позволит в реальном времени получать качественные рекомендации и ускорять принятие решений. В конечном итоге это должно не только повысить эффективность разработки материалов, но и открыть дорогу к инновационным прорывам, заметно сокращающим время и затраты на исследование новых материалов.