В некоторых тестах глубинное обучение уже работает лучше людей-экспертов
В один из вечеров прошлого ноября 54-летняя женщина из Бронкса прибыла в отделение скорой помощи медицинского центра Колумбийского университета с жалобой на сильную головную боль. У неё всё расплывалось перед глазами, а левая рука онемела и ослабла. Врачи осмотрели её и порекомендовали сделать компьютерную томографию головы.
Через несколько месяцев, утром одного из январских дней, четыре будущих рентгенолога собрались перед экраном компьютера на третьем этаже госпиталя. В комнате не было окон, и её освещал лишь включённый экран. Анджела Линели-Дипл [Angela Lignelli-Dipple], заведующая отделом нейрорентгенологии университета, стояла за интернами с карандашом и планшетом. Она учила их разбираться в КТ-снимках.
«Когда мозг мёртв, инсульт диагностировать легко, – говорит она. – Хитрость в том, чтобы диагностировать инсульт ещё до того, как умрёт слишком много нервных клеток». Инсульты обычно происходят из-за блокировки тока крови или кровотечений, и у нейрорентгенолога есть только 45 минут на диагноз, чтобы доктора успели вмешаться в процесс – к примеру, ликвидировать появляющийся сгусток. «Представьте, что вы в отделении скорой помощи, – продолжала Линели-Дипл, увеличивая накал воображаемой ситуации. – С каждой минутой отмирает очередной участок мозга. Потерянное время – потерянный мозг».
Она бросила взгляд на часы на стене, по циферблату которых бежала секундная стрелка. «Ну и в чём же проблема?» – спросила она.
Обычно инсульты асимметричны. Снабжение мозга кровью разветвляется влево и вправо, а затем делится на ручейки и притоки с каждой стороны. Сгусток крови или кровотечение обычно поражает одно из ответвлений, что приводит к дефициту с одной стороны мозга. Когда нервные клетки оказываются отрезанными от притока крови и начинают умирать, они немного набухают. На снимке чёткие границы между анатомическими структурами могут оказаться размытыми. В конце концов, ткань сжимается, оставляя высушенную тень на снимке. Но эта тень всё ещё видна на снимках через несколько часов или даже дней после инсульта, когда возможность вмешательства уже пропущена. «До этого момента, – рассказала мне Линели-Дипл, – на снимке есть намёк», предупреждение о надвигающемся инсульте.
Снимки мозга женщины из Бронкса разрезают череп от основания до макушки, как дольки арбуза, разрезанного сверху вниз. Интерны быстро пролистывали слои изображений, будто перелистывая странички блокнота, называя анатомические структуры: мозжечок, гиппокамп, центральная доля, полосатое тело, мозолистое тело, желудочки. Затем один из учащихся, возраст которого приближался к 30 годам, остановился на одном из снимков и показал карандашом на область с правого края мозга. «Здесь есть что-то пятнистое, – сказал он. – Границы выглядят размыто». С моей точки зрения, всё изображение выглядело пятнистым и размытым – словно каша из пикселей – но он явно увидел что-то необычное.
«Размыто?», – поддержала его Линели-Дипл. «Опиши, пожалуйста, подробнее».
Интерн начал что-то мямлить. Остановился, будто перебирая анатомические структуры в голове, взвешивая возможности. «Она просто неоднородная, – пожал он плечами. – Я не знаю. Выглядит странно».
Линели-Дипл открыла следующий набор КТ-снимков, сделанных через 24 часа. Область, размером с виноградину, на которую указал ординатор, была тусклой и раздутой. Несколько последующих снимков, сделанных с разницей в несколько дней, рассказали оставшуюся часть истории. Появилась серая клинообразная область. Вскоре после поступления в отделение скорой помощи невролог попытался очистить забитую артерию лекарством, растворяющим сгустки, но он прибыл слишком поздно. Через несколько часов после первоначального снимка она потеряла сознание, и её перевели в отделение реанимации и интенсивной терапии. Два месяца спустя она всё ещё лежала в палате. Левая сторона её тела, включая руку и ногу, была парализована.
Мы с Линели-Дипл пошли в её офис. Я должен был изучить процесс обучения в больнице: как врачи учатся ставить диагнозы? Могут ли этому научиться машины?
Моё посвящение в диагностику началось осенью 1997 года в Бостоне, когда я после медицинского института отправился на практику. Для подготовки я прочёл классический медицинский учебник, разделявший процесс вынесения диагноза на четыре чёткие фазы. Во-первых, доктор использует историю болезни пациента и физический осмотр для сбора фактов по поводу её жалоб или состояния. Затем информация критически рассматривается с тем, чтобы создать исчерпывающий список потенциальных причин проблем. После этого вопросы и предварительные проверки помогают исключить одни гипотезы и усилить другие – это т.н. «дифференциальная диагностика«. Учитываются такие параметры, как распространённость заболевания, история болезни, риски, возможное воздействие на человека (как говорит известный [американский] медицинский афоризм, «топот копыт скорее издают лошади, а не зебры» [«зебра» в медицине США – сленговое название постановки экзотического диагноза в случае, когда наиболее вероятен более простой диагноз]). Список сужается: врач уточняет свои предположения. В финальной фазе лабораторные тесты, рентген или КТ подтверждают гипотезу и диагноз. Варианты этого пошагового процесса воспроизводились в медицинских учебниках десятилетиями, и представление о диагносте, методично и нудно двигающемся от симптомов к причине внушалось поколениям студентов-медиков.
Но настоящее искусство диагноза, как я узнал позже, не бывает таким прямолинейным. Моим наставником в медицинской школе был элегантный житель Новой Англии в отполированных мокасинах и с чопорным акцентом. Он считал себя экспертом-диагностом. Он просил пациента продемонстрировать симптом – к примеру, кашель – а затем откидывался в кресле и перекатывал у себя на языке прилагательные. «Дребезжащий и металлический, – мог сказать он, или, – низкий, с бренчанием», будто описывая винтажную бутылку Бордо. Мне все кашли казались одинаковыми, но я подыгрывал ему: «Дребезжащий, ага», – чувствуя себя самозванцем на дегустации вин.
Специалист по классификации кашлей мог сразу сузить возможности диагноза. «Звучит как пневмония», – мог сказать он. Или: «влажный хрип при застойной сердечной недостаточности». Затем он выдавал поток вопросов. Набирал ли пациент недавно вес? Не было ли у него контакта с асбестом? Он просил пациента покашлять снова и наклонялся, прислушиваясь при помощи стетоскопа. В зависимости от ответов он мог выдать новую серию возможностей, будто усиливающиеся и ослабевающие синапсы. Затем, с помпой странствующего фокусника он провозглашал диагноз: «сердечная недостаточность!», – и выписывал анализы для доказательства своей правоты. Обычно он оказывался прав.
Несколько лет назад бразильские исследователи изучали мозг рентгенологов-экспертов, чтобы понять, как они выдают свои диагнозы. Обращались ли эти опытные диагносты к умственной «книге правил», или же они применяли «распознавание образов и неаналитические рассуждения»?
Двадцать пять рентгенологов попросили оценить рентгеновские снимки лёгкого, и в это время при помощи МРТ отслеживали активность их мозга. (Тут много чудесных рекурсий: чтобы диагностировать процесс диагноза, нужно сделать фото людей, изучающих фото). Перед глазами испытуемых мелькали рентгеновские снимки. На некоторых были изображены распространённые патологические повреждения – к примеру, тень пневмонии в виде кисти, или серая непрозрачная стена жидкости, скопившейся за оболочкой. Во вторую группу снимков включали контурные рисунки животных. В третьей встречались контуры букв алфавита. Рентгенологам показывали эти картинки случайным образом, просили их проговаривать вслух название повреждения, животного или букву как можно быстрее, а в это время МРТ-аппарат отслеживал активность их мозга. В среднем на постановку диагноза рентгенологам требовалось 1,33 с. Во всех трёх случаях «зажигалась» одна и та же часть мозга: широкая дельта нейронов возле левого уха и полоска в виде мотылька у заднего основания черепа.
«Наши результаты поддерживают гипотезу о том, что при распознавании врачом известного ему повреждения работает тот же процесс, что связан с именованием предметов», – заключили исследователи. Определение повреждения очень похоже на определение животного. Когда вы распознаёте носорога, вы не рассматриваете альтернативных кандидатов, чтобы отбросить неверные варианты. Вы не сочетаете мысленно единорога, броненосца и небольшого слона. Вы узнаёте носорога в целом – как образ. То же самое происходит и у рентгенологов. Они не взвешивали, не вспоминали, не дифференцировали. Они просто видели известный объект. Для моего наставника влажные хрипы были так же знакомы, как известная мелодия.
В 1945 году британский философ Гилберт Райл прочёл судьбоносную лекцию по поводу двух типов знания. Ребёнок знает, что у велосипеда два колеса, шины наполнены воздухом, а ездить на нём нужно, вращая по кругу педали. Райл назвал такое знание – фактическое, пропозициональное – «знание что». Но чтобы научиться ездить на велосипеде, необходимо обратиться к другой области обучения. Ребёнок учится ездить на велосипеде, падая с него, балансируя на двух колёсах, преодолевая ямы. Райл назвал такое знание – скрытое, экспериментальное, основанное на навыках – «знание как».
Казалось бы, два этих типа знания взаимозависимы: можно использовать знание фактов для углубления экспериментального знания, и наоборот. Но Райл предостерегал от искушения считать, что «знание как» можно низвести до «знания что» – нельзя научиться ездить на велосипеде по книге правил. Наши правила, утверждал он, имеют смысл только потому, что мы знаем, как их использовать: «Правила, как птицы, должны быть живыми перед тем, как из них можно будет сделать чучела». Как-то днём я наблюдал, как моя семилетняя дочка преодолевала на велосипеде холм. В первый раз она застряла на самой крутой его части и упала. Во второй раз она нагнулась вперёд, сначала почти незаметно, а потом всё больше, и переносила вес назад, когда кривизна холма начала уменьшаться. Но я не учил её правилам, по которым нужно взбираться на этот холм на велосипеде. Думаю, что когда её дочь будет преодолевать тот же самый холм, она и её не будет учить. Мы встречаем немного правил, по которым работает Вселенная, но даём мозгу самостоятельно постичь все остальные.
Через некоторое время после встречи с интернами-рентгенологами я говорил со Стефеном Хайдером, молодым человеком, заметившим признаки инсульта на КТ-снимке. Как он обнаружил это повреждение? Было ли это «знание что» или «знание как»? Он начал рассказывать о выученных правилах. Он знал, что инсульты обычно односторонние, что они приводят к «посерению» ткани, что ткань иногда немного разбухает, из-за чего пропадают анатомические границы. «В мозге есть места, где кровоток особенно раним», – сказал он. Чтобы определить повреждение, нужно искать его признаки на одной стороне, и смотреть, чтобы их не было на другой.
Я напомнил ему, что на фотографии было много несимметричных деталей, проигнорированных им. У этого снимка слева было множество серых закорючек – возможно, артефакты, связанные с движением, или случайностью, или изменениями мозга, предшествовавшими инсульту. Как же он сконцентрировался только на этой области? Он помолчал немного, чтобы собраться с мыслями. «Не знаю – частично это было подсознательно», – сказал он наконец.
«Вот это и происходит – всё встаёт на свои места – когда вы растёте и учитесь как рентгенолог», – говорит мне Линели-Дипл. Вопрос в том, может ли таким же образом «расти и учиться» машина.
В январе 2015 года специалист по информатике Себастьян Трун [Sebastian Thrun] увлёкся загадкой медицинской диагностики. Трун, выросший в Германии – худой, с бритой головой и ощущением комичности; он выглядит, как странный гибрид Мишеля Фуко и мистера Бина. Бывший стэндфордский профессор, руководивший там лабораторией ИИ, Трун ушёл оттуда, чтобы возглавить Google X, руководить работой по созданию самообучающихся роботов и робомобилей. Но он обнаружил пристрастие к обучающимся медицинским устройствам. Его мать умерла от рака груди, когда ей было 49 – столько, сколько сейчас Труну. «У большинства пациентов с раком сначала нет никаких симптомов, – сказал мне Трун. – У моей матери их не было. Когда она отправилась к доктору, её рак уже дал метастазы. Я стал одержим идеей обнаружения рака на ранней стадии – когда его ещё можно вырезать ножом. И я сё думал, может ли помочь в этом алгоритм машинного обучения?»
Что сильнее, тело или разум?
— Вставай.
— Нет.
Ранние попытки постановки автоматических диагнозов пытались работать по учебнику и с точными знаниями. Возьмём электрокардиограмму, показывающую электрическую активность сердца в виде линий на странице или экране. За последние 20 лет такие системы часто использовали компьютерные интерпретации. Работающая с данными программа довольно прямолинейна. Характерные формы волн ассоциируются с различными проблемами – фибрилляцией предсердий или блокировке сосуда – и в устройство встраиваются правила по распознаванию этих волновых форм. Когда машина распознаёт волновую форму, она отмечает сердцебиение, как «фибрилляция предсердий».
В маммографии «обнаружение при помощи компьютера» тоже становится распространённым. ПО с распознаванием образом подсвечивает подозрительные участки, а рентгенолог изучает результаты. Но обычно это ПО использует систему на основе правил, и определяет по ним подозрительное повреждение. У этих программ нет механизма обучения: машина, видевшая триста рентгеновских снимков ничем не лучше той, что видела четыре. Эти ограничения стали явно видны после исследования 2007 года, сравнивавшего точность маммографии до и после введения устройств с диагностикой при помощи компьютера. Можно было бы ожидать резкого увеличения точности – но оказывается, что эффект оказался более сложным. Количество биопсий многократно возросло. А обнаружение небольших инвазивных опухолей – как раз таких, которые стремятся выявлять онкологи – уменьшилось. Более поздние исследования показали увеличение проблем с ложным обнаружением опухолей.
Трун был убеждён, что сможет превзойти в точности устройства первого поколения, перейдя от алгоритмов, основанных на правилах к обучающимся – то есть, от постановки диагноза на основе «знания что» к постановке при помощи «знания как». Всё чаще такие обучающиеся алгоритмы, с которыми работает Трун, используют компьютерную стратегию под названием «нейросеть», вдохновлённую работой самого мозга. В мозге нервные синапсы усиливаются или ослабляются через периодическую активацию; цифровые системы пытаются достичь такого результата через математику, подправляя «веса» связей для получения нужных выходных данных. Самые мощные из сетей напоминают слои нейронов, каждый из которых обрабатывает входные данные и отправляет результаты на следующий слой – отсюда и название «глубинное обучение».
Трун начал с рака кожи; конкретно – кератиноцитной карциномы (самого распространённого в США класса рака) и меланомы (самого опасного типа рака кожи). Можно ли научить машину различать рак кожи и более благоприятное её состояние – прыщи, сыпь, родинку – по скану фотографии? «Если на это способны дерматологи, то и машина должна справиться, – рассуждал Трун. – Возможно, машина справится ещё лучше».
Обычно дерматологов учат распознавать меланому на основании набора правил, обозначаемого мнемонической аббревиатурой ABCD. Меланомы часто асимметричные (A), их границы (border, B) неровные, их цвет (color, C) неровный и пёстрый, а диаметр (D) обычно больше 6 мм. Но когда Трун просматривал примеры меланом в медицинских учебниках и в сети, он обнаружил экземпляры, к которым ни одно из этих правил было неприменимо.
Трун, работавший адъюнкт-профессором в Стэнфорде, создал команду вместе с двумя своими студентами по имени Андре Эстева и Брет Купрел. Их первой задачей стало создание обучающего набора: обширной коллекции изображений, используемых для обучения машинного распознавания вредоносного образования. В интернете Эстева и Купрел нашли 18 хранилищ изображений с поражениями кожи, классифицированные дерматологами по типам. В этих галереях содержалось почти 130 000 изображений – прыщей, сыпи, укусов насекомых, аллергических реакций и раковых образований – которые дерматологи разделили на почти две тысячи заболеваний. Там был и набор из двух тысяч кожных образований, по которым патологоанатомы сделали биопсию, в связи с чем они были диагностированы с высокой точностью.
Эстева и Купрел начали тренировать систему. Они не запрограммировали в неё правила, они не учили её системе ABCD. Они скармливали нейросети картинки и их диагнозы. Я попросил Труна описать, что делала эта сеть.
«Представьте классическую программу, пытающуюся определить собаку, – говорит он. – Программисту пришлось бы вписать в неё тысячу условий „если/то“: если у неё есть уши, морда, волосы, и если это не крыса, и т.п. – до бесконечности. Но ребёнок учится распознавать собак по-другому. Сначала он видит собак, и ему говорят, что это собаки. Он ошибается и поправляется. Он думает, что волк – это собака, но ему говорят, что это не так. Он постепенно меняет своё понимание – это собака, а то – волк. Алгоритм машинного обучения, как ребёнок, берёт информацию из предварительно классифицированного тренировочного набора. Вот собака, вот не собака. Затем он извлекает особенности, отличающие один набор от другого. Проверяя себя на тысячах классифицированных изображений, он начинает самостоятельно создавать свой способ распознавания собаки – так же, как ребёнок». Она просто знает, как это делать.
В июне 2015 команда Труна начала проверять, чему машина научилась на основе стартового набора, представив ей проверочный набор: 14000 изображений, с диагнозами, проставленными дерматологами (не обязательно на основе биопсии). Могла ли система классифицировать изображения по трём диагностическим категориям: неопасные образования, злокачественные образования и нераковые опухоли? Система дала правильный ответ в 72% случаев (реальный выход алгоритма – не «да/нет», а вероятность принадлежности рассматриваемого образования к данной категории). Два сертифицированных дерматолога, рассматривавшие те же изображения, справились зуже: они дали правильный ответ в 66% случаев.
Трун, Эстева и Курпель расширили исследование, пригласив двадцать пять дерматологов, и на этот раз использовали тестовый набор из двух тысяч изображений, диагноз которых был подтверждён биопсией. Почти в каждом тесте машина оказалась более чувствительной, чем врачи: вероятность пропустить меланому оказалась ниже. «В любом тесте сеть победила экспертов-дерматологов», – заключила команда в отчёте, опубликованном в Nature.
«Одна удивительная деталь, связанная с сетью, не была должным образом освещена в работе», – рассказал мне Трун. На первой фазе исследования он с командой начал работу с «чистой» сетью. Но они обнаружили, что если начинать работу с сетью, предварительно натренированной на распознавание каких-нибудь не связанных с темой вещей (к примеру, отличать кошек от собак), она обучалась лучше и быстрее. Возможно, и наш мозг работает так же. Изматывающие и отупляющие сознание уроки в старших классах школы – перемножение многочленов, поиск корней глаголов, запоминание периодической таблицы – возможно, как раз наоборот, повышали чувствительность разума.
Обучая машину, команде пришлось обрабатывать картинки. Трун надеется, что когда-нибудь люди смогут отправлять фотографии беспокоящих их образований, сделанные при помощи смартфона. А это значит, система не должна бояться широкого спектра углов и условий освещения. Но, он вспоминает, что: «на некоторых изображениях меланомы были помечены жёлтыми дисками. Приходилось их вырезать, иначе компьютер просто научился бы распознавать жёлтый диск как рак».
Была такая старая загадка: сто лет назад немецкая публика была поражена шоу «Умного Ганса», с участием лошади, якобы умевшей складывать и вычитать, и передававшей свои ответы при помощи боя копытом. Оказалось, что «Умный Ганс» на самом деле распознавал поведение своего хозяина. Когда количество ударов копыта приближалось к правильному ответу, наездник расслаблялся. Нейросеть животного не обучилась арифметике, она научилась отслеживать изменения в языке тела человека. «Такая вот странная особенность нейросетей, – говорит Трун. – Вы не знаете, чему конкретно они обучаются. Это как чёрный ящик, принцип работы которого неизвестен».
Проблема «чёрного ящика» свойственна глубинному обучению. Система работает не по набору медицинских знаний и правил диагностики. Она сама научила отличать родинки от меланом путём множества подстроек внутренних параметров – похожим образом усиливаются и ослабляются нейронные связи мозга. Каким образом она определила, что это образование – меланома? Мы этого не узнаем, и она нам не расскажет. Все внутренние подстройки и обработка данных ускользают от нашего надзора. Как и в случае с нашим мозгом. При медленном развороте на велосипеде вы отклоняетесь в обратную сторону. Моя дочь знает, как это делать, но она не знает, что она это делает. Машина по поиску меланом, наверное, извлекает определённые свойства изображений. Так ли важно, что она не может сказать, какие именно это свойства? Она похожа на улыбающегося бога знаний. Познакомившись с её работой, можно представить, как животные воспринимают разум человека: всезнающий, но непознаваемый.
Трун оптимистично глядит в будущее, в котором мы находимся под постоянным диагностическим контролем. Наши телефоны будут отслеживать изменения в речи, чтобы диагностировать приближающуюся болезнь Альцгеймера. Руль определит начинающуюся болезнь Паркинсона по небольшой дрожи. Ванная, пока вы моетесь, будет делать вам УЗИ или МРТ, чтобы определить, не появилось ли внутри вас новое подозрительное образование. Большие данные будут следить, записывать и оценивать: мы будем переходить от одного алгоритма к другому. Войти в труновский мир умных ванных комнат и рулей – это войти в комнату с диагностическими зеркалами, каждое из которых требует новых тестов.
Тяжело не поддаться очарованию такого видения. Позволит ли медицинский паноптикум, постоянно сканирующий нас на клеточном уровне, ежедневно сравнивающий изображения, помочь нам отловить рак на ранних стадиях? Обеспечит ли он нам прорыв в обнаружении рака? Звучит впечатляюще, но есть и подвох: многие виды рака не распространяются по организму. Мы умираем вместе с ними, а не из-за них. Что, если такая огромная машина диагностики приведёт к проведению миллионов ненужных биопсий? В медицине бывают случаи, когда ранний диагноз может сохранить или продлить жизнь. А бывают случаи, когда вы дольше будете волноваться, но жить дольше не будете. Сложно сказать, как много вам нужно знать.
«Мне хочется увеличить возможности людей, – говорит Трун, когда я спрашиваю его по поводу последствий, которые такие системы несут для людей, работающих диагностами. – Устранило ли современное сельское хозяйство некоторые виды возделывания земли? Конечно, но оно и увеличило наши возможности производства сельскохозяйственных товаров. Не всех всё устроило, но мы теперь можем кормить больше людей. Индустриальная революция увеличила силу мускулов человека. Используя телефон, вы усиливаете человеческую речь. Вы не сможете докричаться до Калифорнии из Нью-Йорка, – а мы с Труном при этом разговоре как раз находились на таком расстоянии, – но это прямоугольное устройство у вас в руке позволяет передавать голос на расстояние в три тысячи миль. Заменил ли телефон голос? Нет, телефон – это дополняющее устройство. Революция в когнитивистике позволит компьютерам усиливать возможности человеческого разума тем же образом. Так же, как машины в тысячу раз увеличили силу мускулов, машины сделают человеческий мозг в тысячу раз сильнее». Трун настаивает, что эти устройства глубинного обучения не заменят дерматологов и рентгенологов. Они дополнят профессионалов, предложив им экспертное мнение и помощь.
Джеффри Хинтон, специалист по информатике из Торонтского университета, не так мягко рассказывает о роли обучающихся машин в клинической медицине. Хинтон – прапраправнук Джорджа Буля, чья Булева алгебра служит краеугольным камнем в цифровых вычислениях. Хинтона иногда называют отцом глубинного обучения; над этой темой он работал с середины 70-х, и многие его студенты стали главными архитекторами сегодняшних обучающихся систем.
«Думаю, что если вы работаете рентгенологом, то ваша работа похожа на действия койота из мультика, Wile E. Coyote. Вы уже зашли за край обрыва, но ещё не посмотрели вниз. А под вами уже нет опоры».
Коммерческие системы глубинного обучения для обработки снимков груди и сердца уже разрабатываются. «Просто уже совершенно очевидно, что за пять лет глубокое обучение будет работать лучше рентгенологов, – продолжает он. – Может, через десять лет. Я как-то сообщил об этом в госпитале, и восприняли это не очень благосклонно».
Речь Хинтона в том госпитале на самом деле была довольно прямолинейной: «Пора уже заканчивать обучать на рентгенологов». Когда я обсудил этот вопрос с Анджелой Линели-Дипл, она указала, что диагностика рентгена не ограничивается ответами «да/нет». Рентгенологи не просто определяют эмболию, приведшую к инсульту. Они замечают кровотечение где-то ещё, предотвращая опасное в таких случаях использование лекарств, растворяющих сгустки. Они замечают неожиданную, не такую симптоматичную опухоль.
Хинтон оценивает провокацию. «Роль рентгенологов будет развиваться от распознавательной работы, которую, вероятно, может выполнять дрессированный голубь, к выполнению более когнитивных вещей», – говорит он. Его прогноз будущего автоматической медицины основан на простом принципе: «Возьмите любую задачу классификации, по которой у вас есть много данных, и глубинное обучение сможет её решить. Для ГО будут тысячи применений». Он хочет использовать обучающиеся алгоритмы для чтения снимков от рентгеновских аппаратов, КТ и МРТ, снимков любого типа – и это только среднесрочный прогноз. Он утверждает, что в будущем «обучающиеся алгоритмы будут выдавать и диагнозы патологий». Они смогут делать заключение по поводу мазка Папаниколау, слушать работу сердца или предсказывать рецидивы у пациентов психиатрических клиник.
Мы обсудили проблему чёрного ящика. Хотя программисты и работают над этим, Хинтон признал, что задача вскрытия чёрного ящика, с тем, чтобы разобраться, что именно известно системе и откуда, «далека от тривиальной – не верьте тем, кто утверждает обратное». Но он считает, что с этой проблемой можно смириться. «Представьте, что игрок в бейсбол и физик соревнуются в вычислении места приземления мяча, – говорит он. – Игрок, миллион раз бросавший мяч, может не знать всех этих уравнений, но он точно знает, как высоко пойдёт мяч, какую он наберёт скорость и где он упадёт. Физик может написать уравнения, чтобы узнать то же самое. Но они оба придут к одному результату».
Я вспомнил разочаровывающие результаты компьютерных диагностических систем для маммографии прошлого поколения. Хинтон признал, что любую новую систему придётся проводить через тщательные клинические испытания. Но он настаивает на том, что новые системы учатся на своих ошибках и со временем исправляются. «Можно сделать систему, при которой каждый упущенный диагноз – человек, у которого всё-таки возникла опухоль – скармливался в машину. Мы можем спросить, что тут упущено? Можно ли улучшить диагноз? Такой системы для рентгенологов нет. Если вы что-то пропустите, а через пять лет у человека появится опухоль, то нет рутинной процедуры, которая бы помогла вам исправиться. Но можно сделать систему, в которой компьютер будет делать именно это».
Некоторые из наиболее амбициозных проектов по созданию диагностических машин пытаются интегрировать обработку естественного языка (чтобы машина могла прочесть историю болезни) и энциклопедические знания по медицине из учебников, журналов и медицинских баз данных. Проекты IBM Watson Health в Кембридже, Массачусетс, и DeepMind в Лондоне надеются создать именно такие сложные системы. Я смотрел демонстрации их работы, но многие из заявленных возможностей пока ещё находятся на стадии разработки.
Хинтон со страстью относится к будущему диагнозов на основе глубинного обучения, не в последнюю очередь благодаря и своему опыту. Когда он разрабатывал подобные алгоритмы, у его жены нашли рак поджелудочной. У сына обнаружили злокачественную меланому, но биопсия показала, что это образование — базалиома, рак не такого страшного типа. «Нам ещё многому нужно учиться, – сказал Хинтон, с тихим вздохом. – Ранняя и точная диагностика – нетривиальная задача. Мы можем улучшить наши показатели. Почему бы не дать машинам помочь нам?»
Холодным мартовским утром, через несколько дней после моих бесед с Труном и Хинтоном, я отправился в дерматологическую клинику Колумбийского университета на 51-й улице Манхэттена. Линдси Бордон [Lindsey Bordone], дежурный терапевт, должна была посмотреть в тот день 49 пациентов. К 10 утра приёмная была заполнена людьми. Бородатый мужчина лет 60 сидел в углу, скрывая сыпь на шее шарфом. Беспокойная парочка сжалась над газетой.
Бордон быстро принимала пациентов. В освещённой лампами дневного света задней комнате медсестра за компьютером давала краткие характеристики – «пятьдесят лет от роду, без истории болезни, новая подозрительная точка на коже» – а затем Бордон с развевающимися белыми волосами спешила в смотровую.
Молодой человек возрастом чуть более 30 лет с чешуйчатой красной сыпью на лице. Во время осмотра чешуйка кожи отделилась и упала с его носа. Бордон подвела его к свету и тщательно осмотрела кожу, а потом сфокусировала на ней переносной дермоскоп.
«Перхоть есть у вас?» – спросила она.
Человек удивился. «Да», – сказал он.
«Ну а это лицевая перхоть, – сказала ему Бордон. – Тяжёлый случай. Но вопрос в том, почему она проявилась сейчас, и почему ухудшается. Вы не начинали применять какое-нибудь новое средство для волос? Нет ли у вас в семье необычных стрессов?»
«Стресс был, однозначно», – сказал он. Он недавно потерял работу, и страдал от финансовых последствий.
«Ведите дневник, – посоветовала она. – Мы сможем определить наличие связи». Она выписала ему рецепт на стероидный крем и попросила прийти через месяц.
В следующей комнате ожидал молодой человек, помощник адвоката, с россыпью прыщиков на коже головы. Он поморщился, когда Бордон ощупывала его. «Себорейная экзема», – сказала она, закончив осмотр.
Женщина в соседней комнате была без одежды, в больничной робе. В прошлом ей ставили диагноз «меланома» и она старательно посещала предварительные обследования. Бордон прошлась по её коже. Заняло это 20 минут, но она была скрупулёзной и последовательной, перебирая пальцами родинки и пятнышки, называя вслух диагнозы. Там были родинки и кератоз, но ни одной меланомы или карциномы.
«Вроде бы всё в порядке», – радостно подытожила она. Женщина вздохнула с облегчением.
Так и продолжалось: Бордон пришла, увидела, диагностировала. Она выглядела не как койот Хинтона, а как бегун-маньяк, пытающийся справиться с делами, прокручивающимися под его ногами как полотно бегущей дорожки. Когда она записывала свои отметки, я спросил её по поводу диагностики по версии Труна: картинка, снятая айфоном и отправленная по почте в удалённую сеть, выдающей мнение без сомнений, но и без объяснений. Такой дерматолог, как Бордон, работая на полную ставку, сможет увидеть порядка 200 000 пациентов за всю карьеру. Стэнфордский алгоритм переварил порядка 130 000 дел за три месяца. Каждый новый дерматолог вынужден начинать обучение с нуля, а алгоритм Труна продолжает поглощать данные, расти и обучаться.
Бордон пожала плечами. «Если это поможет мне принимать решения с большей точностью, я с удовольствием приму его, – сказала она. – Мои пациенты могли бы сделать фотки своих проблем с кожей до приёма, это бы увеличило возможности клиники».
Звучало логично, и я вспомнил замечания Труна по поводу дополнения. Но в то время, как машины будут учиться всё больше, будут ли люди учиться всё меньше? Вечная забота родителя, ребёнок которого пользуется на телефоне проверкой правописания: что, если ребёнок перестанет учиться правильно писать слова? Это явление назвали «искажение автоматизации». Когда у автомобилей появятся системы автоматической помощи водителю, последние могут стать менее внимательными – примерно то же может случиться и в медицине. Возможно, Бордон – это одинокий Джон Генри в мире, где паровые молоты скоро появятся в онлайне. Но невозможно было не заметить, как её концентрация не нарушалась, и как серьёзно она подходила к каждому пятнышку и каждой родинке. Было бы это так, если бы она начала принимать помощь машин?
Я заметил ещё одну особенность при общении Бордон с пациентами. Они почти всегда уходили, чувствуя себя лучше. Их прощупали, изучили, с ними поговорили. Даже названия образований были смягчающими. В процессе было что-то обнадёживающее. Женщина, кожу которой проверили полностью, приободрилась и ушла с облегчением, а её волнение исчезло.
Диагностический момент, как описали бы его бразильские исследователи, наступал в виде внезапного озарения. Бордон, говоря «дерматит» или «экзема», как бы опознавала носорога: было такое чувство, что можно увидеть, как светится пирамидка из нейронов в задней части основания мозга, когда она опознаёт образование. Но визит на этом не заканчивался. Почти всегда Бордон проводила много времени, исследуя причины. Почему появились симптомы? Был ли это стресс? Новый шампунь? Менял ли кто-нибудь хлорку в бассейне? Почему сейчас?
Самым важным элементом клинических исследований было не «знание что» или «знание как» – не контроль над фактами дела, не распознавание образований. Он находился в третьей области знания: «знания почему».
Объяснения бывают простыми и сложными. Красный волдырь у вас на пальце оттого, что вы прикоснулись к горячему утюгу. Красный волдырь у вас на пальце оттого, что ожог возбудил каскад выработки простагландинов и цитокинов; этот процесс изучен пока ещё не полностью. Знать, почему – спрашивать, почему – значит, добыть ключ к объяснению, а объяснение подпитывает прорывы в медицине. Хинтон говорил по поводу игроков в бейсбол и физиков. Диагносты, искусственные или живые, играют роль игрока в бейсбол – опытного, но непонятного. Исследователи-медики будут в роли физика – так же оторванные от клинической практики, как теоретик от поля для бейсбола, но имеющие желание узнать «почему». Это удобное разделение ответственности – но может ли в нём скрываться потеря?
«Система глубинного обучения не обладает возможностью что-либо объяснять», – как прямо заявляет Хинтон. Чёрный ящик не умеет исследовать причины. Он говорит: «чем больше у ГО-системы становится возможностей, тем меньше она понятна со стороны. Извлекая всё больше признаков, она ставит всё лучшие диагнозы. Почему именно эти признаки были избраны среди миллионов особенностей – на этот вопрос ответа нет». Алгоритм может выдать решение проблемы, но не описать её.
В моей области, в онкологии, я не могу не заметить, каких успехов добились опытные практики, являющиеся одновременно и пытливыми исследователями. За последние несколько десятилетий амбициозные доктора стремились стать одновременно и бейсболистами и физиками. Они пытались использовать диагностические знания для определения патофизиологии заболевания. Почему несимметричная граница образования на коже предсказывает меланому? Почему некоторые меланомы спонтанно регрессируют и почему на этих местах появляются участки светлой кожи? Так получилось, что это наблюдение в результате связали с созданием самых мощных из используемых сегодня лекарств (оказалось, что осветление кожи – это иммунная реакция, работающая против меланомы). Цепочка открытий может начаться в клинике. Если всё больше случаев из клинической практике будет низводиться до обучающихся машин с непонятной схемой работы, если начнёт исчезать тесная связь скрытых и явных форм знаний – «знания как», «знания что» и «знания почему» – возможно ли, что мы будем лучше делать то, чем мы занимаемся, но меньше понимать, чем мы должны заниматься, и перестанем мыслить за пределами алгоритмического чёрного ящика?
Я пообщался по поводу нашего автоматизированного будущего с Дэвидом Бикерсом, главой отдела дерматологии в Колумбийском университете. «Поверьте, я пытался представить себе все последствия работы Труна, – сказал он. – Я не разбираюсь в математике этой работы, но я знаю, что такие алгоритмы могут изменить практику дерматологии. Потеряют ли врачи работу? Не думаю, но думаю, что нужно хорошенько подумать о том, как интегрировать такие программы в нашу практику. Как мы будем их оплачивать? Каковы юридические последствия ошибки компьютера? Умалит ли она нашу практику или наше представление о себе как о диагностах, из-за того, что мы будем полагаться на такие алгоритмы? Не придём ли мы к тому, что вместо докторов будем обучать техников?»
Он посмотрел на часы. Его ждал пациент, и он поднялся, чтобы уходить. «Я всю свою жизнь был учёным и диагностом, – сказал он. – Я знаю, как сильно пациент надеется на мои способности отличить злокачественное образование от доброкачественного. Также я знаю, что медицинское знание возникает из диагноза».
Он напомнил мне, что слово «диагноз» происходит от латинского diagnosis, dia «врозь» + gnosis «знание». Алгоритмы МО будут улучшать свои показатели лишь в таком знании «врозь» – разделение и классификация родинок и меланом. Но цельное знание превосходит эти алгоритмы, заточенные на определённые задачи. В медицинской области лучшие результаты приносит, скорее всего, комплексное знание.
Источник