Одна из первых в мире технологий хранения и обмена данными.
В XIX веке врачи могли прописать ртуть при перепадах настроения и мышьяк при астме. Возможно, им не приходило в голову мыть руки перед операцией. Конечно, они не пытались никого убить – они просто не знали, что существуют более подходящие методы.
У этих ранних врачей в блокнотах были нацарапаны ценные данные, но каждый из них видел только один кусочек большого пазла. Без современных инструментов для обмена и анализа информации (а также науки для осмысления этих данных) ничто не могло помешать суевериям влиять на то, что можно увидеть через «замочную скважину» наблюдаемых фактов.
С тех пор люди прошли долгий путь с технологиями, но сегодняшний бум в области машинного обучения и искусственного интеллекта не оторван от прошлого. Все это является продолжением основного человеческого инстинкта – осмысления окружающего нас мира. Этот инстинкт нужен для того, чтобы мы могли принимать более разумные решения. И сейчас у нас есть значительно лучшие технологии, чем когда-либо.
Один из способов описать эту закономерность, идущую сквозь века – представить ее в виде революции наборов данных, а не единиц данных. Разница нетривиальна. Массивы данных помогли сформировать современный мир. Рассмотрим шумерских писцов (современный Ирак), которые прижимали свои стилусы к пластинам из глины более 5000 лет назад. Когда они это делали, они не просто изобрели первую систему письма, но и первую технологию хранения и обмена данными.
Если вы вдохновлены обещаниями, что ИИ может превзойти человеческие способности, считайте, что канцтовары дают нам сверхчеловеческую память. Несмотря на то, что сегодня легко воспринимать запись информации как должное, способность надежно хранить наборы данных представляет собой новаторский первый шаг на пути к высшему интеллекту.
К сожалению, извлечение информации из глиняных пластин и их доэлектронных аналогов – это боль. Вы не можете щелкнуть пальцем по книге, чтобы посчитать количество слов в ней. Вместо этого вам придется загрузить каждое слово в мозг, чтобы обработать его. Подобные проблемы сделали ранний анализ данных трудоемким, поэтому ранние попытки застревали на самых ранних этапах. В то время как королевство могло анализировать доходы с налогов, только бесстрашная душа могла бы попробовать рассуждать столь же эффективно в сфере вроде медицины, где тысячелетние традиции поощряли импровизацию.
К счастью, род человеческий произвел на свет невероятных первопроходцев. Например, карта смертей Джона Сноу, составленная во время вспышки холеры в Лондоне в 1858 году, вдохновила медиков пересмотреть суеверие о том, что болезнь была вызвана миазмой (токсичным воздухом), и обратить внимание на питьевую воду.
Если вы знаете «Леди с лампой», Флоренс Найтингейл, за ее героическое сострадание в качестве медсестры, вы можете быть удивлены, узнав, что она также была пионером аналитики. Ее изобретательная инфографика во время Крымской войны спасла много жизней, потому что с ее помощью удалось определить, что основной причиной смертей в больницах были нарушения гигиены, и именно эта инфографика вдохновила правительство обратить внимание на санитарные нормы.
Эпоха единообразных наборов данных возникала по мере того, как ценность информации стала утверждаться во все большем количестве областей, что привело к появлению компьютеров. И речь не об электронном приятеле, к которому вы привыкли сегодня. «Компьютер» (вычислитель) возник как человеческая профессия, когда специальные сотрудники выполняли вычисления и обрабатывали данные вручную, чтобы оценить их значимость.
Все эти люди были компьютерами! Фотография сделана в 1950-х годах, это персонала Supersonic Pressure Tunnel.
Красота данных заключается в том, что они позволяют сформировать суждение из чего-то более осмысленного, чем разреженный воздух. Взглянув на данные, вы вдохновляетесь задавать новые вопросы, следуя по стопам Флоренс Найтингейл и Джона Сноу. Вот в чем заключается дисциплина аналитики: вдохновлять модели и гипотезы через исследования.
От наборов данных к разделению данных
В начале XX века желание принимать лучшие решения в условиях неопределенности привело к рождению параллельной профессии: статистики. Статистики помогают проверить, разумно ли вести себя в соответствии с феноменом, который аналитик обнаружил в текущем наборе данных (и за его пределами).
Знаменитый пример – Рональд А. Фишер, разработавший первый в мире учебник по статистике. Фишер описывает проведение теста гипотезы в ответ на утверждение своего друга, что он мог определить, добавляли ли молоко в чай до или после воды. Надеясь доказать, что это неправда, на основании данных ему пришлось сделать вывод, что его друг действительно мог это сделать.
Аналитика и статистика имеют большую ахиллесову пяту: Если вы используете одну и ту же единицу данных для генерации гипотезы и ее же проверки, то вы жульничаете. Строгость статистики требует, чтобы вы объявляли свои намерения, прежде чем совершите соотвествующие действия. Аналитика – это скорее игра с расширенной ретроспективой. Аналитика и статистика были до обидного несовместимы, пока следующая крупная революция (разделение данных) не изменила все.
Разделение данных – простая идея, но это одна из самых важных идей для ученых вроде меня. Если у вас только один набор данных, вы должны выбирать между аналитикой (бездоказательное вдохновение) и статистикой (строгие выводы). Хотите хитрость? Разделите ваш набор данных на две части, и у вас будут и волки сыты, и овцы целы!
Эпоха двух наборов данных убирает напряженность между аналитикой и статистикой и вводит скоординированную работу между двумя различными типами специалистов по работе с данными. Аналитики используют один набор данных, чтобы помочь вам сформулировать вопросы, а статистики используют другой набор данных, чтобы дать строгие ответы.
Такая роскошь предъявляет жесткие требования к количеству данных. О разделении легче говорить, чем действительно его реализовать. Вы понимаете о чем речь, если вы пытались собрать достаточный объем информации для хотя бы одного приличного набора данных. Эпоха двойных наборов данных – это новая разработка, которая идет рука об руку с лучшим оборудованием для обработки данных, более низкой стоимостью хранения и возможностью обмениваться собранной информацией через Интернет.
На самом деле, технологические инновации, которые привели к эпохе двойных наборов данных, быстро ознаменовали собой следующую стадию – эру автоматических наборов данных, состоящих из трех наборов.
Для этого есть более привычный термин: машинное обучение.
Использование набора данных разрушает его чистоту как источника статистической строгости. У вас есть только один шанс, так откуда же вы знаете, какое «озарение» из аналитики наиболее достойно тестирования? Если бы у вас был третий набор данных, вы могли бы использовать его, чтобы взять провести тест-драйв вашей идеи. Этот процесс называется валидацией, и он лежит в основе того, что заставляет машинное обучение работать.
Как только вы будете вольны подвергнуть все проверке и сможете увидеть устойчивые идеи, вы сможете доверить поиск решения кому угодно: опытным аналитикам, стажерам, чайным листьям для гадания и даже алгоритмам, работающим без контекста о вашей бизнес-проблеме. Решение, которое лучше всего проявит себя в процессе валидации станет кандидатом на соответствующий статистический тест. Вы только что наделили себя способностью автоматизировать вдохновение!
Автоматизированное вдохновение
Вот почему машинное обучение — это революция в области датасетов, а не только данных. Все дело в роскоши иметь достаточно данных для трехстороннего разделения.
Каким образом ИИ вписывается в эту картину? Машинное обучение с помощью многослойных нейронных сетей технически называется глубоким обучением, но оно получило еще одно прозвище, которое закрепилось в речи: ИИ. Хотя когда-то ИИ имел другое значение, сегодня, скорее всего, он используется в качестве синонима глубокого обучения.
Глубокие нейронные сети создали ажиотаж благодаря благодаря тому, что превзошли традиционные алгоритмы машинного обучения во множестве сложных задач. Тем не менее, для их обучения требуется гораздо больше данных, а требования к возможностям обработки данных выходят за рамки возможностей обычного ноутбука. Именно поэтому появление современного ИИ связано с облачными технологиями. Облачные технологии позволяют арендовать чужой центр обработки данных вместо того, чтобы собирать оборудование самостоятельно, благодаря чему вы можете опробовать технологии современного ИИ прежде чем начнете в них инвестировать.
Имея этот кусочек головоломки, мы получаем полный набор профессий: экспертов по машинному обучению и ИИ, аналитиков и статистиков. Общий термин, который описывает каждого из них – эксперт в Data Science, науке, заставляющей данные приносить пользу.
Data Science является продуктом нашей эпохи тройных массивов данных. Многие отрасли современной промышленности регулярно генерируют более чем достаточно данных. Так возможен ли подход с четырьмя наборами данных?
Каков следующий шаг, если модель, которую вы только что обучили, показывает низкие значения валидации? Если вы ведете себя так же, как и большинство людей, то вы сразу же потребуете выяснить причину! К сожалению, не существует набора данных, который мог бы ответить на ваш вопрос. Возможно, у вас возникнет соблазн залезть в ваш набор валидационных данных, но увы, отладка нарушит его способность эффективно проверять ваши модели.
Анализируя свой набор валидационных данных, по сути превращаете три набора данных обратно в два. Вместо того, чтобы сделать что-то полезное, вы невольно вернулись в прошлое!
Решение лежит за пределами трех уже используемых вами наборов данных. Чтобы прийти к более умным итерациям обучения и гиперпараметрической настройке, вы захотите приблизиться к передовым методам: эре четырех наборов данных.
Если считать, что три набора данных, обеспечивают вам вдохновение, итерации обучения и тщательное тестирование, то четвертый ускорит ваш цикл разработки ИИ благодаря передовым методам анализа, направленным на получение информации о том, какие подходы можно опробовать на каждой итерации. Используя четырехстороннее разделение данных, вы сможете воспользоваться преимуществом изобилия данных! Добро пожаловать в будущее.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:
- Курс по Machine Learning (12 недель)
- Обучение профессии Data Science с нуля (12 месяцев)
- Профессия аналитика с любым стартовым уровнем (9 месяцев)
- Курс «Python для веб-разработки» (9 месяцев)
Читать еще
- Тренды в Data Scienсe 2020
- Data Science умерла. Да здравствует Business Science
- Крутые Data Scientist не тратят время на статистику
- Как стать Data Scientist без онлайн-курсов
- 450 бесплатных курсов от Лиги Плюща
- Data Science для гуманитариев: что такое «data»
- Data Scienсe на стероидах: знакомство с Decision Intelligence