История создания интернет-поисковиков

История создания интернет-поисковиков

В этом году интернет-поисковикам в современном их понимании исполняется 30 лет, срок по историческим меркам микроскопический. Отнюдь не удивительно, что IT-историкам, как профессионалам, так и энтузиастам, в этом временном интервале не просто тесно, а в буквальном смысле негде повернуться, не задевая друг друга. И они стараются сдвинуть временные рамки своей деятельности как можно дальше в прошлое, вплоть до античности. 

Мысль искать предков интернет-поисковиков среди старых библиотечных каталогов вполне здравая, ведь архитектура первых поисковых систем (search engines) была позаимствована как раз из библиотечной практики, а каталоги папирусных и пергаментных свитков в библиотеках появились, по современных археологическим данным, именно в античности. Как только в этих библиотеках база данных (database), выражаясь современным языком, в виде рукописей стала достаточной большой, появилась необходимость делать их списки с указанием, что на какой полке лежит. 

По сути такие же списки-каталоги строила в 1990 году одна из первых поисковых систем Арчи (archie — архив без буквы «в»), которая скачивала списки всех файлов со всех доступных серверов и строила из них базу данных (собственную «библиотеку»), и в ней поиск велся вручную по именам файлов, как в обычной библиотеке. Только в традиционной библиотеке на это уходило неизмеримо больше времени: найти в каталожном шкафу нужный ящик с искомой надписью, перебрать в нем карточки, найти в нем нужную, переписать с нее на требование название и шифр в библиотечном хранилище искомой книги или журнала, отнести требование библиотекарю и ждать, пока тот сходит в книгохранилище и принесет нужный вам источник информации в печатном виде. Кстати, программа Арчи не индексировала содержимое файлов, их объем данных был настолько мал, что нужный можно было быстро найти вручную.

В 1991 году появился сетевой протокола Gopher, что привело к созданию новых поисковых программ, которые искали имена файлов и заголовки, сохранённые в индексных системах Gopher по ключевым словам в заголовках меню Gopher. Эти новые поисковики пока не могли вести так называемый полнотекстовой поиск, то есть не по именам файлов, а по их содержимому, многочисленные специализированные каталоги поддерживались вручную. Только в 1994 году была создана поисковая система с роботом, ползающим по веб-страницам в поисках заданного ему слова, ее так и назвали —WebCrawler (исходно crawler — это гусеница, ползунок, обходчик, а теперь стал еще и поисковым роботом). В 1995 году появился первый поисковик под названием AltaVista, который реагировал на запросы, сформулированные на обычном разговорном языке (natural language search), как вы бы их задавали, если бы просто разговаривали с кем-то. 

В этой точке жизни новорожденного интернет-поисковика и престарелого библиотечного каталога их пути окончательно разошлись. Далее по мере оцифровки уже накопленной человечеством в рукописном и печатном виде информации и накопления новой уже сразу в цифровом формате шло состязание поисковиков за пользователей интернетом и, соответственно, за долю на мировом рынке этой услуги. IT-историкам оставалось лишь окончательно разобраться в том, кто и когда создал первые каталоги и кто и когда их довел до финальной стадии и когда их эволюция могла продолжаться только в цифровом формате. И вот тут выяснилась интересная вещь. Как ни странно это выглядит, пионером каталожный системы поиска был не какой-нибудь продвинутый архивист-библиограф Нового времени, а ботаник XVIII века Карл Линней, создатель каталога всех известных в его время растений и животных на Земле — Systema Naturae («Система Природы»), основатель современной биологической систематики и номенклатуры. 

До него наука на протяжении двух тысяч лет обходилась систематикой Аристотеля, который делил природу на неживую (минералы) и живую — растения и животные. Последние делились им на животных с кровью и бескровных, а животных с кровью — на яйцекладущих и живородящих. Все остальные, кто не вмещался в эту более или менее стройную систему, относился к группе, которая так и назвалась — «хаос». В эпоху Великих географических открытий эта группа разрослась до невероятных размеров, да и на остальные полки аристотелевой системы ученые вываливали всё без разбора.

Линней аккуратно разложил по полочкам все 12 с лишним тысяч известных науке на то время видов растений и животных. Они делились на два царства — растений и животных. Каждое царство делилось на типы, типы делились на классы, классы на отряды, отряды на семейства, семейства на роды, роды на виды. В природе реально существуют только виды животных, все остальные их группы, в которые они объединяются по степени родства — всего лишь абстракция, удобная для учета уже известных видов и еще не открытых.

Для ученых биологов главная заслуга Линнея состояла в том, что он построил дополнительные перегородки и полочки в умозрительном каталожном шкафу Природы, но IT-историкам был больше интересен метод работы Линнея. Понятно, что он мог справиться с таким объемом информации только одним способом: записывать ключевые характеристики каждого вида растения или животного на отдельные листы бумаги (карточки) и потом раскладывать их по принадлежности к тому или иному роду, семейству, отряду и т.д. То есть по сути он заполнял таблицу в Microsoft Excel. Страницы его «Системы Природы», если ее полистать, кстати, удивительно напоминают табличку в Excel. 

Всего при жизни Линней подготовил 12 переизданий своей «Системы Природы», внося в каждое следующее исправления и вновь открытые виды. Титанический труд с учетом того, что после публикации ее первых изданий  к нему посыпались письма ученых со всех концов Европы и из Нового Света с описанием открытых ими новых видов, число которых росло в геометрической прогрессии. Как потом выяснилось всего на Земле примерно полмиллиона видов растений и полтора миллиона видов животных, не считая простейших.

Насколько проще была бы эта работа, если бы ученые, каждый самостоятельно, искали, нет ли описанного им нового вида среди уже учтенных в «Системе природы», и если его там не обнаруживалось, самостоятельно его туда заносили и выставляли бы в сети. Увы, это было делом далекого будущего. Лишь в 1980-е годы Тимоти Бернерс-Ли, один из создателей Всемирной паутины, работавший тогда в ЦЕРНе, пока еще вручную поддерживал список веб-серверов на сайте ЦЕРНа для того, чтобы физики высоких энергий были в курсе работ друг друга.

Сегодня даже в солидных научных работах уважаемых историков науки так и написано, что изобретения метода учета и систематизации информации с помощью каталожных карточек (index card, или system cards, как их называют сейчас) — заслуга Карла Линнея. Но согласиться с этим трудно, слишком на виду был этот метод, чтобы до него не мог додуматься кто-то еще. Во всяком случае по справочникам и энциклопедиям гуляет старинная гравюра из книги XVII века De arte excerpendi не умозрительного, как у Линнея, каталожного шкафа, а вполне материального, сколоченного из досок английским изобретателем Томасом Харрисоном в 1640-х годах, где хорошо видно, как каталожные карточки размером с игральные карты висят там на крючочках в алфавитном порядке.

Разумеется, в библиотеках, базах данных того времени, тоже велся учет, где что стоит или лежит, особенно если книг было много. Но также понятно, что каждый библиотекарь или владелец домашней библиотеки вел такой учет по-своему, унификации для всех библиотек не было, да она до поры до времени и не требовалась. Потребовалась она в публичных библиотеках ближе к концу XIX века.

Сейчас с подачи  гарвардского экономиста Дэвида Ландеса, который в 1970-х годах опубликовал книгу по истории мировой экономики под названием «Освобожденный Прометей» (ставшей мировым бестселлером во многом благодаря бесцеремонно позаимствованному доктором Ландесом названием у знаменитой поэмы Перси Шелли) стало модно говорить о четырех промышленных революциях. 

Вторая промышленная революция свершилась и появилась в «индустрии 2.0» после появления динамо-машины и двигателя внутреннего сгорания. После Второй мировой войны с появления первых германиевых транзисторов и первых цифровых ЭВМ начинается Третья промышленная революция и эра «индустрии 3.0», достигая своего апогея с созданием Всемирной паутины и того, что мы называем «цифровой революцией, когда прямо по Марксу появилась новая «производительная сила», которая за считанные годы поменяла «производственные отношения». А сейчас мы живем в эпоху «индустрии 4.0», что иногда называют «цифровой экономикой». 

Правда, о том, что считать началом Четвертой промышленной революции, теоретики экономики пока не договорились. Нет пока среди них и консенсуса по поводу того, что считать ее признаками. Одни относят к таковым искусственный интеллект (ИИ), робототехнику, интернет вещей (IoT), Web3, блокчейн, 3D-печать, генную инженерию, квантовые компьютеры и далее, как говорится, по списку. Другие, наиболее романтичные, считают, что это мелочи, а «индустрия 4.0» — это постинформационная эпоха, когда креативность и воображение становятся основными создателями экономической ценности в иммерсивной виртуальной реальности — метавселенной или киберпространстве. 

Но если вернутся из метавселенной в эпоху «индустрии 2.0» конца XIX века, то одним из ее главных признаков был информационный бум. Как писал один из современников: «Издание массы книг и научных трудов становится бедствием, так как солидное, ценное и необходимое все чаще исчезает в огромном потоке ненужных изданий, и надвигается такая угроза, что все достойные внимания издания захлебнутся в этом потоке». Веку электричества и нефти требовались хорошо подготовленные специалисты самых разных специальностей, соответственно возникает образовательный бум.

Неудивительно, что именно в это время библиотекарь колледжа Армхерста (штат Массачусетс) Мелвил Дьюи изобрел систему быстрого поиска книг в своей библиотеке, которую потом так и назвали «десятичная классификация Дьюи» (ДКД). По сути он проделал в своей библиотеке ту же работу, что в свое время Линней. Только если тот распределял виды организмов по царствам, типам, классам, отрядам, семействам, родам, видам, то есть иерархия у него была семиэтажная, то в системе у Дью иерархия была трехэтажная. С помощью трехзначных чисел, записанных на каталожной карточке одно за другим, можно было достаточно быстро найти книгу на нужную тему на указанной полке. И не было нужды на всякий случай снимать ее оттуда, чтобы проверить, она ли это, потому у нее на корешке был наклеен ее каталожный номер.

Постепенно «десятичный поисковик» Дьюи был внедрен во всех библиотеках Америки, но в Старом свете решили пойти своим путем, создав «универсальный десятичный классификатор» — УДК для всемирного хранилища информации, современного аналога Александрийской библиотеки эпохи Птолемеев, не больше не меньше. Инициаторами этого проекта были бельгийские юристы Поль Отле и Анри Лафонтен, будущий Нобелевский лауреат премии мира 1913 года. В 1895 году они основали Международный институт библиографии, потом переименованный в Международную федерацию информации и документации. Под него бельгийское правительство выделило финансирование и здание, которое они назвали Palais Mondial — «Всемирный дворец», в одном его крыле разместился Mundaneum — «Мир знаний». Все выглядело пафосно. Оставалось создать базу данных. 

Нанятый штат библиографов и волонтеры засели за создание картотечного каталога. На библиографическую карточку заносились данные о каждой книге, статье и фотографии, когда-либо опубликованных, затем карточка получала шифр УДК из арабских цифр, знаков препинания и символов арифметических действий и далее отправлялась в соответствующий ящик каталожного шкафа. На момент, когда в 1934 проект Mundaneum обанкротился, в нем насчитывалось 15 тысяч ящиков, а самих карточек накопилось 18 миллионов. 

Помимо прочего, это был бизнес: желающие по почте или телеграфу отправляли запрос на нужный им источник информации, сотрудник службы поиска Mundaneum «гуглил» по каталогу, в каком из каталожных ящиков лежала нужная карточка, доставал ее оттуда, копировал и отправлял заказчику все данные нужной ему книги и места, где она хранится. Но за это надо было заплатить, у Отле WebCrawler был платным. 

Бельгийское правительство прекратило финансирование «Мира знаний» в 1934 году, но не это было главной причиной краха проекта. По мере его развития и расширения он начал буксовать, не хватало времени и персонала на обработку всех запросов. И этому не помогла бы даже планировавшаяся полная замена картонных карточек микрофильмами, Бельгийским инженером Робертом Гольдшмидтом по просьбе Отле был изобретен «билиофот» — аппарат для серийного производства и воспроизведения «livre microphotographique» — фотокопий книг. Это был бы лишь паллиатив, проблему гигантизма подобной поисковой системы микрофильмы не решали. И как в природе проблема палеозой-мезозойского гигантизма наземных животных была решена их вымираем, так и в данном случае Mundaneum в 1935 году он распух до потери жизненных функций и скончался.

Удивительного тут нет. Например, когда в нашей стране в 1960-х гг. издавались «большие» таблицы Библиотечно-библиографической классификации (ББК) в 25 выпусках, 30 книгах, пришлось в «директорском коридоре» «Ленинки» (нынешней РГБ) выделить комнату техническому редактору и его персоналу для постоянного взаимодействия с редакторами ББК на протяжении десятилетий, чтобы новые  издания таблиц выходили в срок. И это только в одной библиотеке и только сводные таблицы классификатора, а не вся инфраструктура ББК.

Сам УДК, тем не менее, не умер, он благополучно существует поныне уже в сети, а в библиотеках на их веб-сайтах и в своей традиционной ипостаси — в виде карточек в солидных деревянных шкафах. Более того, в 1960-х–1980-х гг. (в разных странах в разное время) для всех печатных изданий был введен обязательный десятичный ISBN — Международный стандартный книжный номер, уникальный номер каждого книжного издания, крайне необходимый издательскому бизнесу для охраны от «пиратства». Такой же номер ISSN был присвоен всем периодическим изданиям. Они публикуются на оборотной стороне титульного листа издания, а с 2007 года заменены или дублируются штрих-кодом. Например, достаточно набрать в интернет-поисковике ISBN 5-7260-0483-3 (где первая цифра 5 – это РФ) и получим: Убийство под Рождество / Агата Кристи. — Москва : Юрид. лит., 1990. — 413,[2] с. : ил.; 22 см. — (Детектив).; (В пер.), а также информацию о тираже и прочих деталях, важных для издательского бизнеса, и где ее можно сейчас купить.

Прощаясь с проектом Mundaneum, Поль Отле в своей книге 1934 года «Traité de documentation: le livre sur le livre, théorie et pratique» мечтал: «На рабочем столе больше нет одной книги. На их месте стоит телевизор (тогда уже началось первое регулярное телевещание — Ред.) и рядом телефон. А далеко, в огромном здании, есть все книги и вся информация, со всем пространством, которое требуется для их записи и обработки… С рабочего места мы видим на экране ответ на вопрос, заданный по телефону, использующему провод или без него. Экран был бы двойным, четверным или десятикратным, чтобы сравнивать тексты и документы; имелся бы динамик для случаев, когда восприятию изображения помогает прослушивание текста. Сегодня это утопия, потому что она еще нигде не существует, но она может стать реальностью завтра, при условии, что наши методы и инструменты будут усовершенствованы».

Он на удивление точно нарисовал картину использования персонального компьютера с программой ОС Windows, сервисом голосового поиска и сервером в дата-центре. Хотя, если вдуматься, почти всё для поиска в интернете тогда было уже создано. Даже у жуликоватого архивариуса Коробейникова, который в 1927 году за 70 рублей предложил продать Остапу Бендеру адреса стульев с зашитыми в одном из них бриллиантами мадам Петуховой, была своего рода цифровая база данных в виде двух тетрадей, где учет имущества Старгородского коммунхоза и его выдача были зашифрованы в десятичной системе с перекрестными «гиперссылками» в виде инвентарного номера.

Что уж говорить про Mundaneum Отле, где были оцифрованная база данных в виде массива шифров УДК и вербальные запросы пользователей, которые с помощью того же УДК легко можно было формализовать в цифре. Даже первый онлайн индекс веб-сайтов Тима Бернерса-Ли World Wide Web Virtual Library был устроен проще — по архитектуре он скорее напоминал «десятичную классификацию Дьюи» (только в ДКД было 9 исходных категорий первого уровня, а в WWW VL — 14). Словом, Отле не хватало только того, что сейчас называют интернетом, и он довольно прозорливо о нем помечтал. А в реальной жизни все это появилось полвека спустя.

Как уже сказано, IT-историки считают первым интернет-поисковиком до эпохи Всемирной паутины программу Archie, написанную в 1990 году системным администратором, как его назвали бы сейчас, Аланом Эмтеджем из Школы компьютерных наук университета Макгилла в Монреале. Его поисковик скачивал списки файлов со всех доступных FTP-серверов и строил базу данных, в которой можно было вручную искать нужную информацию по именам файлов. Десять лет назад в интервью на блоге HuffPost Алан Эмтедж объяснил, почему он не запатентовал свое изобретение и не стал богатым человеком.

«Я написал фрагмент кода, который породил многомиллиардную индустрию, — говорит он. — Но в то время никто не зарабатывал деньги на интернете, и мы не запатентовали ни одну из оригинальных идей “Арчи»». «Мы» — это сам сисадмин Эмтедж и студенты университета Бил Хилан и Дж. Питер Дойч. К слову, большинство изобретателей в области интернета тогда были очень молоды. 

«Арчи использовал те же методы, что и любая современная поисковая система, и, конечно же, я мог бы заработать на патентах. Но тогда Интернет не был коммерческой организацией, — повторяет Алан Эмтедж. — Никто не зарабатывал никаких денег на интернете. Любой, кто говорит вам, что они тогда знали, что произойдет в будущем, лгут. Я-то это точно знаю, потому что я был там. …Время от времени, общаясь с каким-нибудь настоящим идиотом, я думаю про себя: «Да-да, говори, но знаешь что? Ведь это я изобрел поисковую систему!»».

Возможно, так и было, но несколько лет спустя, когда Всемирная паутина стала доступна для пользователей, не могло не запахнуть большими деньгами. И хотя ее создатель Тим Бернерс-Ли был и остается принципиальным противником патентования и взимания роялти за лицензии новых интернет разработок, едва ли кто-то из разработчиков поисковиков пренебрег бы подачей патентной заявки. Во всяком случае нарастающий с начала 1990-х годов поток патентов на поисковые программы подтверждает это. 

Например, Луис Монье, разработчик веб-краулера для AltaVista, одного из самых популярных поисковиков своего времени (300 тыс. обращений в день ее рождения и 80 млн обращений и $5 млн спонсорского дохода два года спустя), получил патент США №5974455 с приоритетом от декабря 1995 года. А уж сколько патентов у Сергея Брина, создавшего вместе с Ларри Пейджем в 1996 году поисковую систему Google, а в 1998 году и компанию Google (к середине нулевых годов нашего века она вытеснила AltaVista на обочину поискового бизнеса и истории)! Скажем так: немало, он их оформлял почти ежегодно, можете посмотреть их сами, они доступны в интернете. 

В 2012 году корпорация Google публично высказалась против IT-патентов, в которых описываются «абстрактные идеи». Абстракция вообще-то — дело вкуса, на то она и абстракция, но отчего бы не высказаться, если в том году корпорация Google имела 80% мирового рынка поисковых запросов (по данным РБК), не считая того, что основным доходом корпорации является онлайн-реклама, привязанная к результатам поиска. В январе этого года, по данным компании Similarweb, эта доля составляла уже 91,07% (для сравнения доля Yandex, который занимает 5-место в мировом рейтинге — 0,43%).

Сегодня поисковая индустрия зарабатывает около $800 млрд ежегодно, потому не мудрено, что ее история изобилует легендами и апокрифами, как, впрочем, и любой большой бизнес. Нет смысла спорить, кто именно изобрел поисковики, это занятие для любителей, профессиональные IT-историки не тратят на это время. Они занимаются более полезным делом — по сути тем же кропотливым, незаметным, но очень важным трудом, который в свое время проделал Карл Линней, создав свою Systema Naturae.

На сегодня все поисковики, которые когда-либо существовали и существуют, а в мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет пойдет на тысячи, тоже разложены по полочкам либо в хронологическом, либо в каком ином порядке. Их таймлайны легко доступны в интернете, и нет нужды перечислять их здесь (места не хватит). Очень коротко можно только сказать, что поисковые системы, реагирующие на вербальные запросы (прочесывающие Всемирную паутину и ранжирующие результаты поиска на основании наличия слов из запроса в документе, их количества, близости к началу документа, близости друг к другу, наличия этих слов в заголовках и подзаголовках документов, количества ссылок на данный документ с других документов и с некоторых пор «респектабельности» ссылающихся документов) появляются начиная с 1993 года и все время совершенствуются. А начиная с нулевых годов нашего века поисковики, продолжая совершенствоваться и приобретая новые удобства для пользователей (например, голосовые запросы), обременяются вообще-то не свойственной им попутной функцией — зарабатываем денег на онлайн-рекламе. Отчего сейчас на IT-форумах рефреном звучит максима «старое не значит плохое».

В эту же общую картину эволюции поисковика укладываются и отечественные поисковые системы, включая Апорт, Рамблер, Яндекс, Спутник. Еще в конце нулевых годов разработчик системы Яндекс и его сооснователь Илья Сегалович писал: «Как бы ни был реализован процесс поиска, на какой бы математической модели он ни основывался, идеи и программы, реализующие поиск, достаточно просты. Хотя эта простота, относится, по-видимому, к той категории, про которую говорят «просто, но работает». …Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. …Мечты 60-х — 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью».

Цитата длинная, но она стоит того. Ибо реальность такова: современные крупнейшие поисковые системы крайне редко выдают идентичный набор верхних строчек результатов при поиске по одним и тем же запросам. А если сюда добавить эффект «пузыря фильтров», когда поисковые системы, основываясь на прошлых действиях пользователя в системе, изолируют его в его же собственном «информационном пузыре», становится совсем грустно. 

Но возврата к старому доброму поисковику не будет, инженеры и изобретатели сейчас нацелены на создание кентавра из поискового движка и нейросети. Искусственный интеллект призван помогать как бездушному поисковику, так и пользователю, задающему поиск, находить общий язык. Как считал Илья Сегалович, «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. И это правда. Зато машину можно научить всему, она априори лишена самомнения, предрассудков и упрямства. В феврале этого года СМИ сообщили о студенте РГГУ, которому по его запросам нейросеть написала дипломную работу. Понятно, что это, вполне возможно, не лишенный остроумия маркетинговый ход разработчиков данного ИИ, но, очень похоже, что именно этот тренд, выражаясь их же языком, сейчас наиболее актуальный для разработчиков и изобретателей новых поисковых движков. Но это тема уже для отдельного разбора, который мы обязательно напишем. 

О сервисе Онлайн Патент

Онлайн Патент – цифровая система №1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech-решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн-Патент и получите доступ к следующим услугам:

  • Онлайн-регистрация программ, патентов на изобретение, товарных знаков, промышленного дизайна;

  • Подача заявки на внесение в реестр отечественного ПО;

  • Опции ускоренного оформления услуг;

  • Бесплатный поиск по базам патентов, программ, товарных знаков;

  • Мониторинги новых заявок по критериям;

  • Онлайн-поддержку специалистов.

Больше статей, аналитики от экспертов и полезной информации о интеллектуальной собственности в России и мире ищите в нашем Телеграм-канале.

Получите скидку в 2000 рублей на первый заказ. Подробнее в закрепленном посте.

 

Источник

Читайте также