IT-гигант Google приобрёл очередной стартап. Новым приобретением корпорации стала компания Metaweb, которую эксперты называют лидером в создании новой сети — семантической. Зачем поисковику понадобилось это приобретение?
Дать подходящий ответ на поисковый запрос — задача не самая тривиальная. Дело не только в том, что веб-страниц в Сети — миллиарды. Крупные поисковики — Google, Yahoo, Bing, «Яндекс» — научились справляться с таким объёмом информации. Для этого построены гигантские дата-центры и работает самое эффективное программное обеспечение. Проблема в другом: то, что выдают поисковики в качестве результата, зачастую не то, что пользователь на самом деле ищет.
Например, он ищет день рождения какого-нибудь поэта. Кто у нас поэт? Конечно, Пушкин. Что выдают нам поисковики первой строкой на запрос «день рождения Пушкина»? Google сообщает, цитируя «Википедию», что «Через два дня Пушкин вместе с Раевскими отбыл морем в Гурзуф». Майкрософтовский Bing без всяких комментариев выдаёт ссылку на страницу новостной ленты (только перейдя по ссылке, обнаруживаем сообщение о праздновании последнего дня рождения поэта). Yahoo! радует двумя строчками из ЖЖ какого-то милого человека, извещающего весь мир о том, что его дочка родилась в один день со «светом русской поэзии». Самым адекватным оказывается «Яндекс», радующий адекватной датой из «Википедии».
Почему так разнятся результаты? Ведь у всех «под рукой» один и тот же интернет? Дело в том, что на самом деле поисковики просто подыскивают наиболее подходящие, с их точки зрения, страницы в Сети и дают на них ссылки, снабжая более или менее адекватными фрагментами этих страниц — сниппетами. Поисковики не отвечают на вопросы, они только индексируют и ищут слова, имитируя ответ на вопрос. Достоверность этой имитации зависит не только от специфики работы программного обеспечения и громадного штата специалистов по оценке результатов, которые трудятся на благо улучшения качества представления результатов поиска, но и, как ни странно, от самих веб-страниц. Пока большинство страниц в интернете просто содержит какую-то информацию, и её обработка требует дополнительной обработки для получения адекватных ответов на вопросы, но в последние годы постепенно растёт внутри Сети и «другая Cеть» — семантическая.
Идея Semantic Web была сформулирована сэром Тимом Бернерсом-Ли. Глядя на то, как Мировая паутина из хранилища полезных данных быстро превращается в хаотичную свалку информации обо всём на свете, в которой сложно что-то найти, «отец» интернета предложил строить Сеть иначе, специально подготавливая — структурируя — информацию таким образом, чтобы она могла адекватно пониматься людьми и однозначно интерпретироваться машинными алгоритмами. Такая сеть будет иметь дело не только со словами, но и с офлайновыми сущностями: людьми, явлениями и артефактами, географией и историей. Причём каждая из этих сущностей получит свой собственный идентификатор, будет отклассифицирована, попадёт на определённую полочку, а её связи с другими сущностями могут быть описаны так, чтобы быть верно обработанными машинами: коньяк и Коньяк будут лежать отдельно, но связь между ними будет учтена и адекватно представлена при выдаче ответа на запрос пользователя.
С момента появления статьи Бернерса-Ли о Semantic Web прошло уже 9 лет — срок вроде бы совсем немалый для IT-технологий, однако идея семантической сети до сих пор остаётся в числе «перспективных», но не реализованных в полной мере. Почему? Причин несколько. Одна из них — сложность самой задачи. Представьте себе: вам нужно создать классификацию всего на свете… Задача, решение которой пытался философски осмыслить ещё Аристотель, которую тщились осуществить средневековые схоласты и натурфилософы Нового времени. Проблема онтологии, казалось бы, такая понятная в постановке задачи, однако не имеет конечного решения, только практическое. И как всегда в таких случаях, практические подходы могут быть различны хотя бы потому, что и все сущности этого мира очень разные: одно дело белокочанная капуста, другое — Пушкин.
Но, наверное, главная трудность с внедрением Semantic Web — сложно монетизируемые затраты труда: чтобы сделать «семантическую страницу», готовую для машинной обработки, её нужно специально готовить. Кто заплатит за этот труд? Кому он будет выгоден? Пока заинтересованность в семантизации веба не проявят крупные игроки IT-рынка, Semantic Web так и будет оставаться весьма перспективным, но проектом, воплощать который до последнего времени решались только стартапы. Один из таких стартапов, причём самый крупный, 16 июля 2010 года и приобрела Google — базирующуюся в Сан-Франциско (США) компанию Metaweb.
Технология Metaweb, которой до последнего времени могли пользоваться все желающие, позволяла веб-сайтам не просто предоставлять пользователям информацию, но автоматически обогащать её контекстными ссылками, к примеру, снабжая кинорецензию адекватными ссылками на трейлеры, расписания кинотеатров и постеры к фильму. Metaweb собирала информацию обо всём на свете, а также от добровольных волонтёров в одну базу данных с открытой структурой Freebase.
В настоящий момент в базе Freebase содержится более 12 млн описаний самых разных «вещей»: фильмов, книг, компаний, знаменитостей (вот, кстати, страничка Freebase, посвящённая Александру Сергеевичу), достопримечательностей, марок автомобилей и т.д.
Будучи открытой, Freebase и до приобретения Metaweb предоставляла доступ Google к содержащейся в ней информации. Как пообещала Google, Freebase и дальше останется открытой, но теперь Google станет легче обеспечивать пользователей более адекватными ответами на сложные запросы, связанные не с информацией Сети, а с информацией о реальном мире, в котором живут реальные люди, типа «колледж на Западном побережье с платой за обучение меньше 30 тыс. долларов» или «актёр старше 40 лет, получивший хотя бы один «Оскар», — пример, который приводит в официальном блоге компании Джек Менцель, директор по продакт-менеджменту в Google.
Эксперты оценили приобретение Google в целом позитивно, поскольку это вложение компании в свой основной бизнес — поиск. Сколько заплатили за Metaweb, Google не сообщила, но вряд ли сумма была меньше 57 млн долларов, которые Metaweb в своё время получила от своих инвесторов, среди которых такие крупные венчурные компании, как Benchmark Capital, Goldman Sachs Capital Partners и Omidyar Network.
Для Google, впрочем, приобретение Metaweb — это не только вложение в поиск и в развитие Semantic Web. Крупнейший в мире поисковик, вероятно, станет искать качественнее (всегда есть что улучшить), но главное, кажется, у компании появится дополнительная опора для поиска не только в Сети, но, что часто важнее, в реальности.
| Читать @chaskor |
Статьи по теме:
- «Меняйся или умри» .
HP показали настоящее и будущее. - Истории IT провалов 2011.
8 продуктов и сервисов, выброшенных в 2011 году. - Информация со всего мира лично для меня .
Как интернет меняет наше информационное поле? - Google - плюс на минус.
- Большие надежды.
Новые медиа — не место для романтиков. - Шмидт уходит, Пейдж приходит.
- Дети, животные, юмор.
YouTube подвёл итоги 2010-го. - Особенности виртуального шопинга.
Подводим экономические итоги года. - Не почта, или Бла-бла-бла для Facebook.
Марк Цукерберг рассказал о новом способе коммуникации. - Facebook vs. Google.
Сводки с мобильного фронта.




























