21.05.2019

Всевидящее око: как стартап Diffbot собрал в Сети триллион фактов и обошел Google

5 дней назад
Комментарии (0)
Создатель Diffbot Майк Тен в юности прочитывал все попавшиеся ему книги одну за другой. Повзрослев, он придумал поисковик, который умеет собирать и анализировать разбросанную по интернету информацию. Его технология уже обошла Google по числу собранных данных. Но в отличие от интернет-гиганта работать он предпочитает с бизнесом, а не с обычными пользователями

Компания Сisco хотела, чтобы пользователи ее сервиса видеоконференций могли получить информацию обо всех участниках видеозвонка, например, о том, где они раньше работали и упоминались ли они ранее в новостях. Для этого она решила воспользоваться услугами стартапа Diffbot из калифорнийского города Маунтин-Вью.

Diffbot занимается структурированием информации из интернета в соответствии с индивидуальными запросами клиентов. Созданная разработчиками Diffbot поисковая система «прочесывает» миллионы страниц и выдает результаты по заданным параметрам. Для Сisco система, к примеру, подбирает статьи, в которых упоминаются участники видеоконференции. Для производителя кроссовок Diffbot делает обзоры отзывов покупателей и обсуждений на форумах. А для разработчика программного обеспечения для бизнеса подыскивает потенциальных клиентов. Обычно, чтобы собрать такого рода данные в полном объеме, требуется много времени. Однако создатели стартапа утверждают, что Diffbot изучает практически все доступные веб-страницы и может предоставить результаты поиска менее чем за секунду.

«Люди не могут узнать все обо всем. Поэтому нам нужно создать систему, которая будет способна это сделать», — говорит основатель Diffbot Майк Тан.

Как Diffbot играет на поле Google

Компании из всех отраслей экономики нанимают все больше специалистов по обработке данных и используют технологии искусственного интеллекта для моделирования спроса на свои продукты, анализа угроз со стороны конкурентов и поиска новых клиентов. Однако при проведении любого анализа даже искусственному интеллекту нужно опираться на конкретные данные. Здесь вступает в игру Diffbot. Основатели стартапа уверяют, что их поисковая система предоставляет более полные данные, а также делает это быстрее, чем разработки конкурентов.

Тан, которому сейчас 36 лет, говорит, что после почти десяти лет фальстартов и технических прорывов команде Diffbot удалось создать поисковый индекс, который уже проанализировал 90% открытых интернет-ресурсов. По неполным подсчетам, база данных Diffbot состоит более чем из триллиона фактов.

Это огромный объем, даже если сравнивать с базой данных Google. У интернет-гиганта есть своя технология структурирования информации, которая получила название Knowledge Graph. Именно ее можно назвать источником всех ответов, которые появляются в топе поиска, когда пользователи задают определенные вопросы. Последний раз Google обнародовала информацию о Knowledge Graph в конце 2016 года, и тогда в базе данных системы было лишь 70 млрд фактов.

Как и Knowledge Graph, поисковая система Diffbot постоянно просматривает миллиарды веб-страниц. Однако стартап использует поисковый индекс не для того, чтобы дать людям наиболее релевантные ссылки на информацию: Diffbot предоставляет компаниям данные, которые они могут затем интегрировать в свои собственные аналитические инструменты.

Diffbot привлек финансирование на сумму $12 млн и смог обзавестись несколькими именитыми клиентами вроде Salesforce, eBay, Snapchat и Intel. В прошлом году доходы компании составили почти $5 млн. По мнению Тана, продажи вскоре могут удвоиться, поскольку все больше компаний находится в поиске крупномасштабных баз данных.

«Diffbot — это своего рода секретный ингредиент для многих компаний», — отметил основатель стартапа.

От книги к книге

Майк Тан с юного возраста увлекался обработкой информации. Он родился на Тайване, но затем вместе с семьей переехал в США, чтобы его отец мог получить высшее образование. Его семья поселилась в городе Мальборо, штат Массачусетс, и мать отвела Майка в местную библиотеку. Там он читал все книги подряд, методично передвигаясь от полки к полке. Мальчик не выбирал чтиво исходя из своих интересов: он хотел прочитать каждую книгу в библиотеке.

«Я продолжал читать все книги подряд до тех пор, пока не попал в библиотеку побольше», — с улыбкой отметил он.

Будучи подростком, он с помощью компилятора Microsoft QuickBASIC перепрограммировал видеоигры для получения дополнительных «жизней». Во время учебы в старших классах, уже в Пенсильвании и Джорджии, он написал компьютерную программу, предсказывающую движение акций на фондовом рынке, и иногда спекулировал на бирже. Во время стажировки в Microsoft ему удалось произвести хорошее впечатление и показать свои технические навыки, поэтому сразу после окончания школы он получил приглашение в команду, занимавшуюся созданием операционной системы Windows Vista. Проработав в Microsoft целый год, Майк Тан решил получить высшее образование и поступил в Калифорнийский университет в Беркли, где изучал информационные технологии. Затем он перебрался в Стэнфорд, чтобы получить степень магистра в области искусственного интеллекта и поступить в аспирантуру. Все это время он думал о том, как структурировать накопленные человечеством знания.

В детстве Тан не мог прочитать все книги в больших библиотеках и систематизировать полученные знания. Позже он столкнулся с похожей проблемой, пытаясь структурировать весь объем информации, размещенный в открытом доступе в интернете. Однако он помнил, что интернет создавался людьми и для людей. Он пытался разработать способ, с помощью которого можно было бы систематизировать разбросанные по интернету данные так, чтобы компьютерные программы были в состоянии читать и анализировать их.

Он представил, что создаст поисковую систему, которая выдавала бы только конкретные ответы. По его замыслу, вместо того, чтобы выдавать ссылки, пройдя по которым пользователи сами должны искать информацию, такая поисковая система могла бы автоматически выдавать либо точный ответ, либо большой набор данных для анализа. И так, работая патентным поверенным и участвуя в проектах создания поисковиков для eBay и Yahoo, Тан параллельно трудился над созданием собственной компании.

После нескольких неудачных попыток ему наконец удалось создать программу, способную находить и сортировать новостные статьи. Одним из первых клиентов Diffbot стала американская компания AOL. В 2012 году, подписав контракт на несколько сотен тысяч долларов, Тан принял решение покинуть все другие проекты и отчислиться из аспирантуры, чтобы посвятить все свое время развитию бизнеса.

Инвестор Пейджа и Брина

В том же году ему удалось договориться о встрече с миллиардером Энди Бехтольшаймом, сооснователем компании Sun Microsystems и одним из первых инвесторов Google. В ходе деловой встречи он убедил Бехтольшайма выписать ему чек на $100 000 (такую же сумму миллиардер инвестировал в 1998 году в проект создателей поисковой системы Google Ларри Пейджа и Сергея Брина). При этом спустя несколько часов после встречи Энди Бехтольшайм написал Майку Тану электронное письмо, в котором рассказал, что хочет удвоить объем инвестиций.

После того как стало известно, что Бехтольшайм поддержал проект, Майк Тан получил дополнительное финансирование на сумму в $2 млн от бизнес-ангелов. В ходе раунда А стартап привлек $10 млн от Felicis Ventures и китайского интернет-гиганта Tencent. По данным Diffbot, стоимость компании оценивается более чем в $100 млн.

«Это невероятно сложная задача. Майк и его команда специалистов по технологиям искусственного интеллекта проделали отличную работу», — говорит Бехтольшайм.

Штаб-квартира Diffbot сейчас находится в загроможденном офисе, расположенном неподалеку от станции пригородных поездов в Маунтин-Вью. Вскоре Diffbot переедет в более просторный офис в калифорнийском городе Менло-Парк. В компании работает 30 человек, из них более 20 — это исследователи и инженеры в области технологий искусственного интеллекта. В течение следующих 18 месяцев Тан планирует увеличить штат компании вдвое.

Заказы от Cisco и Amazon

Клиенты Diffbot оплачивают услуги компании ежемесячно. Сумма зависит от того, как часто компания пользуется сервисом. Небольшие компании платят от $299 в месяц. Для крупных клиентов цены устанавливаются в индивидуальном порядке. Например, Cisco использует технологию Diffbot для того, чтобы из новостных статей получать информацию об участниках видеоконференции, пользующихся ее сервисом видеосвязи WebEx. Поисковая система DuckDuckGo, ориентированная на сохранение конфиденциальности, сотрудничает с Diffbot для улучшения качества своей поисковой выдачи. По словам представителей Diffbot, программу использует и Amazon — для поиска потенциальных клиентов, заинтересованных в его облачных сервисах. Недавно Diffbot заключила самую крупную сделку в своей истории: годовой контракт с государственным подрядчиком. Стоимость данного контракта исчисляется в семизначных числах.

Но вместе с бизнесом растет и конкуренция. Множество других стартапов занимаются сбором и обработкой огромных объемов данных. Компании Import.io и WebHose разработали свои методы сбора данных на просторах интернета. Кроме того, крупные компании уже выкупили несколько перспективных технологий: разработчик программного обеспечения Palantir Technologies приобрел Kimono Labs, а технологический гигант IBM — AlchemyAPI.

Преимущество Diffbot — большая база данных, говорит аналитик консалтинговой компании Gartner Светлана Сикулар, которая занимается вопросами управления данными и технологиями искусственного интеллекта. «По моему мнению, Diffbot будет играть все более важную роль. Разработчики компании поняли, как систематизировать все данные в интернете», — отмечает она.

Чем похожи и чем отличаются Google и Diffbot

  • Энди Бехтольшайм был одним из первых инвесторов как Google, так и Diffbot;
  • И Google, и Diffbot разработали системы, которые систематизируют огромные объемы данных в интернете, чтобы создать поисковый индекс для сотен миллиардов веб-страниц;
  • И Google, и Diffbot создали специальные базы данных, в которых хранится информация о людях, местах, предметах и взаимосвязях между ними;
  • В базе данных Google было 70 млрд фактов по состоянию на конец 2016 года, когда компания в последний раз обнародовала цифры. В базе данных Diffbot — более триллиона фактов;
  • Google представляет собой поисковую систему для обычных пользователей. Когда люди ищут что-то в Google, алгоритмы поисковой системы сортируют веб-страницы по релевантности и помещают наиболее релевантные ссылки на первые места. Иногда алгоритмы Google используют базу данных Knowledge Graph. Например, когда поиск выдает конкретные ответы или же при использовании голосового поиска. Diffbot — это поисковая система для бизнеса. Когда люди ищут что-то в Diffbot, система выдает структурированный набор данных;
  • Google зарабатывает на продаже таргетированной рекламы, основанной на результатах поисковых запросов. Diffbot зарабатывает на продаже доступа к данным.

Перевод Полины Шеноевой

 

Источник: https://www.forbes.ru/tehnologii/376067-vsevidyashchee-oko-kak-startap-diffbot-sobral-v-seti-trillion-faktov-i-oboshel

Похожие

Последние новости

В Москве создадут систему учета строительного мусора

10 часов назад
Комментарии (0)

Все стройплощадки Москвы и полигоны для строительных отходов к 2021 году оборудуют «умными» видеокамерами, которые станут частью автоматизированной системы учета…

10 часов назад
Комментарии (0)

Россиян попросили воздержаться от поездок в один из отелей Египта

10 часов назад
Комментарии (0)

Генеральное консульство РФ в Египте попросило российских туроператоров не направлять клиентов в отель Alibaba Beach Resort в Хургаде до окончания…

10 часов назад
Комментарии (0)

В Госдуме прокомментировали идею МВД конфисковывать автомобили у пьяных водителей

10 часов назад
Комментарии (0)

Первый заместитель председателя комитета Госдумы по государственному строительству и законодательству Михаил Емельянов в беседе с Inforeactor прокомментировал инициативу Министерства внутренних…

10 часов назад
Комментарии (0)

Тревожный сигнал Пекину: чем угрожает Китаю отмена американских пошлин для Канады и Мексики

10 часов назад
Комментарии (0)

20 мая США отменили пошлины на импорт стали и алюминия из Канады и Мексики. По словам экспертов, снятие ограничений связано…

10 часов назад
Комментарии (0)
Авторизация
*
*
Регистрация
*
*
*
*
Генерация пароля