+7 495 215-08-03

Новости

Google Flu Trends.

Этот it сервис считается прекрасным примером эффективной работы «больших данных». Он способен быстрее врачей выявить эпидемию гриппа, так как он анализирует запросы в Гугле. Однако недавно в одном из авторитетных научных журналов появилась статья, которая ставит под сомнение этот подход. Специалисты компании еще 10 лет назад заметили, что перед вспышкой эпидемии гриппа резко увеличивается число запросов, которые связаны со здоровьем. Они проанализировали 5000000 наиболее  популярных  запросов и сравнили их с данными об эпидемиях в первые годы 21 века, 45 запросов становились намного более популярными перед эпидемией. Этот всплеск начинается за 3 недели до объявления врачами об эпидемии, иногда этот промежуток увеличивается, к примеру, в сети признаки начала эпидемии атипичной пневмонии начали проявляться  за 2 месяца, до того как она была замечена ВОЗ.

Сервис работает очень просто, многие заболевшие люди или те кто боится заболеть начинают искать в сети  информацию о гриппе. Число таких запросов всегда увеличивается во время эпидемий. Сервис реагирует на это, и, используя специальную статистическую модель  выявляет примерное общее число больных. В 2009 году разработчики поделились с журналом Nature своими данными. Другие исследователи также заявили, что увеличение популярности некоторых запросов совпадает со вспышкой эпидемий.

Однако в появившейся в Science статье показаны серьезные ошибки в прогнозах сервиса, оказалось, что он примерно на половину преувеличивает размах эпидемии в последние 2 года, в 2009 году он полностью прозевал появление свиного гриппа. Эти данные стали доводом против использования в данном случае «больших данных». Исследователи назвали статистическую модель Гугла провальной.

На самом деле, этот вывод не является настолько неожиданным. Просчеты сервиса отмечены на его же сайте, их никто не скрывает, разработчики дают возможность скачать с сайта все прогнозы, которые когда – либо были сделаны сервисом, в том числе и ошибочные, саму модель все время дорабатывают, чтобы в будущем было меньше ошибок. Она ежегодно сопоставляется с данными обычных систем наблюдения за эпидемиями, оценивается 3 различных показателя, на основании которых постоянно дорабатывается. Фактически, данная публикация стала неожиданностью лишь для считающих, что оценки сервиса абсолютно точны, его разработчики не относятся к числу таких оптимистов, они понимают, что даже самые математически выверенные в прошлом результаты не гарантируют абсолютной точности в будущем. В любых прогнозах возможны ошибки, а задача их авторов максимально сократить их число. Для того чтобы точнее прогнозировать эпидемию, нужно учитывать больше данных, так что можно сказать, что ожидаемая сенсация не состоялась.
Вернуться к списку новостей →