Информационные системы - статьи

       

Потоки данных в WWW


На протяжении нескольких десятилетий при анализе моделей, возникающих в теории вычислительных систем, исследователи привыкли считать входные потоки пуассоновскими, а распределения длин заявок кспоненциальными. Такие предположения позволяют строить марковский процесс и получать аналитические результаты, которые носят если и не предсказательный, то хотя бы объясняющий характер. Разумеется, когда в первой половине 90-х годов специалисты занялись моделированием столь сложной структуры, как Всемирная паутина, не мог не возникнуть вопрос, насколько эти предположения близки к реальности. Основополагающей явилась работа [9], авторы которой показали, что потоки в Web описываются не пуассоновскими, а иными законами распределения тяжелым хвостомeavy-tailed) или степенными.

Такие распределения описываются зависимостью Pr(X>x)~x-a, 0<a<2, Pr(X>x) ероятность превышения случайной величиной аданного числа Для подобного распределения характерно бесконечное значение дисперсии, а при a<1 бесконечное математическое ожидание. Кроме того, оказывается, что большая часть загрузки приходится на очень малую часть (<1%) линныхнтервалов.

Типичными примерами распределения с яжелым хвостомвляются распределения Парето и Вейбулла. Приведем оценки параметра a для некоторых характеристик, подчиняющихся распределению Парето (меньшее значение параметра соответствует большей выраженности свойств случайной величины):

  • размеры файлов, передаваемых по протоколу HTTP: 1,1<a<1,3;
  • размеры файлов, передаваемых по протоколу FTP: 0,9<a<1,1.

    Авторы работы [5] собрали статистику по множеству запрашиваемых файлов (могут запрашиваться многократно), множеству передаваемых с сервера файлов (не обнаруженные в кэше и повторные файлы), множеству уникальных файлов. На ее основании был сделан вывод, что размеры файлов в каждом из множеств хорошо описываются распределением Парето. Более полная классификация статистических данных приведена в [2], где введено понятие инвариантов, т.е. характеристик, отражающих особенности некоторой целостной совокупности данных в Web:


  • доля успешных обращений составляет 88%, остальное - отсутствие документа на сервере или прав доступа к нему;
  • HTML-файлы и графические файлы составляют от 90% до 100%;
  • средний размер передачи - 21 Кбайт;
  • список файлов без повторов - менее 3% от общего числа передаваемых файлов;
  • распределение размера файла - Парето, 0,4<a<0,63;
  • концентрация ссылок - на 10% файлов приходится до 90% запросов, которые составляют 90% трафика;
  • география - обращения из 10% от общего числа доменов составляют свыше 75% всех обращений.

    Неравномерность распределения показателей загрузки можно почерпнуть и из собственного опыта. Например, за июнь 2002 года с официального Web-сервера администрации Сургута было осуществлено 73740 запросов страниц; если их упорядочить по убыванию числа посещений, то получится список без повторов из 6616 HTML-файлов, причем 36194 запросов приходится на первые 61 файл. Таким образом, в этом случае менее чем на 1% файлов приходится свыше 50% запросов.

    Так называемое ремя обдумыванияhinking time) ромежуток между получением ответа и новым запросом акже распределено по закону Парето. Это же распределение применимо к количеству гипертекстовых ссылок, ведущих на данную страницу (inbound) и со страницы (outbound).


    Содержание раздела