Стриминговые алгоритмы

Слайд 1

В - ых годах, на волне развития инфраструктуры и увеличения объемов обрабатываемых данных встала проблема анализа потока данных. Поток содержит в себе так много данных, что его не возможно сохранить в памяти компьютера, и поэтому для потоковых алгоритмов выработался неформальный прицнип - уложиться в пропорциональую логарифму от числа входных данных память

На сегодняшний день такие алгоритмы используются при анализе данных постоянно включенных систем (например роутер, веб-сервер и тд), составлении планов запросов к базе данных, подсчета статистик при подготовке текстовых данных в машинном обучении и тд

Слайд 2

Скетч(дословно набросок) - алгоритм вычисляющий некоторую статистику при помощи оценки данных, а не самих данных.

Для того что бы получать контроллируемую погрешность в этой оценке, нам необходимо формализовать подход к определению того, чего мы ожидаем от алгоритма.

Предлагается использовать - модель. В которой отмечает относительную границу точности (те, насколько далеко мы можем отступить от ответа что бы ответ нас все еще устраивал) а - максимальная вероятность ошибиться(те все таки выйти за интервал )

Count-min sketch

https://warwick.ac.uk/news/knowledge-centre-archive/science/computer-science/grahamcormode/graham_cormode_profile_pic.jpg

Для второго создателя не знаю какое фото лучше)

https://www.google.com/search?q=S.+Muthu+Muthukrishnan&sca_esv=d50a49532b9b8e2e&udm=2&biw=1920&bih=919&aic=0&ei=rOtjaYyOK-eJ9u8PzP_0MQ&ved=0ahUKEwiMlPDWjoSSAxXnhP0HHcw_PQYQ4dUDCBI&uact=5&oq=S.+Muthu+Muthukrishnan&gs_lp=Egtnd3Mtd2l6LWltZyIWUy4gTXV0aHUgTXV0aHVrcmlzaG5hbjIEEAAYHkijBVCVBFiVBHABeACQAQCYAWigAWiqAQMwLjG4AQPIAQD4AQGYAgKgAm6YAwCIBgGSBwMxLjGgByyyBwMwLjG4B2rCBwMxLjHIBwKACAE&sclient=gws-wiz-img

Идея моментов и гарантии независимости

Слайд 1

Ранее мы определяли универсальное семейство хэш-функций(recall)

Однако для гарантирования корректности следующих алгоритмов нам потербуется более сильный вариант этого свойства, называемый -независимостью.

Пусть - семейство хэш-функций. Такое семейство называется - независимым если для любого набора различных объектов и любого набора значений должно быть выполнено:

для любой функции из семейства.

Слайд 2

Это эквивалентно обладанию - умя свойствами для семейства :

Для фиксированного хэшируемого объекта значения хэш-функций равномерно распределены над
Для различных объектов , для любой хэш-функции значения являются независимыми случайными величинами

Второе свойство является принципиально важным для многих алгоритмов при анализе смещения оценки

Слайд 3

Если для универсального семейства мы рассматривали линейные функции над конечным полем, то теперь рассмотрим полиномы

Выберем некоторое простое число
Сгенерируем равномерно случайные коэффиценты многочлена из диапазона
В качестве функции вернем

Интуитивно понятно почему этот алгоритм верен:

Согласно теореме Лагранжа чере точек можно провести только многочлен степени Но в формулировке - независимости мы буквально требуем что бы хэш-функция "проходила" через точек .

А вероятность правильно выбрать все такие пары точек для фиксированной функции равна , так как каждый коэффицент выбирался с одинаковой вероятностью

Слайд 4

Так как далее мы будем решать задачи связанные с оценками частотности, то давайте зафиксируем, что мы работаем с векторами из которые отображают частоту появления до сих пор(на момент ) некоторого объекта из множества.

- ым моментом частоты называют:

При этом определяются специальных момента: и

- равен числу ненулевых компонентов вектора (число уникальных значений в потоке)

- равен частоте самого часто встречающегося элемента в потоке

"Tug-of-war" AMS sketch (F2 estimator)

Слайд 1

https://cdn.ruwiki.ru/commonswiki/files/thumb/f/f7/Noga_Alon_%2822-03-2008%29.jpg/1200px-Noga_Alon_%2822-03-2008%29.jpg

https://ynet-pic1.yit.co.il/picserver5/crop_images/2023/09/13/rJzjxBuyJp/rJzjxBuyJp_0_0_1300_867_0_x-large.jpg

https://www.alibabanews.com/wp-content/uploads/sites/default/files/inline-images/suzhou1.jpeg

Авторы с этим алгоритмом получили премию Гёделя в году за его широкий спектр применимости и простоту и элегантность

Слайд 2

Задача состоит в том, что бы найти приблизительную оценкую момента. Этот момент можно интерпретировать как показатель разброса данных относительно средней частоты, и используется при анализе сложности join запросов в базу данных, источников DDOS атак, а так же имеет приложение в машинном обучении, так как оценка при помощи этого алгоритма оказывается создает случайную проекцию исходных данных в пространство меньшей размерности, при этом сохраняя ее внутреннюю структуру

Слайд 3

Пусть у нас имеется семейство хэш-функций . Выберем оттуда случайную хэш-функцию функцию
Пока поступают данные будем поддерживать счетчик :
- Запрос добавление элемента :
- Запрос удаления элемента :
- Узнать текущую оценку: вернуть

Слайд 4

Нам нужно показать что этот скетч возвращает несмещенную оценку момента . Оценка называется несмещенной если ее матожидаение равно истинному параметру, те:

В любой момент времени алгоритма выражается как:

Так как семейство - независимое, то:

-потому что

Но , тогда

Слайд 5

Что бы получить - оценку точности нам нужно будет применить неравенство Чебышева. Для этого нужно оценить дисперсию оценки:

Опять воспользовавшись - независимостью получим

Слайд 6

Очевидно что такое ожидание будет ненулевым только если - четные, а значит выживут лишь суммы:

Слайд 7

Исходя из ограничения на дисперсию оценки, которое мы получили на предыдущем шаге - само по себе оно может быть достаточно большим. Довольно распространненая техника уменьшения разброса оценки состоит в том что бы сделать несколько независимых счетчиков(те случайным образом равномерно сгенерировать хэш-функций из семейства ), после чего усреднить их результат, ведь:

Теперь мы можем записать неравенство Чебышёва для средней оценки:

Те что бы получить точность ответа не хуже с вероятностью не менее нужно независимо повторить алгоритм раз

Слайд 8

Тем самым мы можем достичь приемлемой точности, храня всего лишь набор счетчиков счетчик, а не сам вектор частот из чего финальная оценка по памяти равна

Выше представленная техника часто используется что бы уменьшить разброс при фиксированном смещении. Однако как можно заметить из формулы для у нее есть недостаток - точность решения при фиксированной вероятности неправильно ответить растет как что довольно медленно.

Для того что бы побороть этот недостаток и получить зависимость порядка используется техника Median of means.

Flajolet-Martin sketch (F0 estimator)

https://en.wikipedia.org/wiki/Philippe_Flajolet#/media/File:PhilippeFlajolet.jpg

У второго нет подтвержденных фотографий

Слайд 1

Другой важной метрикой является число уникальных элементов в последовательности. Наивный алгоритм при помощи сортировки подсчетом или множества имеет рост памяти пропорциональный росту числа объектов в пространстве те . Но в году авторы предложили более эффективный алгоритм

При рассмотрении алгоритмов для решения этой задачи ограничимся формулировкой, в которой в потоке происходят только операции добавления элементов.

Слайд 2

Идея состоит в том, что если у вас есть какое-то маловероятное событие, то что бы получить этот исход на практике, вам потребуется провести очень много экспериментов.

Например пусть вы подбрасываете монетку и хотите получить ровно орлов подряд. Вероятность этого события .

Будем проводить эксперименты по подбрасыванию монетки пока нам не выпадет решка, и считать сколько до этого было орлов. Теперь можно обозначить в качестве успешного эксперимента тот, в котором этот исход реализовался - выпало орлов подряд, а не успешного тот в котором реализовался другой исход.

Мы получим исходы которые описываются геометрическим распределением, а всего в среднем нам придется провести: экспериментов.

Слайд 3

Нетрудно заметить, что эксперимент с монеткой легко перенести на реальные данные. Пусть у нас есть универсальное семейство хэш-функций которое содержит в себе хэш-функции . Тогда поступающие объекты можно просто кодировать как бинарные строки.

Алгоритм состоит из следующих шагов:

Для нового добавленного объекта получить хэш
Найти первую единицу в бинарном представлении числа справа. Обозначим эту функцию за . Например: а
Сравнить с который был посчитан по предыдущим элементам
Если нужно предъявить ответ, то вывести , где

Слайд 4

Интуиция доказательства строится похожим образом с экспериментом с монеткой(вообще говоря это и есть он). Так как хэш-функция получена из универсального семейства, то вероятность поставить каждый бит на своем месте равна , а значит

Стриминговые алгоритмы

Слайд 1

Слайд 2

Count-min sketch

Идея моментов и гарантии независимости

Слайд 1

Слайд 2

Слайд 3

Слайд 4

"Tug-of-war" AMS sketch (F2 estimator)

Слайд 1

Слайд 2

Слайд 3

Слайд 4

Слайд 5

Слайд 6

Слайд 7

Слайд 8

Flajolet-Martin sketch (F0 estimator)

Слайд 1

Слайд 2

Слайд 3

Слайд 4

KMV sketch (F0 estimator)

LogLog algorithm

HyperLogLog algorithm