Введение в алгоритм больших данных
Download 156.6 Kb.
|
3.3.
- Bu sahifa navigatsiya:
- Содержание Каталог статей
- Фильтр Бурона Битовая карта Сортировка стеков и куч
Введение в алгоритм больших данных Сегодня мы открываем новый pit-алгоритм больших данных. PS: Это первый раз, когда я использую MD для написания официальной статьи в блоге, инструменты, написанные с самого начала, от ручки для рукописного ввода IPAD до клавиатуры iPad +, наконец, переходят на правильный путь . . . Содержание Каталог статей Введение в алгоритм больших данных Содержание Введение: Во-первых, фильтр Buron 1.1 концепция 1.2 вставка 1.3 поиск 1.4 Анализ производительности веревочного фильтра Вторая, битовая карта 2.1 концепция 2.2 Вставить 2.3 удаление Приложение для создания 2,4-битной КАРТЫ В-третьих, куча и сортировка кучи 3.1 концепция 3.2 Введение в алгоритм стекирования 3.3 Алгоритм укладки очереди приоритетов при обработке больших данных Введение: Мы изучили базовую структуру данных и алгоритм раньше, но эти алгоритмы все еще ограничены в реальном производстве, особенно когда объем данных, которые необходимо обработать, классический алгоритм часто ограничен временем, пространством и гаванью no. Поэтому необходимо постепенно учиться обрабатывать массовые данные. В этой статье описываются следующие распространенные алгоритмы обработки больших данных, основанные на классическом алгоритме: Фильтр Бурона Битовая карта Сортировка стеков и куч Прежде чем вы укажете вышеупомянутые алгоритмы, давайте подумаем над несколькими общими вопросами: Вопрос 1: Существующий IP-адрес пользователя - получите доступ к массивным данным журнала веб-сайта, чтобы найти IP-адрес, соответствующий количеству обращений к целевому веб-сайту (например, Baidu) в журнале. (Глобальный IPv4-адрес в общей сложности 2 ^ 32 = 4G, означает, что алгоритм должен поддерживать такой большой объем данных! Кроме того, объем памяти не может превышать 1G) Вопрос 2. Поисковая система записывает огромный массив строк за последнее время через файлы журнала через файл журнала и теперь находит строку запроса 10 "Heat" за это время. (Предположим, что в журнале содержится 1000 записей, каждая строка запроса имеет размер до 255 Б, а объем памяти, занимаемый программой, не превышает 1 Г) Вопрос 3. Существуют два файла A, B, в которых хранятся 5 миллиардов URL-адресов. Каждый URL-адрес занимает 64 байта, а лимит памяти равен 4G, и необходимо найти URL-адреса файлов A и B. Если это три или даже N файлов? Вопрос 4. Действительно известны некоторые телефонные номера, каждый номер состоит из 8 цифр и подсчитывает количество разных номеров. Если вы знакомы только с классической структурой данных и алгоритмом, то вышеуказанные вопросы могут показаться сложными. Затем в этой статье рассматриваются четыре вышеупомянутых сценария и начинается с введения алгоритмов больших данных. Download 156.6 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling