Введение в алгоритм больших данных


Download 156.6 Kb.
bet1/6
Sana30.04.2023
Hajmi156.6 Kb.
#1406915
TuriРеферат
  1   2   3   4   5   6
Bog'liq
3.3.


Введение в алгоритм больших данных
Сегодня мы открываем новый pit-алгоритм больших данных.
PS: Это первый раз, когда я использую MD для написания официальной статьи в блоге, инструменты, написанные с самого начала, от ручки для рукописного ввода IPAD до клавиатуры iPad +, наконец, переходят на правильный путь . . .
Содержание
Каталог статей

  • Введение в алгоритм больших данных


    • Содержание

    • Введение:

    • Во-первых, фильтр Buron


      • 1.1 концепция

      • 1.2 вставка

      • 1.3 поиск

      • 1.4 Анализ производительности веревочного фильтра

    • Вторая, битовая карта


      • 2.1 концепция

      • 2.2 Вставить

      • 2.3 удаление

      • Приложение для создания 2,4-битной КАРТЫ

    • В-третьих, куча и сортировка кучи


      • 3.1 концепция

      • 3.2 Введение в алгоритм стекирования

      • 3.3 Алгоритм укладки очереди приоритетов при обработке больших данных

Введение:
Мы изучили базовую структуру данных и алгоритм раньше, но эти алгоритмы все еще ограничены в реальном производстве, особенно когда объем данных, которые необходимо обработать, классический алгоритм часто ограничен временем, пространством и гаванью no. Поэтому необходимо постепенно учиться обрабатывать массовые данные. В этой статье описываются следующие распространенные алгоритмы обработки больших данных, основанные на классическом алгоритме:

Прежде чем вы укажете вышеупомянутые алгоритмы, давайте подумаем над несколькими общими вопросами:

  • Вопрос 1: Существующий IP-адрес пользователя - получите доступ к массивным данным журнала веб-сайта, чтобы найти IP-адрес, соответствующий количеству обращений к целевому веб-сайту (например, Baidu) в журнале. (Глобальный IPv4-адрес в общей сложности 2 ^ 32 = 4G, означает, что алгоритм должен поддерживать такой большой объем данных! Кроме того, объем памяти не может превышать 1G)

  • Вопрос 2. Поисковая система записывает огромный массив строк за последнее время через файлы журнала через файл журнала и теперь находит строку запроса 10 "Heat" за это время. (Предположим, что в журнале содержится 1000 записей, каждая строка запроса имеет размер до 255 Б, а объем памяти, занимаемый программой, не превышает 1 Г)

  • Вопрос 3. Существуют два файла A, B, в которых хранятся 5 миллиардов URL-адресов. Каждый URL-адрес занимает 64 байта, а лимит памяти равен 4G, и необходимо найти URL-адреса файлов A и B. Если это три или даже N файлов?

  • Вопрос 4. Действительно известны некоторые телефонные номера, каждый номер состоит из 8 цифр и подсчитывает количество разных номеров.

Если вы знакомы только с классической структурой данных и алгоритмом, то вышеуказанные вопросы могут показаться сложными. Затем в этой статье рассматриваются четыре вышеупомянутых сценария и начинается с введения алгоритмов больших данных.

Download 156.6 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling