Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis


Yo'naltirilgan asiklik grafiklar (DAG)


Download 1.05 Mb.
bet8/11
Sana13.03.2023
Hajmi1.05 Mb.
#1265753
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
PRESENTATION FOR HOOK JASUR

Yo'naltirilgan asiklik grafiklar (DAG)


A
B
S
C
E
D
F
DAGlar bog'liqliklarni kuzatib boradi (shuningdek, Lineage sifatida ham tanilgan )

Tor Vs. keng konvertatsiya


A.1
A[1,2]
A.2
Tor
Keng
Xarita
groupByKey
Vs.

Harakatlar

Spark ish jarayoni


tekis xarita
Xarita
groupbyKey
Spark konteksti
Haydovchi dasturi
Yig'ish

Python RDD API misollari

  • So'zlar soni
  • text_file = sc.textFile ( " hdfs : //usr/godil/text/book.txt " ) _ _

    hisoblar = text_file.flatMap (lambda liniyasi: line.split (" ")) \

    .map(lambda so'zi: (so'z, 1)) \

    . reduceByKey (lambda a, b: a+b)

    counts.saveAsTextFile ( " hdfs : //usr/godil/output/wordCount.txt " ) _ _

  • Logistik regressiya
  • # Ushbu DataFrame ning har bir yozuvi yorlig'ini o'z ichiga oladi

    # xususiyat vektor bilan ifodalanadi.

    df = sqlContext.createDataFrame (ma'lumotlar, ["yorliq", "xususiyatlar"])

    # Algoritm uchun parametrlarni o'rnating.

    # Bu erda biz takrorlash sonini 10 tagacha cheklaymiz.

    lr = LogisticRegression ( maxIter =10)

    # Modelni ma'lumotlarga moslang.

    model = lr.fit ( df )

    # Ma'lumotlar to'plamini hisobga olgan holda, har bir nuqtaning yorlig'ini taxmin qiling va natijalarni ko'rsating.

    model.transform ( df ).show()


http://spark.apache.org/ dan misollar

RDD barqarorligi va olib tashlanishi

  • RDD barqarorligi
    • RDD.persist ()
    • saqlash darajasi:
      • MORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, DISK_ONLY,…….
  • RDDni olib tashlash
    • RDD.unpersist ()

Download 1.05 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling