Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur


Download 24.83 Kb.
bet9/12
Sana25.03.2023
Hajmi24.83 Kb.
#1295551
1   ...   4   5   6   7   8   9   10   11   12
Bog'liq
Apache Hadoop and Spark Introduction and Use Cases for Data Ana-fayllar.org

Python RDD API misollari


  • So'zlar soni

    text_file = sc.textFile ( " hdfs : //usr/godil/text/book.txt " ) _ _

    hisoblar = text_file.flatMap (lambda liniyasi: line.split (" ")) \

    .map(lambda so'zi: (so'z, 1)) \

    . reduceByKey (lambda a, b: a+b)

    counts.saveAsTextFile ( " hdfs : //usr/godil/output/wordCount.txt " ) _ _


  • Logistik regressiya

    # Ushbu DataFrame ning har bir yozuvi yorlig'ini o'z ichiga oladi

    # xususiyat vektor bilan ifodalanadi.

    df = sqlContext.createDataFrame (ma'lumotlar, ["yorliq", "xususiyatlar"])

    # Algoritm uchun parametrlarni o'rnating.

    # Bu erda biz takrorlash sonini 10 tagacha cheklaymiz.

    lr = LogisticRegression ( maxIter =10)

    # Modelni ma'lumotlarga moslang.

    model = lr.fit ( df )

    # Ma'lumotlar to'plamini hisobga olgan holda, har bir nuqtaning yorlig'ini taxmin qiling va natijalarni ko'rsating.

    model.transform ( df ).show()

    http://spark.apache.org/ dan misollar


      RDD barqarorligi va olib tashlanishi


    • RDD barqarorligi

      • RDD.persist ()

      • saqlash darajasi:

        • MORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, DISK_ONLY,…….

    • RDDni olib tashlash

      • RDD.unpersist ()

      Eshittirish o'zgaruvchilari va akkumulyatorlari (Birgalikda o'zgaruvchilar)


    • Eshittirish o'zgaruvchilari dasturchiga uning nusxasini topshiriqlar bilan yuborish o'rniga, har bir tugunda faqat o'qish uchun mo'ljallangan o'zgaruvchini keshda saqlashga imkon beradi.

      >broadcastV1 = sc.broadcast ([1, 2, 3,4,5,6])

      >broadcastV1.value

      [1,2,3,4,5,6]


    • Akkumulyatorlar faqat assotsiativ operatsiya orqali "qo'shiladigan" va parallel ravishda samarali qo'llab-quvvatlanishi mumkin bo'lgan o'zgaruvchilardir.

      to'plash = sc.akkumulyator (0)


      Download 24.83 Kb.

      Do'stlaringiz bilan baham:
  • 1   ...   4   5   6   7   8   9   10   11   12




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling