Yo'naltirilgan asiklik grafiklar (DAG)
A
B
S
C
E
D
F
DAGlar bog'liqliklarni kuzatib boradi (shuningdek, Lineage sifatida ham tanilgan )
A.1
A[1,2]
A.2
Tor
Keng
Xarita
groupByKey
Vs.
Harakatlar Spark ish jarayoni
tekis xarita
Xarita
groupbyKey
Spark konteksti
Haydovchi dasturi
Yig'ish
Python RDD API misollari - So'zlar soni
text_file = sc.textFile ( " hdfs : //usr/godil/text/book.txt " ) _ _ hisoblar = text_file.flatMap (lambda liniyasi: line.split (" ")) \ .map(lambda so'zi: (so'z, 1)) \ . reduceByKey (lambda a, b: a+b) counts.saveAsTextFile ( " hdfs : //usr/godil/output/wordCount.txt " ) _ _ - Logistik regressiya
# Ushbu DataFrame ning har bir yozuvi yorlig'ini o'z ichiga oladi # xususiyat vektor bilan ifodalanadi. df = sqlContext.createDataFrame (ma'lumotlar, ["yorliq", "xususiyatlar"]) # Algoritm uchun parametrlarni o'rnating. # Bu erda biz takrorlash sonini 10 tagacha cheklaymiz. lr = LogisticRegression ( maxIter =10) # Modelni ma'lumotlarga moslang. model = lr.fit ( df ) # Ma'lumotlar to'plamini hisobga olgan holda, har bir nuqtaning yorlig'ini taxmin qiling va natijalarni ko'rsating. model.transform ( df ).show()
http://spark.apache.org/ dan misollar
- RDD barqarorligi
- RDD.persist ()
- saqlash darajasi:
- MORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, DISK_ONLY,…….
- RDDni olib tashlash
Do'stlaringiz bilan baham: |