Spark select sütunu eski veri çerçevesinin referansını döndürür

0

Soru

Aşağıdaki kodu kullanıyorum:

random = [("ABC",xx, 1), 
          ("DEF",yy,1), 
          ("GHI",zz, 0) 
         ]
randomColumns = ["name","id", "male"]
randomDF = spark.createDataFrame(data=random, schema = randomColumns)
test_df = randomDF.select("name", "id")
test_df.filter(f.col("male") == '1').show()

Yukarıdaki koddan bir hatayla sonuçlanmasını bekliyorum çünkü test_df için orijinal veri çerçevesinden erkek sütunu seçmiyorum. Şaşırtıcı bir şekilde, yukarıdaki sorgu herhangi bir hata olmadan gayet iyi çalışıyor ve aşağıdakileri veriyor:

+---------+-------+
|name     |     id|
+---------+-------+
|      abc|     xx|
|      def|     yy|
+---------+-------+

Spark'ın yaptıklarının ardındaki mantığı anlamak istiyorum. Kıvılcım belgelerine göre Select yeni bir veri çerçevesi döndürür. Öyleyse neden hala üst veri çerçevesinden erkek sütununu kullanabiliyor.

2

En iyi cevabı

3

Buna Kıvılcım tarafından üretilen DAG neden olur. Bazı operatörler (veya transformers) tembelce yürütülür, bu nedenle Spark'ın dag'yi optimize etmesinin önünü açarlar.

Bu örnekte, iki ana adım vardır: select (veya project sql'in jargonunda) önce ve filter sonra. Ama aslında, yürütürken, filter önce ve sonra select çünkü daha verimli.

Bu sonucu şu şekilde doğrulayabilirsiniz explain() yöntem:

test_df.filter(f.col("flag") == '1').explain()

Bu çıkış olacak:

== Physical Plan ==
*(1) Project [dept_name#0, dept_id#1L]
+- *(1) Filter (isnotnull(flag#2L) AND (flag#2L = 1))
   +- *(1) Scan ExistingRDD[dept_name#0,dept_id#1L,flag#2L]
2021-11-24 01:29:03
1

@ chenzhongpu 'nun cevabına ek olarak, üstünüzde bir geçici görünüm tanımlarsanız lütfen unutmayın. test_df sorgu başarısız olur:

test_df.createOrReplaceTempView("test_df")
spark.sql("select * from test_df where flag = 1").show()
_Traceback (most recent call last): ...
:
pyspark.sql.utils.AnalysisException: u"cannot resolve '`flag`' given input columns: [test_df.dept, test_df.id]; line 1 pos 24;
'Project [*]
 +- 'Filter ('flag = 1)
   +- SubqueryAlias `test_df`
      +- Project [dept#0, id#2L]
         +- LogicalRDD [dept#0, flag#1L, id#2L], false
 _

...çünkü bir select (=Project yürütme planındaki düğüm) filtreden önce gelecektir (denendi where yan).

2021-11-24 14:25:52

Diğer dillerde

Bu sayfa diğer dillerde

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................