Spark select sütunu eski veri çerçevesinin referansını döndürür

Question 1

Aşağıdaki kodu kullanıyorum:

random = [("ABC",xx, 1), 
          ("DEF",yy,1), 
          ("GHI",zz, 0) 
         ]
randomColumns = ["name","id", "male"]
randomDF = spark.createDataFrame(data=random, schema = randomColumns)
test_df = randomDF.select("name", "id")
test_df.filter(f.col("male") == '1').show()

Yukarıdaki koddan bir hatayla sonuçlanmasını bekliyorum çünkü test_df için orijinal veri çerçevesinden erkek sütunu seçmiyorum. Şaşırtıcı bir şekilde, yukarıdaki sorgu herhangi bir hata olmadan gayet iyi çalışıyor ve aşağıdakileri veriyor:

+---------+-------+
|name     |     id|
+---------+-------+
|      abc|     xx|
|      def|     yy|
+---------+-------+

Spark'ın yaptıklarının ardındaki mantığı anlamak istiyorum. Kıvılcım belgelerine göre Select yeni bir veri çerçevesi döndürür. Öyleyse neden hala üst veri çerçevesinden erkek sütununu kullanabiliyor.

Question 2

Buna Kıvılcım tarafından üretilen DAG neden olur. Bazı operatörler (veya transformers) tembelce yürütülür, bu nedenle Spark'ın dag'yi optimize etmesinin önünü açarlar.

Bu örnekte, iki ana adım vardır: select (veya project sql'in jargonunda) önce ve filter sonra. Ama aslında, yürütürken, filter önce ve sonra select çünkü daha verimli.

Bu sonucu şu şekilde doğrulayabilirsiniz explain() yöntem:

test_df.filter(f.col("flag") == '1').explain()

Bu çıkış olacak:

== Physical Plan ==
*(1) Project [dept_name#0, dept_id#1L]
+- *(1) Filter (isnotnull(flag#2L) AND (flag#2L = 1))
   +- *(1) Scan ExistingRDD[dept_name#0,dept_id#1L,flag#2L]

Question 3

@ chenzhongpu 'nun cevabına ek olarak, üstünüzde bir geçici görünüm tanımlarsanız lütfen unutmayın. test_df sorgu başarısız olur:

test_df.createOrReplaceTempView("test_df")
spark.sql("select * from test_df where flag = 1").show()
_Traceback (most recent call last): ...
:
pyspark.sql.utils.AnalysisException: u"cannot resolve '`flag`' given input columns: [test_df.dept, test_df.id]; line 1 pos 24;
'Project [*]
 +- 'Filter ('flag = 1)
   +- SubqueryAlias `test_df`
      +- Project [dept#0, id#2L]
         +- LogicalRDD [dept#0, flag#1L, id#2L], false
 _

...çünkü bir select (=Project yürütme planındaki düğüm) filtreden önce gelecektir (denendi where yan).

chenzhongpu · Answer 1 · 2021-11-24T01:29:03

Buna Kıvılcım tarafından üretilen DAG neden olur. Bazı operatörler (veya transformers) tembelce yürütülür, bu nedenle Spark'ın dag'yi optimize etmesinin önünü açarlar.

Bu örnekte, iki ana adım vardır: select (veya project sql'in jargonunda) önce ve filter sonra. Ama aslında, yürütürken, filter önce ve sonra select çünkü daha verimli.

Bu sonucu şu şekilde doğrulayabilirsiniz explain() yöntem:

test_df.filter(f.col("flag") == '1').explain()

Bu çıkış olacak:

== Physical Plan ==
*(1) Project [dept_name#0, dept_id#1L]
+- *(1) Filter (isnotnull(flag#2L) AND (flag#2L = 1))
   +- *(1) Scan ExistingRDD[dept_name#0,dept_id#1L,flag#2L]

mazaneicha · Answer 2 · 2021-11-24T14:25:52

@ chenzhongpu 'nun cevabına ek olarak, üstünüzde bir geçici görünüm tanımlarsanız lütfen unutmayın. test_df sorgu başarısız olur:

test_df.createOrReplaceTempView("test_df")
spark.sql("select * from test_df where flag = 1").show()
_Traceback (most recent call last): ...
:
pyspark.sql.utils.AnalysisException: u"cannot resolve '`flag`' given input columns: [test_df.dept, test_df.id]; line 1 pos 24;
'Project [*]
 +- 'Filter ('flag = 1)
   +- SubqueryAlias `test_df`
      +- Project [dept#0, id#2L]
         +- LogicalRDD [dept#0, flag#1L, id#2L], false
 _

...çünkü bir select (=Project yürütme planındaki düğüm) filtreden önce gelecektir (denendi where yan).

Spark select sütunu eski veri çerçevesinin referansını döndürür

Soru

En iyi cevabı

Diğer dillerde

Bu sayfa diğer dillerde

Bu kategoride popüler

Popüler soruları bu kategoride