Dosyaları klasörden yinele ve scala'da işlet

Question 1

Farklı ülkeler için bir klasörde birkaç dosyam var. aşağıdaki gibi

Casedata_GBR_202110_tımestamp.csv dosyası

Casedata_ARG_202110_tımestamp.csv dosyası

şimdi bu dosyaları ülke bazında işlemek ve ilgili klasörlere kopyalamak zorundayım. hedef klasör yapımım şöyle olacak

2021 -- > 11 -- > > GBR

2021 -- > 11 -- >>ARG

Spark scala'da / scala, dosyayı ülkeye göre işlemek ve ilgili ülke klasörüne taşımak için kod yazmama yardımcı olur.

Question 2

Gibi aradığınız geliyor partitionBy üzerinde tanımlı DataFrameWriter. Scaladoc'tan:

def partitionBy(colNames: String*): DataFrameWriter[T]

Çıktıyı dosya sistemindeki verilen sütunlara göre bölümlere ayırır. Belirtilmişse, çıktı, Hive'ın bölümleme şemasına benzer şekilde dosya sistemine yerleştirilir. Örnek olarak, bir veri kümesini yıl ve sonra aya göre bölümlere ayırdığımızda dizin düzeni şöyle görünür: :

year=2016/month=01/
year=2016/month=02/

Bölümleme, fiziksel veri düzenini optimize etmek için en yaygın kullanılan tekniklerden biridir. Sorguların bölümlenmiş sütunlarda yüklemleri olduğunda gereksiz veri okumalarını atlamak için kaba taneli bir dizin sağlar. Bölümlemenin iyi çalışması için, her sütundaki farklı değerlerin sayısı genellikle on binden az olmalıdır.

Bu, Spark 2.1.0 ile başlayan tüm dosya tabanlı veri kaynakları (örn.Parke, JSON) için geçerlidir.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Gibi aradığınız geliyor partitionBy üzerinde tanımlı DataFrameWriter. Scaladoc'tan:

def partitionBy(colNames: String*): DataFrameWriter[T]

Çıktıyı dosya sistemindeki verilen sütunlara göre bölümlere ayırır. Belirtilmişse, çıktı, Hive'ın bölümleme şemasına benzer şekilde dosya sistemine yerleştirilir. Örnek olarak, bir veri kümesini yıl ve sonra aya göre bölümlere ayırdığımızda dizin düzeni şöyle görünür: :

year=2016/month=01/
year=2016/month=02/

Bölümleme, fiziksel veri düzenini optimize etmek için en yaygın kullanılan tekniklerden biridir. Sorguların bölümlenmiş sütunlarda yüklemleri olduğunda gereksiz veri okumalarını atlamak için kaba taneli bir dizin sağlar. Bölümlemenin iyi çalışması için, her sütundaki farklı değerlerin sayısı genellikle on binden az olmalıdır.

Bu, Spark 2.1.0 ile başlayan tüm dosya tabanlı veri kaynakları (örn.Parke, JSON) için geçerlidir.

yine de 2016/01 gibi bir şey var mı ve foreach tek tek dosyayı yinelemeye yardımcı olacak mı
tek tek dosyayı dataframe'e işlemek ve blob'a kopyalamak zorundayım

Dosyaları klasörden yinele ve scala'da işlet

Soru

En iyi cevabı

Diğer dillerde

Bu sayfa diğer dillerde

Bu kategoride popüler

Popüler soruları bu kategoride