Jak wykreślić dane PySpark na histogramie

W PySpark wizualizacja danych odbywa się za pomocą histogramu i innych technik kreślenia. Pomaga to zrozumieć inżynierów Data Science z danymi w reprezentacji graficznej. Ważnym ograniczeniem jest dla nich czas. Dzięki tym wizualizacjom mogą analizować dane szybciej w porównaniu z innymi formatami danych, takimi jak tekst/csv i inne.

W tym przewodniku zobaczymy, jak wykreślić dane PySpark na histogramie. Widzimy tu dwa scenariusze. Histogram tworzony jest na PySpark Pandas DataFrame oraz na danych RDD. Dla tych dwóch scenariuszy PySpark zapewnia dwie funkcje: pyspark.pandas.DataFrame.plot.hist() i pyspark.RDD.histogram.

Temat treści:

Narysuj histogram na ramce danych PySpark Pandas
Narysuj histogram na ramce danych PySpark Pandas z parametrem Bins
Wykreśl histogram na PySpark RDD, określając numer zasobnika
Narysuj histogram na PySpark RDD, określając rozmiar każdego segmentu

Pyspark.pandas.DataFrame.plot.hist()

W tym scenariuszu histogram jest wyświetlany jako podobna do wykresu reprezentacja danych, która łączy zakres klas w kolumny (z ramki danych PySpark Pandas) wraz z poziomą osią x. Oś y reprezentuje liczbę wystąpień w PySpark Pandas DataFrame dla każdej kolumny.

Składnia:

pyspark_pandas_DataFrame.plot.hist(pojemniki,...)

Przyjmuje całkowitą liczbę pojemników jako opcjonalny parametr, który jest liczbą całkowitą, i kilka opcjonalnych argumentów słów kluczowych. Jeśli przedziały nie są określone dla każdej kolumny, tworzony jest słupek.

Narysuj histogram na ramce danych PySpark Pandas

Utwórz ramkę danych PySpark Pandas z 2 kolumnami i 4 rekordami. Wykreśl histogram bez przekazywania żadnego parametru do funkcji plot.hist().

z pyspark importuj pandy

pyspark_pandas_dataframe=pandas.DataFrame({ „Wysokość_budynku” :[ 120,56 , 234,67 , 12.0 , 200,45 ], 'Teren budowy' :[ 2 , 3 , 1 , 4 ]})

print(pyspark_pandas_dataframe)

# Histogram PySpark-Pandas

pyspark_pandas_dataframe.plot.hist()

Wyjście:

Tutaj nazwy kolumn to „Building_height” i „Building_Area”.

Spójrzmy na histogram:

Całkowita liczba wierszy w poprzedniej ramce DataFrame to 4. Tworzone są więc 4 pojemniki.

Narysuj histogram na ramce danych PySpark Pandas z parametrem Bins

Utwórz ramkę danych PySpark Pandas z 2 kolumnami i 4 rekordami. Wykreśl histogram bez przekazywania żadnego parametru do funkcji plot.hist().

z pyspark importuj pandy

pyspark_pandas_dataframe=pandas.DataFrame({ „Wysokość_budynku” :[ 120,56 , 234,67 , 12.0 , 200,45 ], 'Teren budowy' :[ 2 , 3 , 1 , 4 ]})

# Histogram PySpark-Pandas z 2 przedziałami

pyspark_pandas_dataframe.plot.hist(bins= 2 )

Wyjście:

Tutaj nazwy kolumn to „Building_height” i „Building_Area”.

Spójrzmy na histogram – czerwony odnosi się do „Building_Area”, a niebieski do kolumny „Building_height”:

Jak ustaliliśmy, utworzono tylko 2 kosze i 2 słupki. Tutaj cztery rzędy są podzielone na 2 pojemniki.

Wykreśl histogram na PySpark RDD, określając numer zasobnika

Podczas pracy z RDD histogram można zwrócić w postaci krotki zawierającej segmenty i wartości całkowite obecne w każdym segmencie.

Składnia:

pyspark_RDD.histogram(wiaderka)

W tym scenariuszu przekazujemy liczbę zasobników (liczba całkowita) uwzględnionych w histogramie. Zwraca krotkę list zawierającą zakresy zasobników i odpowiadające im wystąpienia wartości w następującym formacie: ([zakresy zasobników…], [wystąpienia wartości…]).

Przykład 1:

Stwórzmy RDD o nazwie „Building_height” z 10 wartościami i utwórzmy histogram z 3 segmentami.

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „Linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określanie 3 zasobników

wysokość_budynku.histogram( 3 )

Wyjście:

Zasobnik-1 mieści się w zakresie od 12,0 do 86,223 : W tym zakresie łączna liczba wartości znajdujących się w zasobniku wynosi 5.
Zasobnik-2 mieści się w zakresie od 86,223 do 160,446 : W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 3.
Zasobnik-3 mieści się w zakresie od 160,446 do 234,67 : W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 2.

Przykład 2:

Utwórz histogram z 2 segmentami na wcześniej utworzonym RDD.

Wyjście:

Zasobnik 1 mieści się w zakresie od 12,0 do 123,335. W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 8.
Zasobnik 2 mieści się w zakresie od 123,335 do 234,67: w tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 2.

Narysuj histogram na PySpark RDD, określając rozmiar każdego segmentu

W poprzednim scenariuszu przekazywaliśmy zasobniki do funkcji RDD.histogram(). Teraz przekazujemy rozmiary zasobników jeden po drugim na liście i przekazujemy tę listę jako parametr do tej funkcji. Upewnij się, że musimy określić co najmniej dwa segmenty w porządku rosnącym/rosnącym i nie będą miały zduplikowanych wartości.

Składnia:

pyspark_RDD.histogram([zakresy segmentów…])

W tym scenariuszu przekazujemy liczbę segmentów (liczba całkowita), które są zawarte w histogramie. Zwraca krotkę list zawierającą zakresy zasobników i odpowiadające im wystąpienia wartości w następującym formacie: ([zakresy zasobników…], [wystąpienia wartości…]).

Przykład 1:

Utwórzmy RDD o nazwie „Building_height” z 10 wartościami i utwórzmy histogram z zakresem wartości Bucker [0, 50, 100, 150, 200, 250].

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „Linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określenie łyżki o rozmiarze - [0,50,100,150,200,250]

wysokość_budynku.histogram([ 0 , pięćdziesiąt , 100 , 150 , 200 , 250 ])

Wyjście:

Zasobnik 1: (od 0 do 50): Łączne wartości w tym zasobniku to 3.
Zasobnik 1: (50 do 100): Łączne wartości w tym zasobniku to 2.
Zasobnik 1: (100 do 150): Łączne wartości w tym zasobniku wynoszą 2.
Zasobnik 1: (150 do 200): Łączne wartości w tym zasobniku wynoszą 2.
Zasobnik 1: (200 do 250): Łączne wartości w tym zasobniku wynoszą 2.

Przykład 2:

Utwórz histogram z przedziałem wartości [0, 100, 200, 300].

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określanie kubełka o rozmiarze - [0,100,200,300]

wysokość_budynku.histogram([ 0 , 100 , 200 , 300 ])

Wyjście:

Wiadro 1: (od 0 do 100). Łączna wartość w tym wiadrze wynosi 5.
Wiadro 2: (100 do 200). Łączna wartość w tym wiadrze wynosi 3.
Wiadro 3: (200 do 300). Łączna wartość w tym wiadrze wynosi 2.

Wniosek

Widzieliśmy, jak tworzyć histogramy w PySpark na PySpark Pandas DataFrame i RDD. histogram() to funkcja używana do uzyskania histogramu danych RDD. Funkcja plot.hist() służy do wyświetlania histogramu w ramce danych PySpark Pandas DataFrame. Omówiliśmy te funkcje z przykładami, omawiając wszystkie parametry.

Jak wykreślić dane PySpark na histogramie

Pyspark.pandas.DataFrame.plot.hist()

Narysuj histogram na ramce danych PySpark Pandas

Narysuj histogram na ramce danych PySpark Pandas z parametrem Bins

Wykreśl histogram na PySpark RDD, określając numer zasobnika

Przykład 1:

Przykład 2:

Narysuj histogram na PySpark RDD, określając rozmiar każdego segmentu

Przykład 1:

Przykład 2:

Wniosek

Kategoria

Popularne Wiadomości

Powody, dla których wentylator MacBooka jest tak głośny i jak to naprawić

Jak zainstalować Go na Debianie 11

BotGhost – darmowy twórca botów Discord

Jak naprawić problem braku sygnału HDMI w systemie Windows 10

Jak stworzyć strzały powolności w Minecrafcie

Czy przycinanie woluminów Dockera jest bezpieczne?

Zdalne sterowanie Raspberry Pi przez PiAssistant

Jak zastosować grubość dekoracji tekstu z punktami przerwania wiatru tylnego i zapytaniami o media

Wprowadzenie do Toad dla Oracle dla programistów

Zainstaluj Notepadqq na Linux Mint za pomocą Snap Store

Jak zainstalować nagłówki jądra systemu Linux w Debianie 12

Ansible Ssh-Copy-Id

Polecenie różnic w Linuksie

Jak zainstalować narzędzie do monitorowania systemu Conky na Raspberry Pi?

Jak zmienić obraz tła w JavaScript

Jak obsługiwać zdarzenia zmiany treści, które można edytować w JavaScript

Jak zainstalować Strimio na Linux Mint 21

Jak pobrać i ponownie zainstalować aplikację Zdjęcia Microsoft w systemie Windows 10

Jak włączyć wirtualizację zagnieżdżoną na maszynach wirtualnych Proxmox VE 8 (VM)

Co to jest surowy dorsz w Minecraft i jak go zdobyć