Jak wykreślić dane PySpark na histogramie

Jak Wykreslic Dane Pyspark Na Histogramie



W PySpark wizualizacja danych odbywa się za pomocą histogramu i innych technik kreślenia. Pomaga to zrozumieć inżynierów Data Science z danymi w reprezentacji graficznej. Ważnym ograniczeniem jest dla nich czas. Dzięki tym wizualizacjom mogą analizować dane szybciej w porównaniu z innymi formatami danych, takimi jak tekst/csv i inne.

W tym przewodniku zobaczymy, jak wykreślić dane PySpark na histogramie. Widzimy tu dwa scenariusze. Histogram tworzony jest na PySpark Pandas DataFrame oraz na danych RDD. Dla tych dwóch scenariuszy PySpark zapewnia dwie funkcje: pyspark.pandas.DataFrame.plot.hist() i pyspark.RDD.histogram.

Temat treści:







Pyspark.pandas.DataFrame.plot.hist()

W tym scenariuszu histogram jest wyświetlany jako podobna do wykresu reprezentacja danych, która łączy zakres klas w kolumny (z ramki danych PySpark Pandas) wraz z poziomą osią x. Oś y reprezentuje liczbę wystąpień w PySpark Pandas DataFrame dla każdej kolumny.



Składnia:



pyspark_pandas_DataFrame.plot.hist(pojemniki,...)

Przyjmuje całkowitą liczbę pojemników jako opcjonalny parametr, który jest liczbą całkowitą, i kilka opcjonalnych argumentów słów kluczowych. Jeśli przedziały nie są określone dla każdej kolumny, tworzony jest słupek.





Narysuj histogram na ramce danych PySpark Pandas

Utwórz ramkę danych PySpark Pandas z 2 kolumnami i 4 rekordami. Wykreśl histogram bez przekazywania żadnego parametru do funkcji plot.hist().

z pyspark importuj pandy

pyspark_pandas_dataframe=pandas.DataFrame({ „Wysokość_budynku” :[ 120,56 , 234,67 , 12.0 , 200,45 ], 'Teren budowy' :[ 2 , 3 , 1 , 4 ]})

print(pyspark_pandas_dataframe)

# Histogram PySpark-Pandas

pyspark_pandas_dataframe.plot.hist()

Wyjście:



Tutaj nazwy kolumn to „Building_height” i „Building_Area”.

Spójrzmy na histogram:

Całkowita liczba wierszy w poprzedniej ramce DataFrame to 4. Tworzone są więc 4 pojemniki.

Narysuj histogram na ramce danych PySpark Pandas z parametrem Bins

Utwórz ramkę danych PySpark Pandas z 2 kolumnami i 4 rekordami. Wykreśl histogram bez przekazywania żadnego parametru do funkcji plot.hist().

z pyspark importuj pandy

pyspark_pandas_dataframe=pandas.DataFrame({ „Wysokość_budynku” :[ 120,56 , 234,67 , 12.0 , 200,45 ], 'Teren budowy' :[ 2 , 3 , 1 , 4 ]})

# Histogram PySpark-Pandas z 2 przedziałami

pyspark_pandas_dataframe.plot.hist(bins= 2 )

Wyjście:

Tutaj nazwy kolumn to „Building_height” i „Building_Area”.

Spójrzmy na histogram – czerwony odnosi się do „Building_Area”, a niebieski do kolumny „Building_height”:

Jak ustaliliśmy, utworzono tylko 2 kosze i 2 słupki. Tutaj cztery rzędy są podzielone na 2 pojemniki.

Wykreśl histogram na PySpark RDD, określając numer zasobnika

Podczas pracy z RDD histogram można zwrócić w postaci krotki zawierającej segmenty i wartości całkowite obecne w każdym segmencie.

Składnia:

pyspark_RDD.histogram(wiaderka)

W tym scenariuszu przekazujemy liczbę zasobników (liczba całkowita) uwzględnionych w histogramie. Zwraca krotkę list zawierającą zakresy zasobników i odpowiadające im wystąpienia wartości w następującym formacie: ([zakresy zasobników…], [wystąpienia wartości…]).

Przykład 1:

Stwórzmy RDD o nazwie „Building_height” z 10 wartościami i utwórzmy histogram z 3 segmentami.

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „Linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określanie 3 zasobników

wysokość_budynku.histogram( 3 )

Wyjście:

  1. Zasobnik-1 mieści się w zakresie od 12,0 do 86,223 : W tym zakresie łączna liczba wartości znajdujących się w zasobniku wynosi 5.
  2. Zasobnik-2 mieści się w zakresie od 86,223 do 160,446 : W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 3.
  3. Zasobnik-3 mieści się w zakresie od 160,446 do 234,67 : W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 2.

Przykład 2:

Utwórz histogram z 2 segmentami na wcześniej utworzonym RDD.

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „Linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określanie 2 zasobników

wysokość_budynku.histogram( 2 )

Wyjście:

  1. Zasobnik 1 mieści się w zakresie od 12,0 do 123,335. W tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 8.
  2. Zasobnik 2 mieści się w zakresie od 123,335 do 234,67: w tym zakresie łączna liczba wartości obecnych w zasobniku wynosi 2.

Narysuj histogram na PySpark RDD, określając rozmiar każdego segmentu

W poprzednim scenariuszu przekazywaliśmy zasobniki do funkcji RDD.histogram(). Teraz przekazujemy rozmiary zasobników jeden po drugim na liście i przekazujemy tę listę jako parametr do tej funkcji. Upewnij się, że musimy określić co najmniej dwa segmenty w porządku rosnącym/rosnącym i nie będą miały zduplikowanych wartości.

Składnia:

pyspark_RDD.histogram([zakresy segmentów…])

W tym scenariuszu przekazujemy liczbę segmentów (liczba całkowita), które są zawarte w histogramie. Zwraca krotkę list zawierającą zakresy zasobników i odpowiadające im wystąpienia wartości w następującym formacie: ([zakresy zasobników…], [wystąpienia wartości…]).

Przykład 1:

Utwórzmy RDD o nazwie „Building_height” z 10 wartościami i utwórzmy histogram z zakresem wartości Bucker [0, 50, 100, 150, 200, 250].

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „Linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określenie łyżki o rozmiarze - [0,50,100,150,200,250]

wysokość_budynku.histogram([ 0 , pięćdziesiąt , 100 , 150 , 200 , 250 ])

Wyjście:

  1. Zasobnik 1: (od 0 do 50): Łączne wartości w tym zasobniku to 3.
  2. Zasobnik 1: (50 do 100): Łączne wartości w tym zasobniku to 2.
  3. Zasobnik 1: (100 do 150): Łączne wartości w tym zasobniku wynoszą 2.
  4. Zasobnik 1: (150 do 200): Łączne wartości w tym zasobniku wynoszą 2.
  5. Zasobnik 1: (200 do 250): Łączne wartości w tym zasobniku wynoszą 2.

Przykład 2:

Utwórz histogram z przedziałem wartości [0, 100, 200, 300].

zaimportuj pyspark

z pyspark.sql zaimportuj SparkSession

z pyspark.rdd zaimportuj RDD

spark_app = SparkSession.builder.appName( „linux” .getOrCreate()

# Utwórz RDD z 10 wartościami

Wysokość_budynku =spark_app.sparkContext.parallelize([ 120,56 , 234,67 , 12.0 , 200,45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

wydrukować( 'Rzeczywisty: ' ,Wysokość_budynku.zbierz())

# Określanie kubełka o rozmiarze - [0,100,200,300]

wysokość_budynku.histogram([ 0 , 100 , 200 , 300 ])

Wyjście:

  1. Wiadro 1: (od 0 do 100). Łączna wartość w tym wiadrze wynosi 5.
  2. Wiadro 2: (100 do 200). Łączna wartość w tym wiadrze wynosi 3.
  3. Wiadro 3: (200 do 300). Łączna wartość w tym wiadrze wynosi 2.

Wniosek

Widzieliśmy, jak tworzyć histogramy w PySpark na PySpark Pandas DataFrame i RDD. histogram() to funkcja używana do uzyskania histogramu danych RDD. Funkcja plot.hist() służy do wyświetlania histogramu w ramce danych PySpark Pandas DataFrame. Omówiliśmy te funkcje z przykładami, omawiając wszystkie parametry.