Pandy Qcut

Pandy Qcut



„Python” zawiera wiele bibliotek, a kiedy chcemy analizować lub manipulować danymi, korzystamy z tych bibliotek „Pythona”, a „pandy” są również jego biblioteką. Biblioteka „pandy” jest wykorzystywana w dziedzinie nauki o danych, a także jest wykorzystywana w działaniach związanych z uczeniem maszynowym. DataFrame „pandy” pomaga nam w oszczędzaniu danych. W „pandach”, gdy chcemy binningować dane, używamy metody „qcut()”. Metoda „qcut()” jest wykorzystywana do konwersji ciągłych cech na kategoryczne. W tej metodzie „qcut()” możemy dodać różne typy parametrów, aby uzyskać różne typy wyników. Ten samouczek dotyczy metody „qcut()”, a tutaj szczegółowo wyjaśnimy metodę „qcut()”. W tym samouczku wyjaśnimy Ci, jak robimy binning danych za pomocą funkcji „qcut()” w „pandach”.

Przykład # 01

W tych kodach zastosujemy metodę „qcut()” i zrobimy te kody w aplikacji „Spyder”. Kiedy musimy pracować z „pandami”, możemy uzyskać dostęp do ich funkcji tylko wtedy, gdy zaimportujemy bibliotekę „pand” do naszych kodów. Najpierw wpisujemy „import”, a następnie piszemy „pandy jako pd”. Teraz musimy zastosować metodę „qcut()”, więc w tym celu tworzymy tutaj DataFrame. Konstruujemy „Random_df” zawierające w kolumnach „R_ID, R_name i R_age”, a także w „R_ID” umieszczamy „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 i R_81”. Następnie dodajemy „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob i Harper” w kolumnie „R_name”. Następnie wstawiamy „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 i 40” w kolumnie „R_age”. Teraz używamy funkcji „print()”, która zawiera „Random_df”, która pomoże w renderowaniu ramki DataFrame „Random_df”. Właśnie stworzyliśmy DataFrame i nie stosujemy jeszcze metody „qcut()”.








Ikona „Uruchom” pomaga nam w wykonywaniu kodów. Kiedy naciśniemy tę ikonę „uruchom”, wynik tego kodu zostanie wyświetlony na terminalu aplikacji „Spyder”. DataFarme „Random_df” jest pokazana jako wynik kodu, który napisaliśmy w tym przykładzie. Teraz zastosujemy metodę „qcut()” i pokażemy również jej wynik.




Tutaj bijemy dane. Binningujemy kolumnę „R_age” i umieszczamy metodę „pd.qcut()”, czyli metodę „pand”, która pomaga w binningu danych. W tej metodzie wstawiamy nazwę DataFrame oraz nazwę kolumny, na której chcemy zastosować tę metodę „qcut()”. Ustawiamy również wartość „q” na „5” i jest ona używana do cięcia danych w kolumnie „R_age” na pięć równych kwantylów. Dodajemy metodę „qcut()” w funkcji „print()”, dzięki czemu będzie ona również wyświetlać dane binningowe na terminalu.




Tutaj wyświetlane są dane po binningu, które tnie „R_age” na pięć kwantyli. Wyświetla również kategorie, w których dane kolumny „R_age” są podzielone. Seria kategoryczna reprezentuje kosze „R_age”.






Możemy również dostosować etykietę do tych pojemników. Dodajemy te etykiety pojemników, aby ułatwić ich interpretację. Dodajemy kolumnę „R_age_qcut” do „Random_df”, w której dodajemy etykiety tych pojemników. Ponownie używamy metody „pd.qcut()” do ich etykietowania. Dodajemy do niego etykiety, które są „małe, nie tak małe, przeciętne, wysokie i najwyższe”. Następnie ponownie umieszczamy „Random_df” w „print()”.


Wszystkie pojemniki są oznaczone i prezentowane w tym wyniku. Kolumna „R_age_qcut” jest wyświetlana w tej ramce DataFrame, w której pokazane są oznaczone pojemniki.



Przykład # 02

Aby utworzyć DataFrame, najpierw dodajemy „oceny”, którymi są „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 i 8”. Następnie dodajemy imiona uczniów w „studentach”, którymi są „Piotr, Bromley, Jakub, Dawid, Alianci, Jan, Jakub, Samuel, William, Howard i Aleksander”. Następnie generujemy „Grades_df”, w którym dodaliśmy metodę „pd.DataFrame()” i w tej metodzie wstawiamy „Std_name”, która pojawi się jako nazwa kolumny i przypisujemy do niej wartości „students”. Następnie ustawiamy „Students_grades” jako nazwę kolumny DataFrame, a także przypisujemy tutaj „oceny”, które stworzyliśmy powyżej. Po tym mamy „print()”, w którym dodajemy „Grades_df” do drukowania.


W wyniku tego kodu zostanie wyświetlona ramka DataFrame zawierająca dwie kolumny. Teraz zastosujemy metodę „qcut()” do kolumny „Students_grades” do binningu danych wartości tej kolumny.


Dodajemy tutaj nową kolumnę „grade”, w której zastosowaliśmy „pd.qcut()” do kolumny „Students_grades”, a także użyliśmy „4” jako wartości „q”, więc będzie ona ciąć dane na cztery równe kwantyle. Następnie określamy te kwantyle, umieszczając wartości w „q”, które są „0, .4, .8 i 1”. Następnie wyświetlamy to również. Teraz oznaczamy te dane w pojemnikach, a etykiety, które tutaj dodajemy to „D, C, A i B” i są one również przechowywane w kolumnie „ocena”.


Tutaj dane po binningu są wyświetlane tutaj w kolumnie „grade” i tnie dane z kolumny „Students_grades” na cztery równe kwantyle.


W wyniku tym wyświetlana jest DataFrame, którą otrzymamy po zastosowaniu metody „qcut()” i określeniu kwantyli.


Teraz po dodaniu etykiet do tych pojemników są również renderowane w tym wyniku w kolumnie „ocena” i widać, że przypisuje etykiety zgodnie z wartościami pojemników.

Przykład nr 03

Możemy również zastosować metodę „qcut()” do danych pliku CSV. W tym celu najpierw odczytujemy dane z pliku CSV za pomocą metody „read_csv()”. Wczytujemy dane z pliku „office2.csv”, a następnie dane tego pliku umieszczamy w „Office_df”. Ta metoda przekonwertuje dane z pliku „office2” na DataFrame i zapisze je w „Office_df”. Następnie pokazujemy również te dane, umieszczając „Office_df” w „print()”. Następnie dodajemy nową kolumnę o nazwie „Units_qcut”, do której stosujemy funkcję „pd.qcut()” do kolumny „Units”.

Dodatkowo ustawiamy wartość zmiennej „q” na „5”, która podzieli dane na pięć równych kwantylów. Dane, po pocięciu na 5 równych kwantylów, są przechowywane w kolumnie „Units_qcut”, a ta kolumna jest również dodawana do „Office_df” i „Office_df” renderowane tutaj ponownie za pomocą „print()”. Teraz oznaczamy te dane w pojemnikach, dodając etykiety w metodzie „qcut()”, czyli „Jednostka 1, Jednostka 2, Jednostka 3, Jednostka 4 i Jednostka 5” i przechowujemy je również w kolumnie „Etykiety” . Renderujemy również tę ramkę DataFrame, w której dodawana jest kolumna „Etykiety”.


Dane, które otrzymujemy po odczytaniu pliku „office2.csv” są tutaj renderowane w postaci DataFrame. Następnie dodawana jest kolumna „Units_qcut”, w której wyświetlane są wartości binarne kolumny „Units”. Następnie dodawana jest również kolumna „Etykiety”, która przypisuje etykiety do tych wartości binned. Wszystko to odbywa się za pomocą metody „qcut()” w „pandach”.

Wniosek

W tym samouczku szczegółowo wyjaśniliśmy metodę „qcut()”, która pomaga w bibinowaniu danych w „pandach”. Omówiliśmy, że dane są binned zgodnie z wartością kwantyl „q”, którą dodaliśmy w metodzie „qcut()”, a także dostosowaliśmy etykiety do tych danych binned. Zbadaliśmy metodę „qcut()” i zastosowaliśmy tę metodę do kolumn DataFrame, a także zastosowaliśmy tę metodę „qcut()” do danych pliku CSV po odczytaniu plików CSV. Przedstawiliśmy wyniki wszystkich kodów w tym samouczku, aby jasno wyjaśnić i pokazać wynik metody „qcut()”.