Jak korzystać ze zbiorów danych obejmujących twarze przytulające

Jak Korzystac Ze Zbiorow Danych Obejmujacych Twarze Przytulajace



Możliwość zastosowania i użyteczność modeli Machine Learning jest testowana na danych. Wiarygodność testów w dużej mierze zależy od ilości i jakości danych, na których zastosowano te modele. Utworzenie, uzyskanie i oczyszczenie odpowiednio dużego zbioru danych w celu przetestowania „ Przetwarzanie języka naturalnego (NLP) „Model uczenia maszynowego.

Hugging Face oferuje na to zgrabne rozwiązanie dzięki wyjątkowo dużej bibliotece zbiorów danych do wyboru i znalezienia tego, który idealnie odpowiada Twoim wymaganiom. Tutaj pokażemy Ci, jak znaleźć idealny zbiór danych i przygotować go do odpowiedniego przetestowania modelu.







Jak korzystać ze zbiorów danych obejmujących twarze przytulające?

Pokażemy Ci, jak korzystać ze zbiorów danych Hugging Face na przykładzie „ Małe Historie Zbiór danych z Hugging Face.



Przykład

Zbiór danych TinyStories zawiera ponad 2 miliony wierszy danych w podziale na pociągi i ma ponad 2 tysiące pobrań na platformie Hugging Face. Wykorzystamy go w kodzie w Google Colab podanym poniżej:



! pypeć zainstalować transformatory
! pypeć zainstalować zbiory danych

ze zbiorów danych zaimportuj zbiór danych_load_dataset

zbiór danych = zbiór_danych ładowania ( „ronneneldan/TinyStories” )

TinyStories_Story = 3
przykład_string = zbiór danych [ 'pociąg' ] [ TinyStories_Story ] [ 'tekst' ]

wydrukować ( przykład_ciąg )


W tym kodzie rozważ poniższe kroki:





Krok 01 : Pierwszym krokiem jest „ instalacja ”zestawów danych transformatorów.

Krok 02 : Następnie zaimportuj wymagany zestaw danych, „ Małe Historie ”w swoim projekcie.



Krok 03 : Następnie załaduj wybrany zestaw danych za pomocą przycisku „ załaduj_dataset() ”funkcja.

Krok 04 : Teraz określamy numer historii, którą chcemy ze zbioru danych TinyStories. W naszym przykładzie kodu określiliśmy liczbę 03.

Krok 05 : Na koniec użyjemy metody „print()”, aby wyświetlić wynik.

Wyjście



Notatka: Kod i dane wyjściowe można również wyświetlić bezpośrednio w naszym Google Colab .

Wniosek

Zbiory danych Hugging Face ” sprawiają, że testowanie modeli uczenia maszynowego przy jednoczesnym bezpośrednim importowaniu dużych zbiorów danych z biblioteki online jest niezwykle wydajne dla użytkowników. W rezultacie stosowanie algorytmów NLP stało się łatwiejsze i szybsze, ponieważ programiści mogą testować swoje projekty na podstawie zbioru danych, który ma zarówno jakość, jak i ilość.