Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Jak Korzystac Z Tokenizerow W Transformatorach Z Twarza Przytulajaca



Przetwarzanie języka naturalnego (NLP) działa na surowej postaci danych. Modele uczenia maszynowego są szkolone na złożonych danych, ale nie potrafią zrozumieć surowych danych. Z tą surową formą danych musi być powiązana pewna wartość liczbowa. Wartość ta określa wartość i znaczenie słowa w danych i na tej podstawie przeprowadzane są obliczenia.

Ten artykuł zawiera przewodnik krok po kroku dotyczący używania tokenizatorów w transformatorach ściskających twarz.

Co to jest tokenizator?

Tokenizer jest ważną koncepcją NLP, a jego głównym celem jest przełożenie surowego tekstu na liczby. W tym celu stosuje się różne techniki i metodologie. Warto jednak zaznaczyć, że każda technika służy określonemu celowi.
Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?







Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Bibliotekę tokenizera należy najpierw zainstalować przed jej użyciem i zaimportowaniem z niej funkcji. Następnie wytrenuj model za pomocą narzędzia AutoTokenizer, a następnie podaj dane wejściowe w celu przeprowadzenia tokenizacji.



Hugging Face wprowadza trzy główne kategorie tokenizacji, które podano poniżej:



  • Tokenizator oparty na słowach
  • Tokenizator oparty na znakach
  • Tokenizator oparty na podsłowach

Oto przewodnik krok po kroku dotyczący korzystania z tokenizerów w Transformersach:





Krok 1: Zainstaluj Transformers
Aby zainstalować transformatory, użyj polecenia pip w następującym poleceniu:

! pypeć zainstalować transformatory



Krok 2: Importuj klasy
Z transformatorów, import rurociąg , I Klasyfikacja AutoModelForSequence biblioteka do przeprowadzenia klasyfikacji:

z rurociągu importu transformatorów, AutoModelForSequenceClassification

Krok 3: Importuj model
Klasyfikacja AutoModelForSequence ” to metoda należąca do Auto-Class służąca do tokenizacji. The from_pretrained() Metoda służy do zwrócenia poprawnej klasy modelu na podstawie typu modelu.

Tutaj podaliśmy nazwę modelu w „ Nazwa modelu ' zmienny:

Nazwa modelu = „distilbert-base-uncased-finetuned-sst-2-english”
model_przedtreningowy =AutoModelForSequenceClassification.from_pretrained ( Nazwa modelu )

Krok 4: Zaimportuj AutoTokenizer
Podaj następujące polecenie, aby wygenerować tokeny, przekazując „ Nazwa modelu ” jako argument:

z transformatorów importuje AutoTokenizer

wygenerowany token =AutoTokenizer.z_wstępnie przeszkolonego ( Nazwa modelu )

Krok 5: Wygeneruj token
Teraz wygenerujemy tokeny na zdaniu “Uwielbiam dobre jedzenie” za pomocą „ wygenerowany token ' zmienny:

słowa =wygenerujtoken ( „Uwielbiam dobre jedzenie” )
wydrukować ( słowa )

Dane wyjściowe są podawane w następujący sposób:

Kod do powyższego Google Co jest tu podane.

Wniosek

Aby użyć Tokenizerów w Hugging Face, zainstaluj bibliotekę za pomocą polecenia pip, wytrenuj model za pomocą AutoTokenizera, a następnie podaj dane wejściowe w celu przeprowadzenia tokenizacji. Stosując tokenizację, przypisz wagi słowom, na podstawie których są one sekwencjonowane, aby zachować znaczenie zdania. Wynik ten określa również ich wartość do analizy. Ten artykuł jest szczegółowym przewodnikiem na temat korzystania z tokenizerów w Transformersach Przytulających Twarzy.