From f9024814e1da0136f528565f91a404c734fe166c Mon Sep 17 00:00:00 2001 From: Fellip Silva Alves <81062614+Fellip15@users.noreply.github.com> Date: Fri, 13 May 2022 17:18:14 -0300 Subject: [PATCH] [ fast_tokenizers.mdx ] - Added translation to portuguese to tutorial (#17076) * [ fast_tokenizers.mdx ] - Added translation to portuguese to tutorial * Delete docs/source/pt-br directory * [ fast_tokenizers.mdx ] - Continuing work on file * [ fast_tokenizers.mdx ] - Continuing work on file * Add fast tokenizers to _toctree.yml * Eliminated config and toctree.yml * Nits in fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/pt/_toctree.yml | 2 + docs/source/pt/fast_tokenizers.mdx | 62 ++++++++++++++++++++++++++++++ 2 files changed, 64 insertions(+) create mode 100644 docs/source/pt/fast_tokenizers.mdx diff --git a/docs/source/pt/_toctree.yml b/docs/source/pt/_toctree.yml index 29bfc08b7..35cbe801d 100644 --- a/docs/source/pt/_toctree.yml +++ b/docs/source/pt/_toctree.yml @@ -11,6 +11,8 @@ title: Treinamento distribuído com 🤗 Accelerate title: Tutoriais - sections: + - local: fast_tokenizers + title: Usando os Tokenizers do 🤗 Tokenizers - local: multilingual title: Modelos multilinguísticos para inferência title: Guias práticos diff --git a/docs/source/pt/fast_tokenizers.mdx b/docs/source/pt/fast_tokenizers.mdx new file mode 100644 index 000000000..aff9afb31 --- /dev/null +++ b/docs/source/pt/fast_tokenizers.mdx @@ -0,0 +1,62 @@ + + +# Usando os Tokenizers do 🤗 Tokenizers + +O [`PreTrainedTokenizerFast`] depende da biblioteca [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). O Tokenizer obtido da biblioteca 🤗 Tokenizers pode ser carregado facilmente pelo 🤗 Transformers. + +Antes de entrar nos detalhes, vamos começar criando um tokenizer fictício em algumas linhas: + +```python +>>> from tokenizers import Tokenizer +>>> from tokenizers.models import BPE +>>> from tokenizers.trainers import BpeTrainer +>>> from tokenizers.pre_tokenizers import Whitespace + +>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) +>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) + +>>> tokenizer.pre_tokenizer = Whitespace() +>>> files = [...] +>>> tokenizer.train(files, trainer) +``` + +Agora temos um tokenizer treinado nos arquivos que foram definidos. Nós podemos continuar usando nessa execução ou salvar em um arquivo JSON para re-utilizar no futuro. + +## Carregando diretamente de um objeto tokenizer + +Vamos ver como aproveitar esse objeto tokenizer na biblioteca 🤗 Transformers. A classe [`PreTrainedTokenizerFast`] permite uma instanciação fácil, aceitando o objeto *tokenizer* instanciado como um argumento: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) +``` +Esse objeto pode ser utilizado com todos os métodos compartilhados pelos tokenizers dos 🤗 Transformers! Vá para [a página do tokenizer](main_classes/tokenizer) para mais informações. + +## Carregando de um arquivo JSON + +Para carregar um tokenizer de um arquivo JSON vamos primeiro começar salvando nosso tokenizer: + +```python +>>> tokenizer.save("tokenizer.json") +``` + +A pasta para qual salvamos esse arquivo pode ser passada para o método de inicialização do [`PreTrainedTokenizerFast`] usando o `tokenizer_file` parâmetro: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") +``` + +Esse objeto pode ser utilizado com todos os métodos compartilhados pelos tokenizers dos 🤗 Transformers! Vá para [a página do tokenizer](main_classes/tokenizer) para mais informações. \ No newline at end of file