BaseTokenizer

class lightautoml.text.tokenizer.BaseTokenizer(n_jobs=4, to_string=True, **kwargs)[source]

Base class for tokenizer method.

__init__(n_jobs=4, to_string=True, **kwargs)[source]

Tokenization with simple text cleaning and preprocessing.

Parameters

preprocess_sentence(snt)[source]

Preprocess sentence string (lowercase, etc.).

tokenize_sentence(snt)[source]

Convert sentence string to a list of tokens.

filter_tokens(snt)[source]

Clean list of sentence tokens.

postprocess_tokens(snt)[source]

Additional processing steps: lemmatization, pos tagging, etc.

postprocess_sentence(snt)[source]

Postprocess sentence string (merge words).

tokenize(text)[source]

Tokenize list of texts.