Processor_data

Processor_data(target_vocab_size=65536, language='en', value=0, padding='post', name='NLP')

The DCNN class corresponds to the Neural Convolution Network algorithm for Natural Language Processing.

Parameters

mame: Instance class name

Attributes

clean: function Modulo limpieza de texto por medio de expresiones regulares

Examples:

cols = ["sentiment", "id", "date", "query", "user", "text"]
data = pd.read_csv(
TRAIN,
header=None,
names=cols,
engine="python",
encoding="latin1"
)
data.drop(["id", "date", "query", "user"],
axis=1,
inplace=True)
nlptrans = Processor()
data_process = nlptrans.process_text(data)

Methods


apply_non_breaking_prefix(text, language='en')

clean words with a period at the end to make it easier for us to use.

Parameters

text: Text to apply cleaning. language: str Language a nonbreaking_prefix. options: en / es / fr.


apply_padding(data, eval=False)

El Pdding es una forma especial de enmascaramiento donde los pasos enmascarados se encuentran al comienzo o al comienzo de una secuencia. El padding proviene de la necesidad de codificar datos de secuencia en lotes contiguos: para que todas las secuencias en un lote se ajusten a una longitud estandar dada, es necesario rellenar o truncar algunas secuencias.


clean(data)

Clean text.


encode_data(data, eval=False)

Encoder all text


process_text(data, eval=False)

Procesador completo de texto: - Limpieza con expresiones regulares - Tokenizador - Padding