Processor_data
Processor_data(target_vocab_size=65536, language='en', value=0, padding='post', name='NLP')
The DCNN class corresponds to the Neural Convolution Network algorithm for Natural Language Processing.
Parameters
mame: Instance class name
Attributes
clean: function Modulo limpieza de texto por medio de expresiones regulares
Examples:
cols = ["sentiment", "id", "date", "query", "user", "text"]
data = pd.read_csv(
TRAIN,
header=None,
names=cols,
engine="python",
encoding="latin1"
)
data.drop(["id", "date", "query", "user"],
axis=1,
inplace=True)
nlptrans = Processor()
data_process = nlptrans.process_text(data)
Methods
apply_non_breaking_prefix(text, language='en')
clean words with a period at the end to make it easier for us to use.
Parameters
text: Text to apply cleaning. language: str Language a nonbreaking_prefix. options: en / es / fr.
apply_padding(data, eval=False)
El Pdding es una forma especial de enmascaramiento donde los pasos enmascarados se encuentran al comienzo o al comienzo de una secuencia. El padding proviene de la necesidad de codificar datos de secuencia en lotes contiguos: para que todas las secuencias en un lote se ajusten a una longitud estandar dada, es necesario rellenar o truncar algunas secuencias.
clean(data)
Clean text.
encode_data(data, eval=False)
Encoder all text
process_text(data, eval=False)
Procesador completo de texto: - Limpieza con expresiones regulares - Tokenizador - Padding