Imagem de fundo

Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento...

Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos.


Esse método consiste em

A

agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, substituindo cada um desses dados ruidosos pelo valor NULL.

B

criar um cubo de dados multidimensional para acelerar a identificação e a eliminação dos dados ruidosos encontrados, e, neste caso, os dados assumem valores predefinidos no momento do pré-processamento.

C

dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico.

D

executar uma fusão de dados, tendo como base dados vizinhos, e obter novas variáveis que irão preencher os espaços incoerentes dentro do Big Data, eliminando o ruído.

E

realizar uma ação de Data Mining com atributos que se pareçam com dados ruidosos, gerando novos atributos, classificados como atributos “fantasmas”, sem valor para o tratamento do Big Data.