Diagrama de Dispersão

O “Diagrama de Dispersão”, também conhecido como “gráfico de dispersão”, é uma ferramenta essencial na análise de dados, amplamente utilizada em diversos contextos para compreender a relação entre duas variáveis numéricas e, em sequência, interpretar resultados com sentido prático relevante.
Ao analisar o “Diagrama de Dispersão”, os profissionais podem rapidamente prever comportamentos, identificar problemas de causa e efeito e otimizar processos.

Introdução

    A origem do Diagrama de Dispersão remonta ao trabalho de Francis Galton no século XIX. Galton foi um pioneiro no uso de gráficos para representar dados e explorar relações entre variáveis, especialmente nos seus estudos sobre correlação e regressão.
    A importância do Diagrama de Dispersão reside na capacidade de transformar dados complexos em insights claros, que podem ser compreendidos de forma intuitiva, facilitando a comunicação de resultados e hipóteses dentro das equipas e entre diferentes departamentos.
    O Diagrama de Dispersão não só promove uma cultura de análise baseada em evidências, como também simplifica a identificação de melhorias contínuas, contribuindo para o sucesso das operações e a inovação nas organizações. Portanto, o seu uso é uma forma eficaz de garantir que as decisões estratégicas estejam alinhadas com os factos e as tendências observadas.

Âmbito

    Âmbito Interno
    O Diagrama de Dispersão tem um papel crucial no âmbito interno da indústria transformadora, onde é amplamente utilizado como uma ferramenta analítica para melhorar a qualidade e a eficiência dos processos produtivos. A sua aplicação interna é focada na análise, controlo e otimização das operações, permitindo a identificação de relações críticas que impactam o desempenho e a consistência dos produtos:
      Análise da Qualidade dos Produtos: identificar e compreender as causas de variações na qualidade do produto final
      O Diagrama de Dispersão é usado para examinar a relação entre variáveis de processo, como a temperatura, pressão ou velocidade de produção, e a qualidade das peças produzidas. Por exemplo, na moldagem por injeção de plásticos, pode ser utilizado para determinar se a temperatura do molde afeta a precisão dimensional das peças.
      Controlo Estatístico do Processo (CEP): monitorizar o desempenho do processo e garantir que as operações estejam dentro dos limites especificados.
      Na produção em série, o Diagrama de Dispersão pode ser usado para relacionar a variabilidade do processo com a variação na qualidade do produto. Por exemplo, pode-se analisar se a velocidade de uma máquina de corte influencia a precisão das dimensões das peças produzidas.
      Manutenção Preditiva e Preventiva: prever e prevenir falhas de equipamentos com base na análise de dados históricos.
      O Diagrama de Dispersão pode ser usado para relacionar o desgaste de componentes mecânicos (como rolamentos ou ferramentas de corte) com a frequência de avarias ou a degradação da qualidade dos produtos. Isto permite planear intervenções de manutenção de forma mais eficiente.
      Otimização de Processos Produtivos: identificar as variáveis que têm o maior impacto no desempenho do processo e ajustar os parâmetros operacionais para maximizar a eficiência.
      Na indústria transformadora, o Diagrama de Dispersão pode ser utilizado para correlacionar a velocidade de produção com a taxa de defeitos, ajudando a encontrar o equilíbrio ideal entre produtividade e qualidade.
      Análise de Desempenho de Equipamentos: Avaliar como os parâmetros operacionais influenciam o desempenho das máquinas.
      O Diagrama de Dispersão é usado para investigar a relação entre variáveis como a carga de trabalho de uma máquina e o tempo médio entre falhas MTBF. Este tipo de análise pode revelar a necessidade de ajustes operacionais para melhorar a longevidade dos equipamentos.
      Identificação de Problemas de Causa e Efeito: diagnosticar problemas que afetam o processo de produção de forma direta.
      Por exemplo, na fabricação de peças metálicas, o Diagrama de Dispersão pode ser usado para investigar se o aumento da temperatura durante a soldadura influencia a resistência mecânica das juntas soldadas. Identificar estas relações causa-efeito é fundamental para resolver problemas de forma eficaz.
      Desenvolvimento de Novos Produtos e Processos: validar hipóteses e ajustar parâmetros durante a fase de desenvolvimento.
      Durante a prototipagem, o Diagrama de Dispersão é usado para correlacionar variáveis de projeto com os resultados obtidos, como a relação entre o tempo de cura de um material e a sua resistência final.
    Âmbito Externo
    No âmbito externo, o Diagrama de Dispersão é aplicado para entender fatores que afetam a organização em interação com o ambiente externo. Esta aplicação é fundamental na análise de mercado, estudo de clientes e avaliação de estratégias de negócio. Aqui, o foco é compreender como as variáveis externas, que a organização não controla totalmente, influenciam o desempenho ou o sucesso da empresa:
      Análise de Mercado: o Diagrama de Dispersão pode ser usado para estudar a relação entre o preço e a procura de um produto, permitindo prever o comportamento do consumidor com base em alterações de preço ou características do produto. Também é útil para avaliar o impacto das campanhas de marketing na venda de produtos ou serviços.
      Estudos de Satisfação do Cliente: permite correlacionar variáveis como tempo de resposta ao cliente e nível de satisfação ou a relação entre a localização geográfica de uma loja e o volume de vendas. Esta análise ajuda a entender fatores externos que podem ser melhorados para aumentar a lealdade dos clientes.
      Avaliação de Riscos: pode ser usado para analisar a relação entre fatores macroeconómicos, como a taxa de juros ou a inflação, e o impacto no desempenho financeiro da empresa. Esta análise é valiosa para a gestão de risco e planeamento estratégico.
    O Diagrama de Dispersão é, assim, uma ferramenta versátil que auxilia tanto na resolução de problemas internos quanto na compreensão de fatores externos que afetam a organização. No âmbito interno, a sua aplicação promove a eficiência e a qualidade dos processos, enquanto no âmbito externo, oferece uma visão detalhada sobre como variáveis externas influenciam a operação e o sucesso empresarial.

Desafios

    Embora o Diagrama de Dispersão seja uma ferramenta poderosa para estudar relações entre duas variáveis numéricas, ele também possui desafios que devem ser consideradas ao interpretá-lo minimizando erros de análise.
    Restrição a Relações Lineares: o Diagrama de Dispersão é mais eficaz para identificar relações lineares. Se a relação entre as variáveis for não linear, o diagrama pode não representar adequadamente a correlação ou a tendência. Pode levar a interpretações incorretas se a análise não considerar a possibilidade de relações não lineares ou complexas.
    Sensibilidade a Outliers: valores extremos (Outliers) podem distorcer significativamente a aparência do Diagrama de Dispersão e influenciar a reta de regressão. Esses pontos atípicos podem dar uma impressão falsa da relação entre as variáveis. Pode resultar em modelos de regressão imprecisos e em conclusões erradas sobre a força ou a direção da correlação.
    Não Identifica Relações Causais: o Diagrama de Dispersão mostra apenas uma correlação entre duas variáveis, mas não prova que uma variável causa a outra. A correlação observada pode ser resultado de um fator externo ou de uma coincidência. Pode levar a conclusões erradas sobre causalidade se a análise não for complementada por uma investigação adicional.
    Limitação a Duas Variáveis: o Diagrama de Dispersão só pode mostrar a relação entre duas variáveis ao mesmo tempo. Não é útil para analisar interações complexas entre múltiplas variáveis ou para estudar relações multidimensionais. Para análises mais complexas, outras técnicas estatísticas, como regressão múltipla ou análise de componentes principais, podem ser necessárias.
    Interpretação Subjetiva: a análise visual pode ser subjetiva, e diferentes pessoas podem interpretar o padrão de dispersão de forma diferente. A avaliação da força da correlação pode variar com base na perceção individual. A necessidade de uma interpretação estatística adicional, como o coeficiente de correlação, é importante para complementar a análise visual.
    Dependência de Dados Representativos: a validade das conclusões baseia-se na representatividade da amostra de dados. Se os dados não forem representativos da população ou do processo em estudo, as relações observadas podem não ser generalizáveis. Pode levar a decisões ou previsões incorretas se os dados usados forem enviesados ou inadequados.
    Escala dos Eixos Pode Influenciar a Perceção: a escolha das escalas dos eixos pode afetar a aparência da dispersão dos pontos, o que pode distorcer a perceção da relação entre as variáveis. Requer cuidado na escolha das escalas para evitar interpretações visuais enganadoras.
    Apesar das suas limitações, o Diagrama de Dispersão é uma ferramenta valiosa para a análise exploratória de dados. No entanto, deve ser usado em conjunto com outras técnicas estatísticas e análises complementares para obter uma compreensão completa e precisa das relações entre variáveis. É essencial estar atento às limitações para evitar erros de interpretação e garantir que as conclusões sejam bem fundamentadas.

Estrutura

    O Diagrama de Dispersão, ou gráfico de dispersão, é uma ferramenta estatística que representa visualmente a relação entre duas variáveis numéricas, permitindo analisar padrões, correlações ou associações entre elas. A sua estrutura é relativamente simples, mas a sua interpretação pode fornecer insights importantes sobre a natureza dos dados e possíveis relações causais. Vejamos uma descrição detalhada da estrutura e dos elementos que a compõem:
    Estrutura do Diagrama de Dispersão
    O Diagrama de Dispersão é representado num plano cartesiano, composto por dois eixos perpendiculares: o eixo horizontal (Eixo X) e o eixo vertical (Eixo Y).
      Eixos Coordenados (Eixo X e Eixo Y)
        Eixo X (Eixo das Abscissas): representa a variável independente, ou seja, a variável que se supõe influenciar ou estar associada à variável dependente. Exemplo: tempo de produção, temperatura, ou qualquer fator que se acredita ser o causador ou o motor de uma mudança.
        Eixo Y (Eixo das Ordenadas): representa a variável dependente, ou seja, a variável que pode ser influenciada ou afetada pela variável no eixo X. Exemplo: defeitos, produtividade ou rendimento de um processo.
        Ambos os eixos são escalonados com valores numéricos apropriados para representar a amplitude e a variabilidade das variáveis.
      Pontos de Dados
        Cada ponto no Diagrama de Dispersão representa uma observação individual das duas variáveis, com as suas coordenadas determinadas pelos valores específicos de X e Y. Por exemplo, um ponto (3,5) indica que o valor da variável independente Eixo X é 3 e o da variável dependente Eixo Y é 5
        A disposição dos pontos ao longo do diagrama é o que permite a identificação de possíveis padrões, como uma correlação positiva, negativa ou inexistente.
      Escala dos Eixos
        As escalas dos eixos são fundamentais para uma representação precisa e devem ser escolhidas de forma a abranger todos os dados sem distorcer a relação aparente. Ambas as variáveis devem ser medidas na mesma unidade ou convertidas de forma que os pontos possam ser comparados de forma significativa.
        Em muitos casos, uma escala uniforme facilita a leitura, mas pode ser ajustada conforme necessário para destacar melhor as relações ou a dispersão dos dados.
      Rótulos e Legenda
        Os eixos devem ser claramente rotulados para indicar as variáveis que estão a ser analisadas, com as unidades de medida especificadas quando aplicável. Por exemplo, o Eixo X pode ser rotulado como “Horas de Treino” (em horas) e o Eixo Y como “Desempenho” (em pontuação).
        Se o Diagrama de Dispersão incluir diferentes grupos ou categorias de dados, uma legenda pode ser usada para identificar os diferentes conjuntos de pontos, distinguindo-os com cores ou símbolos específicos
      Linha de Tendência e Reta de Regressão
        A linha de tendência é uma linha que mostra a direção geral dos dados ao longo do tempo ou de outra variável. Ela pode ser linear ou não linear (por exemplo, exponencial, logarítmica, polinomial). A linha de tendência é usada para identificar padrões ou tendências nos dados, como crescimento, declínio ou ciclos.
        A reta de regressão é a linha reta que melhor se ajusta aos dados num gráfico de dispersão. Ela é usada para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes.
    Tipos de Relações Representadas
    A estrutura do Diagrama de Dispersão é usada para identificar e caracterizar diferentes tipos de relações entre as variáveis:
      Correlação Positiva: Quando os pontos de dados tendem a formar uma linha ascendente, indicando que à medida que a variável no Eixo X aumenta, a variável no Eixo Y também tende a aumentar.
      Correlação Negativa: Quando os pontos de dados tendem a formar uma linha descendente, indicando que à medida que a variável no Eixo X aumenta, a variável no Eixo Y tende a diminuir.
      Nenhuma Correlação: Quando os pontos estão distribuídos aleatoriamente sem formar um padrão visível, indicando que não há uma relação aparente entre as variáveis.
      Correlação Não Linear: Em alguns casos, a relação entre as variáveis pode ser curvilínea, mostrando que a variável dependente não varia de forma constante em relação à variável independente.
    Características Fundamentais
      Simplicidade: A estrutura do Diagrama de Dispersão é simples e direta, o que facilita a compreensão e a análise visual.
      Flexibilidade: Pode ser usado com qualquer conjunto de dados numéricos, independentemente da natureza da relação (linear ou não linear).
      Interpretação Visual: Através da disposição dos pontos, os analistas podem rapidamente identificar a existência, direção e força de uma relação entre as variáveis.
    A estrutura do Diagrama de Dispersão é projetada para maximizar a clareza na análise de relações entre variáveis, oferecendo uma base sólida para a análise exploratória de dados e apoiando processos de tomada de decisão com base em evidências. A sua utilidade aumenta quando usado em conjunto com outras ferramentas estatísticas, como o coeficiente de correlação de Pearson ou análises de regressão, para uma compreensão mais aprofundada da relação observada.

Exemplos

    Exemplo 01: Diagrama de Dispersão a partir de registos diários do número total de peças não conformes e número de paragens de uma máquina.
    Exemplo 02: Diagrama de Dispersão a partir de registos diários do desgaste de uma máquina e perda de qualidade das peças produzidas.
    Exemplo 03: Diagrama de Dispersão a partir de registos diários do velocidade de corte laser e espessura do material a cortar.
    Exemplo 04: Diagrama de Dispersão a partir de registos diários do volume de faturação e número diários de faturas emitidas.
    Estes exemplos ilustram como o Diagrama de Dispersão pode ser usado para explorar e entender diferentes tipos de relações entre variáveis, destacando as possíveis correlações ou a ausência delas.

Determinação da Reta de Regressão

    A determinação da Reta de Regressão envolve encontrar uma equação linear que melhor descreva a relação entre duas variáveis num conjunto de dados. Essa reta é geralmente expressa como:
    Fórmulas para o cálculo dos parâmetros a e b
      Cálculo do Coeficiente Angular a (Declive)
      Cálculo do Coeficiente Linear b (Interseção com o Eixo Y)
      Interpretação dos valores a e b.
      Declive a: indica que, para cada unidade de aumento em X o aumento em Y é de a
      Interseção b: mostra que quando X=0 o valor de Y é b.

Interpretação de caso prático

    Consideremos o Diagrama de Dispersão do Exemplo 02, relação entre o desgaste de uma máquina e a perda de qualidade das peças produzidas.
    A reta de regressão é dada pela expressão Y=0.9739X+1.0340
    Significado do Coeficiente 0.97390
    Este valor indica que, para cada incremento de uma unidade percentual no desgaste da máquina X, a perda de qualidade Y aumenta, em média, em 0.9739 unidades percentuais. Em termos práticos, isto representa a sensibilidade da qualidade das peças produzidas ao desgaste da máquina.
    Por outras palavras, o coeficiente 0.97390 quantifica a taxa de degradação da qualidade conforme a máquina se desgasta. Este valor é crucial para:
      Avaliar o impacto do desgaste: uma taxa de 0.9739% sugere que a perda de qualidade é quase proporcional ao desgaste da máquina. Isto significa que o desgaste tem um impacto significativo na qualidade do produto, quase numa base de 1 para 1.
      Planeamento de manutenção: este coeficiente fornece uma base para prever quando a perda de qualidade se tornará inaceitável, ajudando a definir intervalos de manutenção preventiva. Se o desgaste da máquina aumentar consistentemente, a perda de qualidade associada pode ser antecipada.
      Tomada de decisão: compreender este valor ajuda os gestores a decidir entre continuar a operar a máquina ou proceder a reparações ou substituições, dependendo de quão sensível é a qualidade do produto ao desgaste.
    Imaginemos uma situação onde o desgaste da máquina é monitorizado regularmente. O valor 0.97390 indica que, com cada aumento percentual no desgaste, quase 1% de perda de qualidade é esperado. Assim, mesmo variações pequenas no desgaste podem ter um impacto considerável, o que pode ser crítico para processos que exigem alta precisão ou qualidade constante.
    Portanto, este coeficiente é fundamental para quantificar a relação causal entre o desgaste da máquina e a perda de qualidade, e serve como um indicador prático da necessidade de ações corretivas para minimizar defeitos ou falhas na produção.
    Significado Coeficiente 1.0340
    Este valor indica a perda de qualidade estimada quando o desgaste da máquina é igual a 0. Por outras palavras, mesmo que não exista desgaste aparente ou medido na máquina, há uma perda de qualidade mínima esperada de aproximadamente 1.0340%.
    Este conceito é importante porque sugere que existem outros fatores base ou condições subjacentes que contribuem para a perda de qualidade, independentemente do desgaste da máquina. Estes fatores podem incluir:
      Condições de operação não ideais: elementos como a calibração da máquina, o ambiente de produção, ou a qualidade dos materiais usados.
      Desgaste inicial ou imperfeições de base: mesmo uma máquina nova ou pouco usada pode ter um certo nível de imperfeição ou desgaste mínimo inerente ao seu uso ou design.
      Variações no processo: pequenas inconsistências no processo de produção que não estão diretamente relacionadas com o desgaste da máquina.
    Este valor destaca a importância de considerar outros fatores que podem influenciar a qualidade das peças produzidas, além do desgaste da máquina. Para uma análise mais abrangente, pode ser útil investigar essas fontes adicionais de variabilidade na qualidade do produto.
    Em resumo, o coeficiente 1.03401% representa uma perda de qualidade inicial que existe independentemente do desgaste da máquina, indicando a presença de fatores adicionais que devem ser monitorizados e, se possível, controlados para garantir uma produção de alta qualidade.

Determinação do Coeficiente de Correlação

    Fórmula para cálculo do Coeficiente de Correlação de Pearson:
    Passos para Calcular o Coeficiente de Correlação:
    Interpretação dos dados:
      Correlação forte: se o |r| é próximo de 1 (ex. 0,8 ou 0,9)
      Correlação moderada: se o |r| se situa entre 0,5 e 0,8
      Correlação fraca: se o |r| é menor que 0,8
    Este coeficiente é amplamente utilizado porque fornece uma forma padronizada de medir a associação linear entre duas variáveis, independentemente das suas unidades de medida.
    Nota: Se a relação entre as variáveis não for linear a Correlação de Pearson pode não ser a medida mais apropriada.

Objetivos do Uso do Diagrama de Dispersão

    Identificar Relações: Determina se existe uma relação ou correlação entre duas variáveis. Avalia se a relação é positiva, negativa, ou se não existe correlação.
    Analisar Visualmente Padrões: Deteta padrões ou tendências nos dados, facilitando a interpretação visual.
    Apoiar a Tomada de Decisões: Oferece uma base visual e informada para decisões, como ajustar parâmetros de produção ou otimizar processos.
    Quantificar Relações: Mede a força e a direção da correlação entre variáveis, podendo complementar-se com a reta de regressão para uma análise quantitativa.
    Verificar Hipóteses: Testa suposições iniciais sobre a ligação entre variáveis, como a dependência de um resultado em relação a um fator específico.
    Monitorizar Processos: Acompanha variáveis críticas em ambientes industriais, como a relação entre o desgaste de equipamentos e a perda de qualidade dos produtos.