Passa al contenuto principale

Prevedere valori numerici con la regressione

L'analisi di regressione è un processo di machine learning supervisionato utilizzato per stimare le relazioni tra i diversi campi nei tuoi dati e per fare ulteriori previsioni su dati numerici basate su queste relazioni. Ad esempio, è possibile prevedere il tempo di risposta di una richiesta web o la quantità approssimativa di dati scambiati dal server con un client in base ai dati storici.

Quando si esegue un'analisi di regressione, è necessario identificare un sottoinsieme di campi da utilizzare per creare un modello che preveda altri campi. Le variabili di caratteristica sono i campi utilizzati per creare il modello, mentre la variabile dipendente è il campo che si desidera prevedere.

Algoritmi di regressione

La regressione utilizza una tecnica di ensemble learning simile al boosting del gradiente estremo (XGBoost), che combina alberi decisionali con metodologie di boosting del gradiente. XGBoost addestra una sequenza di alberi decisionali, e ogni albero impara dagli errori della foresta fino a quel momento. A ogni iterazione, gli alberi aggiunti alla foresta migliorano la qualità della decisione della foresta combinata. Per impostazione predefinita, l'algoritmo di regressione si ottimizza per una funzione di perdita chiamata errore quadratico medio (mean-squared error loss).

Esistono tre tipi di variabili di caratteristica che possono essere utilizzate con questi algoritmi: numeriche, categoriche o booleane. Gli array non sono supportati.

1. Definire il problema

La regressione può essere utile nei casi in cui è necessario prevedere una quantità continua. I valori che l'analisi di regressione può prevedere sono valori numerici. Se il tuo caso d'uso richiede la previsione di valori continui e numerici, la regressione potrebbe essere la scelta giusta per te.