TUTORIAL DATA SCIENCE

Guida introduttiva al Machine Learning Statistico

Scritto da
Gianluca

TUTORIAL

Nel trading moderno il machine learning è diventato una componente estremamente importante nel complesso toolkit di un trader quantitativo di trading. E’ necessario quindi esplorare questo argomento a livello concettuale partendo dai principi base.

Questo articolo è strutturato per darti un’idea dei formalismi matematici alla base dell’apprendimento statistico, mentre gli articoli successivi descrivono esattamente come tale approccio può essere applicato a problemi di finanza quantitativa, ad esempio per progettare una strategia di trading algoritmico.

Cosa è l'Apprendimento Statistico

Prima di discutere gli aspetti teorici dell’apprendimento statistico, è opportuno considerare scenario di finanza quantitativa dove si possono applicare tali tecniche. Si consideri un fondo d’investimento che desidera effettuare previsioni a lungo termine dell’indice azionario S&P500. Il fondo è riuscito a raccogliere una notevole quantità di dati fondamentali relativi alle società che costituiscono l’indice. I dati fondamentali includono, ad esempio, il rapporto prezzo-utili o il valore contabile. Come il fondo può utilizzare questi dati per fare previsioni sull’indice al fine di creare uno strumento di trading? L’apprendimento statistico fornisce un approccio a questo problema.

In un senso più quantitativo stiamo tentando di modellare il comportamento di un risultato o di una risposta sulla base di un insieme di predittori o caratteristiche che presuppongono una relazione tra i due. Nell’esempio precedente il valore dell’indice di mercato azionario è la risposta e i dati fondamentali associati alle aziende che lo compongono sono i predittori.

Questo può essere formalizzato considerando una risposta Y con p caratteristiche diverse x1, x2, …, xp. Se utilizziamo la notazione vettoriale, possiamo definire X = (x1, x2, …, xp), che è un vettore di lunghezza p. Quindi il modello della nostra relazione è dato da:

\(\begin{eqnarray}
Y = f(X) + \epsilon
\end{eqnarray}\)

Dove f è una funzione sconosciuta dei predittori e ε rappresenta un termine di errore o rumore. È importante sottolineare che ε non dipende dai predittori e ha una media nulla. Questo termine è incluso per rappresentare informazioni che non sono considerate all’interno di f. Quindi tornando all’esempio dell’indice del mercato azionario si può dire che Y rappresenta il valore del S&P500 mentre le componenti x_i rappresentano i valori dei singoli fattori fondamentali.

L’obiettivo dell’apprendimento statistico è stimare la forma di f sulla base dei dati osservati e valutare l’accuratezza di tali stime.

Predizione ed Inferenza

Ci sono due processi generali che sono di interesse nell’apprendimento statistico – la predizione e l’inferenza. La predizione si riferisce allo scenario in cui è semplice ottenere informazioni sulle caratteristiche / predittori ma è difficile (o impossibile) ottenere le risposte.

Predizione

La predizione riguarda la previsione di una risposta Y basata su un predittore recentemente osservato, X. Supponendo che sia stata determinata un modello di relazione, è semplice prevedere la risposta utilizzando una stima di f per produrre una stima per la risposta:

\(\begin{eqnarray}\hat{Y} = \hat{f}(X)\end{eqnarray}\)

L’esatta forma della funzione f() è spesso irrilevante nello scenario di predizione se si ipotizza che che le risposte stimate siano vicine alle risposte reali e quindi f() sia precisa nelle sue previsioni. Diverse stime di f produrranno diverse stime di Y. L’errore associato ad avere una scarsa stime \(\hat{f}\) di f è chiamato errore reducible. Si noti che c’è sempre un errore non reducible perché la specifica originale del problema includeva il termine di errore ε. Questo termine di errore incapsula i fattori non misurati che possono influenzare la risposta Y. L’approccio adottato è di provare a minimizzare l’errore reducible con la consapevolezza che ci sarà sempre un limite superiore di accuratezza basato sull’errore ε.

Inferenza

L’inferenza è relativa allo scenario in cui è necessario comprendere la relazione tra X e Y e quindi deve essere determinata la sua forma esatta di f(). Si potrebbe desiderare di identificare i principali predittori o determinare la relazione tra i singoli predittori e la risposta. Si potrebbe anche verificare se la relazione sia lineare o non lineare. La prima indica che il modello è probabilmente più interpretabile ma a scapito della prevedibilità, potenzialmente peggiore. Quest’ultimo fornisce modelli generalmente più predittivi ma a volte meno interpretabili. Quindi esiste spesso un compromesso tra prevedibilità e interpretabilità.

Su DataTrading siamo generalmente meno interessati ai modelli di inferenza poiché la forma effettiva di f non è importante quanto la sua capacità di fare previsioni accurate. Molti degli articoli sul trading in questo sito sono basati sul modello predittivo. Nella prossima sezione si descrive come costruire una stima \(\hat{f}\) di f.

Modelli Parametrici e Non Parametrici

In una situazione di apprendimento statistico è spesso possibile costruire un insieme di tuple di predittori e risposte della forma {(X1, Y1), (X2, Y2), …, (Xn, Yn)}, dove Xi si riferisce al vettore del predittore i-esimo e non al componente i-esima di un particolare vettore predittore (che è indicato con x_i).

Questo specifico set di dati è noto come dati di addestramento in quanto verrà utilizzato per addestrare un particolare metodo di apprendimento statistico su come generare \(\hat{f}\). Per stimare effettivamente f dobbiamo trovare una \(\hat{f}\) che fornisca una ragionevole approssimazione per una particolare Y sotto un particolare predittore X. Esistono due ampie categorie di modelli statistici che ci consentono di raggiungere questo obiettivo. Sono conosciuti come modelli parametrici e non parametrici.

Modelli Parametrici

La caratteristica dei modelli parametrici è la necessità di specificare o ipotizzare una forma per f. Questa è una modellazione. La prima scelta consiste nel voler considerare un modello lineare o non lineare. Consideriamo il caso più semplice di un modello lineare. Tale modello riduce il problema dalla stima di una funzione sconosciuta di dimensione p a quella di stimare un vettore di coefficiente \(\beta=(\beta_0, \beta_1, … , \beta_p)\) di lunghezza p+1. Si considera p+1, e non p, perché i modelli lineari possono essere affini, ovvero possono non attraversare l’origine quando si crea una “line of best fit“, è necessario un coefficiente per specificare l’intersezione. In un modello lineare unidimensionale (regressione), questo coefficiente viene spesso rappresentato come α. Per il nostro modello lineare multidimensionale, dove ci sono p predittori, usiamo la notazione β₀ per rappresentare la nostra intersezione tra X e Y e quindi ci sono componenti p+1 nella stima \(\hat{\beta}\) di β. Ora che abbiamo specificato una forma (lineare) di f, dobbiamo addestrarla. L'”Addestramento” in questo caso significa trovare una stima per β tale che:

\(\begin{eqnarray} Y \approx \hat{\beta}^T X = \beta_0 + \beta_1 x_1 + … + \beta_p x_p \end{eqnarray}\)

Dove il vettore \(X=(1,x_1,x_2,…,x_p)\) contiene un componente aggiuntivo unitario per avere un vettore a p+1 dimensioni. Nel modello lineare possiamo usare un algoritmo come i minimi quadrati ordinari (OLS) per determinare i coefficienti, ma sono disponibili anche altri metodi. È molto più semplice stimare β che far adattare una f (potenzialmente non lineare). Tuttavia, scegliendo un approccio parametrico lineare, è improbabile che la nostra stima possa replicare la vera forma di f. Questo può portare a stime poco veritiere perché il modello non è abbastanza flessibile. Un possibile rimedio è considerare l’aggiunta di ulteriori parametri, scegliendo forme alternative per \(\hat{f}\). Sfortunatamente se il modello diventa troppo flessibile può portare a una situazione molto pericolosa nota come overfitting, che sarà oggetto di numerosi futuri articoli. In sostanza il modello segue troppo da vicino il rumore e non il segnale!

Modelli non Parametrici

L’approccio alternativo consiste nel considerare una forma non parametrica di\(\hat{f}\). I modelli non parametrici possono potenzialmente adattarsi a una gamma più ampia di possibili forme per f e sono quindi più flessibili. Sfortunatamente, i modelli non parametrici risentono della necessità di disporre di una vasta quantità di dati osservati, spesso molto più che nei modelli parametrici. Inoltre, i metodi non parametrici sono anche soggetti ad overfitting se non trattati attentamente.

I modelli non parametrici possono sembrare una scelta naturale per i modelli di trading quantitativa in quanto vi è apparentemente un’abbondanza di dati (storici) su cui applicare i modelli. Tuttavia, i metodi non sono sempre ottimali. Nonostante la maggiore flessibilità è molto utile per modellare le non-linearità dei dati finanziari, è molto facile l’overfit dei dati a causa dello scadente rapporto segnale / rumore che si trova nelle serie temporali finanziarie.

Si preferisce quindi una “via di mezzo” nel considerare i modelli con un certo grado di flessibilità. Discuteremo di questi problemi negli articoli relativi all’ottimizzazione.

Apprendimento supervisionato e non supervisionato

Nel machine learning statistico viene spesso fatta una distinzione tra metodi supervisionati e non supervisionati. Le strategie descritte su Data Trading saranno quasi esclusivamente basate su tecniche supervisionate, ma anche le tecniche senza supervisione sono certamente applicabili ai mercati finanziari.

Un modello supervisionato richiede che per ogni vettore predittore Xi vi sia una risposta associata Yi. La “supervisione” della procedura si verifica quando il modello di f viene addestrato o adattato a questi dati particolari. Ad esempio, quando si crea un modello di regressione lineare, si utilizza l’algoritmo OLS per addestrarlo, producendo infine una stima \(\hat{\beta}\) per il vettore dei coefficienti di regressione, β.

In un modello non supervisionato non esiste una corrispondente risposta Yi per uno specifico predittore Xi. Quindi non c’è nulla per “supervisionare” l’allenamento del modello. Questo scenario è chiaramente molto più difficile affinché un algoritmo possa produrre risultati poiché non esiste alcuna forma di “funzione fitness” con cui valutare l’accuratezza. Nonostante questa criticità, le tecniche senza supervisione sono estremamente potenti. Sono particolarmente utili nel dominio del clustering.

Un modello di cluster parametrizzato, quando viene fornito con un parametro che specifica il numero di cluster da identificare, può spesso discernere relazioni impreviste all’interno dei dati che altrimenti non sarebbero stati facilmente determinati. Tali modelli generalmente rientrano nel campo dell’analisi aziendale e dell’ottimizzazione del marketing al consumo, ma hanno usi anche nell’ambito finanziario, in particolare per quanto riguarda la valutazione del clustering, ad esempio nell’ambito della volatilità.

Nel prossimo articolo considereremo diverse categorie di tecniche di apprendimento automatico e come valutare la qualità di un modello.