Il machine learning statistico è un ampio campo interdisciplinare, con molte aree di ricerca disparate.
Dopo aver introdotto le basi del machine learning statistico, questo articolo descrive le tecniche più rilevanti per la finanza quantitativa e in particolare per il trading algoritmico.
Regressione
La regressione si riferisce a un ampio gruppo di tecniche di apprendimento automatico supervisionate che forniscono capacità predittive ed inferenziali. Una parte significativa della finanza quantitativa si avvale delle tecniche di regressione e quindi è essenziale avere familiarità con questo processo. La regressione tenta di modellare la relazione tra una variabile dipendente (risposta) e un insieme di variabili indipendenti (predittori). In particolare, l’obiettivo della regressione è accertare la variazione di una risposta, quando cambia una delle variabili indipendenti, nel presupposto che le restanti variabili indipendenti siano mantenute fisse.
La tecnica di regressione più conosciuta è la regressione lineare, che presuppone una relazione lineare tra i predittori e la risposta. Tale modello prevede la stima dei parametri
(solitamente indicato dal vettore β) per la risposta lineare a ciascun predittore. Questi parametri sono stimati tramite una procedura nota come metodo dei minimi quadrati (OLS). La regressione lineare può essere utilizzata sia per la previsione che per l’inferenza.
Nel primo caso è possibile aggiungere un nuovo valore del predittore (senza una risposta corrispondente) al fine di prevedere un nuovo valore di risposta. Ad esempio, si consideri un modello di regressione lineare utilizzato per prevedere il valore del S&P500 per il giorno successivo, utilizzando i dati dei prezzi degli ultimi cinque giorni. Il modello può essere allenato utilizzando OLS su dati storici. Quindi, quando arrivano nuovi dati di mercato per l’S&P500, possono essere inseriti nel modello (come predittore) per generare una risposta prevista per il prezzo di domani. Questo può costituire la base di una strategia di trading.
Nel secondo caso (inferenza) si può valutare la forza della relazione tra la risposta e ciascun predittore al fine di determinare il sottoinsieme di predittori che hanno un effetto sulla risposta. Questo approccio è utile quando si vuole capire le cause che fanno variare la risposta, come in una ricerca di marketing o in una sperimentazione clinica. L’inferenza è spesso meno utile per coloro che eseguono il trading algoritmico, poiché la qualità della predizione è fondamentalmente più importante della relazione sottostante. Detto questo, non ci si deve basare esclusivamente sull’approccio “black-box” a causa dell’overfitting del rumore nei dati.
Altre tecniche includono la regressione logistica, progettata per prevedere una risposta categorizzata (come “UP”, “DOWN”, “FLAT”) in contrasto con una risposta continua (come il prezzo di un’azione). Questo tecnicamente lo rende uno strumento di classificazione (vedi sotto), ma di solito è raggruppato sotto la bandiera della regressione. Una procedura statistica generale nota come stima di massima verosimiglianza (MLE) viene utilizzata per stimare i valori dei parametri di una regressione logistica.
Classificazione
La classificazione comprende tecniche di apprendimento automatico supervisionate che mirano a classificare un’osservazione (simile a un predittore) in un insieme di categorie predefinite, in base alle caratteristiche associate all’osservazione. Queste categorie possono essere non ordinate (ad es. “rosso”, “giallo”, “blu”) o ordinate (ad es. “basso medio alto”). In quest’ultimo caso tali gruppi sono noti come ordinali.
Gli algoritmi di classificazione – i classificatori – sono ampiamente usati nella finanza quantitativa, specialmente nel campo della previsione della direzione del mercato, quindi è necessario studiare approfonditamente i classificatori.
I classificatori possono essere utilizzati nel trading algoritmico per prevedere se una determinata serie temporale avrà rendimenti positivi o negativi nei successivi periodi temporali (sconosciuti). Questo approccio è simile alla regressione, tranne per il fatto che non viene previsto il valore effettivo delle serie temporali, mentre si prevede la sua direzione. Ancora una volta siamo in grado di utilizzare predittori continui, ad esempio i precedenti prezzi di mercato, come osservazioni. Considereremo i classificatori sia lineari che non lineari, tra cui la regressione logistica, l’analisi discriminante lineare / quadratica, le macchine SVM (Support Vector Machines) e le reti neurali artificiali (ANN). Si noti che alcuni dei metodi precedenti possono essere effettivamente utilizzati anche con la regressione.
Modelli di Serie Temporali
Un componente chiave del trading algoritmico è l’elaborazione e la previsione delle serie temporali finanziarie. Il nostro obiettivo è generalmente quello di prevedere i valori futuri delle serie temporali basate su valori precedenti o fattori esterni. Pertanto la modellizzazione delle serie temporali può essere vista come un sottoinsieme misto di regressione e classificazione. I modelli delle serie temporali differiscono dai modelli non temporali perché i modelli fanno un uso deliberato dell’ordine temporale della serie. Pertanto, i predittori sono spesso basati su valori passati o attuali, mentre le risposte sono spesso i valori futuri da prevedere.
Esiste una vasta letteratura su diversi modelli di serie temporali. Ci sono due ampie famiglie di modelli di serie temporali che ci interessano nel trading algoritmico. Il primo set è la famiglia di modelli autoregressione lineare integrata a media mobile (ARIMA), che vengono utilizzati per modellare le variazioni in valore assoluto di una serie storica. L’altra famiglia di serie temporali sono i modelli autoregressivi a eteroschedasticità condizionata (ARCH), che sono usati per modellare la varianza (cioè la volatilità) delle serie temporali nel tempo. I modelli ARCH utilizzano i valori precedenti (volatilità) delle serie temporali per prevedere i valori futuri (volatilità). Ciò è in contrasto con i modelli di volatilità stocastica, che utilizzano più di una serie temporale stocastica (cioè equazioni differenziali stocastiche multiple) per modellare la volatilità.
Tutte le serie storiche dei prezzi non elaborati sono discrete in quanto contengono valori finiti. Nel campo della finanza quantitativa è comune studiare modelli di serie temporali continue. In particolare, il famoso Geometric Brownian Motion, il modello Heston Stochastic Volatility e il modello Ornstein-Uhlenbeck rappresentano tutte serie temporali continue con diverse forme di comportamento stocastico. Utilizzeremo questi modelli di serie temporali nei prossimi articoli per tentare di caratterizzare il comportamento delle serie temporali finanziarie al fine di sfruttare le loro proprietà per creare pratiche strategie di trading.