Bee-thon
Logo Benvenuto al primo bee-thon!
Il contest si svolge il 30 maggio 2014 dalle ore 15.00 presso il tal...
2014
28/05
 
  Partecipanti 9 Sottomissioni 55  
 

Benvenuto al primo bee-thon!

Il contest si svolge il 30 maggio 2014 dalle ore 15.00 presso il talent-lab in Via Monselice, 15 a Padova.
La chiusura del contest è prevista per le ore 19.00

maggiori informazioni su: Bee-thon

R2=1-sum(residui^2)/sum((Y-Ybar)^2)

Il partial score è basato su 25 000 osservazioni del test set
Il (final) score è basato sulle complessive 100 000 osservazioni del test set.

Apertura delle submission ore 15.00 del 30 maggio 2014

Chiusura della competizione alle ore 19.30.

#An R example

#load the data
trainingSet=read.csv(‘trainingSet.csv’)
testSet=read.csv(‘testSet.csv’)

str(trainingSet)

#fit the model:
library(rpart)
mod <- rpart(ArrDelay ~ . , data=trainingSet)

#predict the ArrDelay of test data:
predictedTestSet=predict(mod,newdata=testSet)

#write the file to be submitted:
write.table(file=‘mySubmission.txt’,predictedTestSet)

L’agenzia governativa RITA (Research and Innovative Technology Administration) controlla il traffico aereo negli Stati Uniti.
Tale agenzia predispone annualmente un dataset in cui per ogni volo effettuato sono disponibili alcune informazioni:

Nome Descrizione

1 Year anno: 1987
2 Month mese: 1-12
3 DayofMonth giorno: 1-31
4 DayOfWeek giorno della settimana: 1 (Luned“) – 7 (Domenica)
5 DepTime orario di partenza effettivo (locale, hhmm)
6 CRSDepTime orario di partenza previsto (locale, hhmm)
7 CRSArrTime orario di arrivo previsto (locale, hhmm)
8 UniqueCarrier codice unico della compagnia aerea
9 FlightNum numero del volo
10 TailNum numero della coda del volo
11 AirTime tempo di volo in minuti
12 ArrDelay ritardo all’arrivo, in minuti
13 DepDelay ritardo alla partenza, in minuti
14 Origin Codice IATA dell’aeroporto di origine
15 Dest Codice IATA dell’aeroporto di destinazione
16 Distance Distanza in miglia
17 TaxiIn tempo di “taxi in”, in minuti
18 TaxiOut tempo di “taxi out”, in minuti
19 Cancelled indicatore di cancellazione del volo (1 = cancellato, 0 = non cancellato)
20 CancellationCode codice di cancellazione (A = carrier, B = weather, C = NAS, D = security)
21 Diverted indicatore di deviazione del volo (1 = deviato, 0 = non deviato)
22 CarrierDelay ritardo causato dalla compagnia aerea, in minuti
23 WeatherDelay ritardo causato dal tempo atmosferico, in minuti
24 NASDelay ritardo causato da NAS, in minuti
25 SecurityDelay ritardo causato da motivazioni di sicurezza, in minuti
26 LateAircraftDelay ritardi precedenti dell’aereo, in minuti

Nel file 1987.csv sono disponibili i dati relativi ai 1311826 voli effettuati nel 1987. Tuttavia alcune delle variabili elencate potrebbero non essere presenti nel dataset di quell’anno.
E’ di interesse costruire un modello per prevedere il ritardo dei voli, in particolare per identificare se esistono delle combinazioni di compagnie aeree ed aeroporti caratterizzate da maggiori ritardi in media.




Training Set trainingSet.csv.zip
10 MB
Test Set testSet.csv.zip
2 MB
Per partecipare bisogna prima autenticarsi
# Nome Punteggio Prove Ultima prova
1 dario.solari FINALE 77.99% 8 30.05.2014
18:24
2 riccardo.corradin FINALE 77.99% 6 30.05.2014
18:24
3 Student FINALE 75.60% 13 30.05.2014
18:27
4 francescocontin FINALE 75.05% 11 30.05.2014
18:18
5 benchmark FINALE 72.49% 1 30.05.2014
07:54
6 frodobytheshire FINALE 72.47% 8 30.05.2014
18:20
7 sallypaganin FINALE 64.79% 6 30.05.2014
18:23
8 cax_kiks FINALE 64.29% 2 30.05.2014
17:10