Traffic Prediction in Telecommunications
20686020 ironic satirical illustration of a retro classic comics man with a fedora and a modern smartphone Una azienda di telecomunicazioni è interessata ad analizzare il comportamento di ciascun cliente rel...
2017
30/11
 
  Partecipanti 18 Sottomissioni 402  
 

Una azienda di telecomunicazioni è interessata ad analizzare il comportamento di ciascun cliente relativo al suo traffico telefonico.

Per un insieme di clienti, si vuole prevedere il traffico per il prossimo mese (numero di secondi totali di chiamate in uscita effettuati nel mese) utilizzando i dati a disposizione fino ad oggi (i 9 mesi precedenti).

Massimizzare 1 – SSfit / SS0

dove

SSfit = sum [ log(y) – log(yhat) ]^2
SS0 = sum [ log(y) – mean(log(y)) ]^2

La classifica temporanea (leaderboard) si basa su metà delle osservazioni presenti nel Test Set, la classifica finale fornita al termine della competizione si baserà sull’altra metà.

Training Set = 10179 osservazioni
Test Set = 10180 osservazioni

###import dati
train <- read.csv(“train.csv”, header=TRUE)
test <- read.csv(“test.csv”, header=TRUE)

###stima del modello
fit <- lm( log(y) ~ . , data=train)

###previsione
yhat <- exp( predict(fit, newdata=test) )
summary(yhat)
###yhat <- pmax(yhat, 0.5) # da usare se ci sono previsioni <= 0

###creazione del file con le previsioni da sottomettere
write.table(file=“mySubmission.txt”, yhat)

VARIABILE RISPOSTA
y = durata totale mensile (in secondi) delle chiamate in uscita nel decimo mese

VARIABILI ESPLICATIVE

piano.tariff = piano tariffario del cliente
metodo.pagamento = metodo di pagamento
sesso = sesso del cliente
etacl = età
zona.attivaz = zona geografica di attivazione
canale.attivaz = canale di vendita per attivazione
vas1 = presenza di un primo servizio a valore aggiunto
vas2 = presenza di un secondo servizio a valore aggiunto

Per ciascun mese (9 mesi disponibili), indicato dalla prima parte del nome della variabile (q01, q02, …, q9) sono disponibili le seguenti variabili:

q_nn_.out.ch.peak = numero totale mensile di chiamate in uscita nelle ore in cui la tariffa è più elevata
q_nn_.out.dur.peak = durata totale mensile delle chiamate in uscita nelle ore in cui la tariffa è più elevata
q_nn_.out.val.peak = valore totale mensile delle chiamate in uscita nelle ore in cui la tariffa è più elevata
q_nn_.out.ch.offpeak = numero totale mensile di chiamate in uscita nelle ore in cui la tariffa è meno elevata
q_nn_.out.dur.offpeak = durata totale mensile delle chiamate in uscita nelle ore in cui la tariffa è meno elevata
q_nn_.out.val.offpeak = valore totale mensile delle chiamate in uscita nelle ore in cui la tariffa è meno elevata
q_nn_.in.ch.tot = numero totale mensile di chiamate in entrata
q_nn_.in.dur.tot = durata totale mensile delle chiamate in entrata
q_nn_.ch.sms = numero totale mensile di SMS inviati
q_nn_.ch.cc = numero mensile di chiamate al Servizio di Assistenza Clienti




Training Set train.csv
3 MB
Test Set test.csv
3 MB
Per partecipare bisogna prima autenticarsi
# Nome Punteggio Prove Ultima prova
1 f.peraro PARZIALE 63.11% 33 25.01.2015
18:37
2 f.locatelli8 PARZIALE 63.11% 18 26.01.2015
09:29
3 f.bassani5 PARZIALE 63.07% 19 25.01.2015
19:01
4 loiodice.chiara PARZIALE 63.04% 5 26.01.2015
17:13
5 f.giannini PARZIALE 62.83% 5 26.01.2015
17:18
6 g.conti10 PARZIALE 62.76% 41 26.01.2015
18:23
7 danesemichele PARZIALE 61.32% 23 25.01.2015
12:06
8 riccardoaltura PARZIALE 60.75% 37 26.01.2015
18:44
9 cale23 PARZIALE 60.20% 17 25.01.2015
20:20
10 resma PARZIALE 59.91% 30 26.01.2015
17:42
11 c.lauri PARZIALE 59.46% 13 26.01.2015
16:50
12 ale.fezza PARZIALE 57.66% 45 26.01.2015
17:06
13 r.fileppo PARZIALE 57.63% 16 26.01.2015
19:46
14 c.rossini3 PARZIALE 57.04% 4 22.01.2015
23:36
15 solari.aldo PARZIALE 50.72% 33 21.01.2015
11:53
16 mat.steo PARZIALE 18.34% 62 26.01.2015
18:54