*NOTA: il calcolo seguente presuppone che Hive sia solo uno dei più grandi database di Facebook. Il calcolo si basa su 4 nuovi petabyte al giorno, normalizzati sul grafico utente di Facebook. Questo non tiene conto dei cambiamenti del comportamento degli utenti nel tempo o di qualsiasi altra cosa, quindi non mi fiderei di questi numeri con la vostra vita.
"Hive è il magazzino dati di Facebook, con 300 petabyte di dati in 800.000 tabelle. Facebook genera 4 nuovi petabyte di dati ed esegue 600.000 query e 1 milione di lavori di map-reduce al giorno. Presto, HiveQL, Hadoop e Giraph sono i motori di query comuni su Hive."
Fonte: Facebook's Top Open Data Problems
Il numero di utenti di Facebook è di 1,86 miliardi.
Facebook è stato fondato il 4 febbraio 2004, che è perfettamente 5000 giorni fa dalla data in cui sto scrivendo questo post.
Ecco gli utenti attivi mensili di Facebook. Questo grafico è un po' datato, ma possiamo semplicemente creare una linea di regressione da settembre 08-ottobre 15 e fare un po' di 'edjicated guessing.'
(Nota. Sono troppo pigro, quindi mi limiterò a prendere (1550-100)/(ott15-sep08) e ad occhio)
Utilizzando il metodo note^, la pendenza è
+17,06 milioni di utenti al mese.
Assumendo 0 utenti all'Apr08, (tagliando i 'outliers') possiamo trovare che gli utenti attesi oggi sono
Che è un po' alto. Ma va bene.
Ora, dobbiamo normalizzarlo. A 1944M, fb raccoglie 4 PB di dati al giorno, che sono 120 PB/mese.
Ora, ridisegniamo il grafico
La pendenza dovrebbe essere 17.06/120=0.142
Questo significa che ogni mese da aprile 2008, la quantità di dati che facebook raccoglie al mese aumenta di 0.142.
Cosa significa questo?
Siamo a 114 mesi da aprile 2008.
Quindi integriamo la funzione e otteniamo 922 PB.
922PB/1860M di utenti è uguale a
Ed ecco fatto. Circa 500 megabyte per utente. (E i nostri numeri erano un po' alti. Inoltre, fb potrebbe avere dati segreti, quindi davvero, chi diavolo lo sa?)