MapReduce di attuazione in Scala

Mi piacerebbe trovare una buona e robusta framework MapReduce, per essere utilizzato da Scala.

 

7 Replies
  1. 30

    Per aggiungere alla risposta su Hadoop: ci sono almeno due Scala wrapper che rendono il lavoro con Hadoop più appetibile.

    Scala Ridurre la Mappa (SMR): http://scala-blogs.org/2008/09/scalable-language-and-scalable.html

    SHadoop: http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html

    UPD 5 ott. 11

    C’è anche Scoobi quadro, che è impressionante espressività.

  2. 3

    http://hadoop.apache.org/ è indipendente dalla lingua.

    • Mi dispiace ma non ho chiesto per l’implementazione Java. Infatti, Hadoop può essere inserito in Scala, ma il codice standard devono essere scritti in Java.
    • Scrivi un ScalaHadoopAdapter che si prende cura di tutti gli standard di pubblicare free/open-source?
    • boilerplate che non ha bisogno di essere scritto in java.
  3. 3

    Personalmente, sono diventato un grande fan di Scintilla

    http://spark-project.org/

    Hai la possibilità di fare in memoria del cluster computing, riducendo in modo significativo il sovraccarico si verifica dal intensivo del disco mapreduce operazioni.

  4. 2

    Un po ‘indietro, mi sono imbattuto in questo problema e finito per scrivere un po’ di infrastrutture per rendere più facile l’utilizzo di Hadoop da Scala. Io l’ho usato sul mio per un po’, ma sono finalmente riuscito a mettere su il web. Si chiama (molto originale) ScalaHadoop.

  5. 2

    Per una scala di API in cima hadoop check out Scoobi, è ancora in fase di sviluppo, ma mostra un sacco di promesse. C’è anche un po ‘ di sforzo per implementare collezioni distribuite sulla cima di hadoop in Scala incubatore, ma che lo sforzo non è utilizzabile sicurezza.

    C’è anche una nuova scala wrapper per il collegamento in cascata, da Twitter, chiamato Scottature.
    Dopo aver cercato molto brevemente la documentazione per Scottature sembra
    che, mentre si fa l’integrazione con cascata più liscia ancora non
    non a risolvere quello che per me è il problema principale con cascata: tipo di sicurezza.
    Ogni operazione in cascata opera di propagazione della tuple (in pratica, un
    elenco di valori in campo, con o senza uno schema separato), il che significa che
    tipo di errori, I. e. Entrare in una chiave come Stringa e la chiave di una Lunga porta
    a run-time fallimenti.

    • Scottature non sono un tipo sicuro di API: github.com/twitter/scalding/wiki/Type-safe-api-reference e nei Campi di API (che si sono ricordare), si unisce a una stringa lunga non causa eccezioni runtime (se sono entrambi numeri). Naturalmente, il type-safe API, ad un join è vietato dal compilatore.
  6. 1

    per ulteriori jshen punto:

    hadoop streaming semplicemente utilizza i socket. utilizza unix flussi, il codice (qualsiasi lingua) deve semplicemente essere in grado di leggere da standard input e di output delimitato da tabulazione dei flussi. implementare un mapper e, se necessario, un riduttore (e, se del caso, configurare il combiner).

Lascia un commento