Storj è entusiasta di unire le forze con Petagene/cunoFS.
Traduzione effettuata da Deepl pro
Storj ha recentemente annunciato l'acquisizione di PetaGene, un'azienda dinamica con un team di esperti di file storage di talento con sede a Cambridge, nel Regno Unito. PetaGene è il creatore del client di mount per il file storage distribuito cunoFS. Sulla scia dell'acquisizione di Valdi, annunciata a luglio, voglio cogliere l'occasione per condividere ulteriori informazioni sull'acquisizione di PetaGene alla luce di quanto segue:
- La strategia in evoluzione di Storj come fornitore di servizi cloud per carichi di lavoro distribuiti
- Quello che PetaGene e cunoFS forniscono
- Quello che questo significa per lo storage distribuito in generale
- Quello che significa per i nostri clienti nei settori video, media e intrattenimento
- Quello che significa per i nostri clienti nei settori AI/ML
La strategia in evoluzione di Storj.
Per chi conosce la storia del cloud, Amazon Web Services è stato lanciato quasi vent'anni fa. Uno dei primi servizi lanciati è stato lo storage di oggetti (S3). In seguito, AWS ha ampliato la propria offerta con l'archiviazione di file, il calcolo elastico (EC2) e altro ancora. Quando Storj v3 è stato lanciato nel 2021, includeva la compatibilità con S3. Tuttavia, c'erano importanti differenze. In primo luogo, abbiamo costruito fin dall'inizio un'infrastruttura distribuita, sfruttando in modo efficiente unità e server sottoutilizzati in tutto il mondo, anziché costruire centri dati. Crittografando e distribuendo frammenti di dati, abbiamo offerto prestazioni, sicurezza, costi ed efficienza di carbonio superiori. In secondo luogo, abbiamo ottimizzato il nostro progetto per i carichi di lavoro distribuiti. Al momento del lancio di AWS, i carichi di lavoro erano principalmente centralizzati e quindi l'elaborazione in un grande centro dati centralizzato aveva senso. All'inizio di quest'anno abbiamo iniziato a espandere la nozione di servizi cloud distribuiti per carichi di lavoro distribuiti al di là dell'archiviazione e dell'uscita degli oggetti, aggiungendo i servizi di calcolo distribuito e GPU di Valdi. Come Storj aveva fatto per lo storage, Valdi è stato il pioniere del modello di utilizzo efficiente delle risorse di calcolo e GPU già distribuite. Come Storj, Valdi si è concentrata sui mercati che utilizzano al meglio i carichi di lavoro distribuiti: AI, calcolo scientifico e media.
Cosa offrono PetaGene e cunoFS.
Oltre ad aver messo insieme un team di eccezionale talento, PetaGene ha sperimentato una tecnologia incredibile. cunoFS è un client di mount per file storage ad alte prestazioni che consente ai clienti di interagire con lo storage a oggetti come se fosse un file system nativo veloce, con compatibilità POSIX in grado di eseguire qualsiasi applicazione nuova o esistente.
cunoFS funziona con la maggior parte dei principali sistemi di storage a oggetti, tra cui AWS S3 e Azure Blob Storage, nonché con object store on-premise come minIO, Dell ECS e NetApp StorageGRID. Naturalmente, cunoFS funziona benissimo anche con Storj! E cunoFS supporta combinazioni eterogenee di questi servizi. Siamo entusiasti di questa capacità di supportare carichi di lavoro eterogenei. I clienti potranno continuare a utilizzare cunoFS con o senza Storj object storage come back end. Inoltre, grazie al design unico di cunoFS (compresa la scelta di non avere un server di metadati centralizzato), cunoFS è estremamente performante. Nei nostri test, la sua velocità ha battuto tutte le alternative di un ordine di grandezza, raggiungendo prestazioni fino a 50 Gbps per nodo e oltre 10 Tbps di throughput aggregato. cunoFS cambia radicalmente il modo in cui viene utilizzato lo storage a oggetti, trasformandolo in un livello diretto di prima classe per l'accesso ai file POSIX, in cui sia i carichi di lavoro POSIX che quelli nativi degli oggetti possono accedere direttamente allo storage a oggetti. cunoFS fa questo senza introdurre alcun gateway e senza scrambling dei dati: ogni file è direttamente memorizzato come un oggetto e ogni oggetto è direttamente accessibile come un file.
Cosa significa questo per lo storage distribuito in generale.
In generale, esistono tre tipi principali di sistemi di storage: storage a blocchi (principalmente per i database), storage a file e storage a oggetti. Con l'integrazione di cunoFS nella nostra offerta, i clienti Storj di tutti i settori potranno ora utilizzare Storj per applicazioni basate sullo storage di file oltre che sullo storage di oggetti. Questo amplia notevolmente i casi d'uso e i clienti per i quali Storj è un'ottima scelta. Poiché cunoFS funziona su un insieme eterogeneo di soluzioni e lo storage distribuito è intrinsecamente globale e trasversale ai data center, questa acquisizione espande ulteriormente l'utilità delle nostre offerte di storage distribuito, calcolo e GPU. Infine, cunoFS dispone di client Linux e Windows (un client MacOS è previsto per la fine dell'anno). In questo modo, i clienti possono passare facilmente all'uso di Storj con un'interfaccia familiare basata su "file e cartelle". (Per quanto amiamo lo storage a oggetti, la maggior parte delle persone è più incline a pensare a file e cartelle con nomi).
Dato
- l'enorme vantaggio in termini di prestazioni che cunoFS ha rispetto ad altri file mount (vedere la Tabella 2 qui sotto per i benchmark di cunoFS eseguiti su AWS S3) e
- gli enormi vantaggi in termini di prestazioni globali che Storj offre rispetto agli hyperscaler per i carichi di lavoro multimediali (vedere la Tabella 3 qui sotto per le prestazioni dello storage Storj rispetto ad AWS e ad altri hyperscaler
Siamo estremamente entusiasti di vedere cosa significhi questa combinazione per le prestazioni complessive!
Cosa significa questo per i clienti del settore video.
La produzione, la post-produzione e il consumo di video sono carichi di lavoro intrinsecamente distribuiti. Non sorprende quindi che il settore video sia emerso come uno dei due principali mercati verticali di Storj. Al giorno d'oggi, la produzione di media in remoto sta diventando la norma: è molto probabile che un determinato prodotto multimediale sia lavorato da team distribuiti in zone lontane come Burbank, Bollywood e Berlino. Lo storage a oggetti distribuito di Storj permetteva già a tutti questi team di accedere, caricare, scaricare e modificare file multimediali di grandi dimensioni in modo performante. Con cunoFS, ora possono farlo senza introdurre alcun gateway e senza un'interfaccia personalizzata. Anche in questo caso, ogni file è direttamente memorizzato come un oggetto e ogni oggetto è direttamente accessibile come un file.
I vantaggi principali includono:
- Nessuna prigione di contenuti.
- Nessun formato di file proprietario
- Prestazioni scattanti. Indipendentemente dalle dimensioni del progetto video.
- Caching intelligente per risparmiare tempo e denaro.
- Un'unica fonte di verità.
Cosa significa questo per i clienti che innovano nell'IA.
Anche se non se ne parla spesso, l'archiviazione è fondamentale per la formazione dell'IA. (Man mano che i modelli crescono e includono l'addestramento su grandi quantità di immagini, video e testi, la quantità di dati cresce in modo significativo. L'integrazione di cunoFS nel nostro ecosistema segna una tappa significativa nel nostro obiettivo di rivoluzionare l'infrastruttura cloud per l'IA. cunoFS consente un caricamento performante con una previsione intelligente di ciò che sarà necessario in anticipo. Combinando lo storage distribuito e le capacità delle GPU di Storj con il file mount ad alte prestazioni di cunoFS, stiamo creando una piattaforma senza precedenti per l'addestramento e la distribuzione di modelli linguistici di grandi dimensioni come LLaMA, GPT-4 e altri.
I vantaggi principali dell'integrazione Storj-cunoFS per l'addestramento di LLM includono:
- Maggiore velocità di elaborazione dei dati, fondamentale per l'addestramento efficiente di modelli di grandi dimensioni
- Maggiore scalabilità per gestire i set di dati in continua crescita necessari per l'IA avanzata
- Soluzioni di archiviazione e calcolo economiche per carichi di lavoro di IA ad alta intensità di risorse
- Maggiore sicurezza e privacy dei dati, essenziale per proteggere i preziosi dati di addestramento dell'IA
Maggiori dettagli su cunoFS e sulle nostre soluzioni di IA saranno contenuti in un prossimo blog del nostro CTO, Jacob Willoughby.
Altri vantaggi dell'acquisizione.
Oltre a cunoFS, il team di PetaGene possiede anche una serie di competenze sulla gestione dei carichi di lavoro scientifici. Prima di sviluppare cunoFS, PetaGene ha sviluppato prodotti per la compressione dei dati genomici, che possono ridurre i costi di archiviazione e i tempi di trasferimento dei dati del 60-90%. Storj continuerà a supportare queste tecnologie.
I clienti di PetaGene includono importanti istituti di ricerca, aziende farmaceutiche e ospedali, che utilizzano i loro prodotti per gestire collettivamente 100 petabyte di dati. Storj continuerà a servire questi clienti, con la speranza di estendere la suite di servizi che utilizzano per includere lo storage distribuito e il calcolo distribuito/GPU.
Tutti i dipendenti di PetaGene entreranno a far parte di Storj. La stessa PetaGene continuerà a essere una società interamente controllata. Non è stato utilizzato alcun token in questa transazione.
Fonte : Storj - 8 ottobre 2024