L’85% dei CEO esige dai supervisor senior di produrre informazioni data-driven su cui fondare le attività di innovazione, ha scritto IDC nel suo “FutureScape: Worldwide Way forward for Digital Innovation 2023 Predictions”. Nel 2024 il ruolo della conoscenza estratta dai dati è quanto mai attuale. La natura dei massive knowledge continua a cambiare, e una loro quota crescente è generata nel cloud: il 32% nel 2027, secondo le stime di “Worldwide IDC World DataSphere Forecast, 2023-2027”, contro il 17,5% nel 2022. Proprio il cloud sta modificando le tecnologie del knowledge administration: la diffusione delle soluzioni public cloud – fondamentalmente, quelle dei grandi fornitori americani – spinge l’evoluzione dal knowledge warehouse al knowledge lake fino al knowledge lakehouse. In ogni caso l’obiettivo è estrapolare conoscenza con tecniche che vanno dalla enterprise intelligence (BI), agli analytics fino all’intelligenza artificiale (IA).
In generale, i CIO in Italia tendono a mantenere il knowledge warehouse se i dati della loro azienda sono strutturati e in quantità non voluminose, mentre il knowledge lake è la scelta più o meno obbligata per chi ha a che fare con dati non strutturati. In molti casi le due soluzioni si affiancano per rispondere alle esigenze di analisi e visualizzazione di entrambi i tipi di dati. Il knowledge lake, per esempio, si presta alla manipolazione delle informazioni in tempo reale o ultra-reale, che sono il 22% dei nuovi dati creati, secondo IDC.
I dati in streaming, invece, che rappresentano il 75% del totale dei nuovi dati, sono destinati idealmente al Ddta lakehouse, il nuovo sistema di knowledge administration la cui adozione è facilitata dall’utilizzo del public cloud, come spiega Stefano Gatti, esperto del settore e curatore della e-newsletter LaCulturadelDato.
Dal knowledge warehouse al knowledge lake
Le due soluzioni del knowledge warehouse e del knowledge lake sono molto various tra loro, evidenzia Gatti. La prima riguarda il primo dei sistemi IT dell’period della manipolazione dal dato, con infrastrutture di supporto spesso ancora on-premise. In seguito, sull’onda del net 2.0, si è fatto strada il knowledge lake ai fini di estrarre valore dai massive knowledge non strutturati. Ma la differenza è anche nella filosofia sottostante e negli obiettivi.
“Nel knowledge warehouse prevale il metodo, si analizzano dati di enterprise, finanziari, di prodotto e simili, che richiedono maggiore precisione. Nel knowledge lake, invece, prevale la logica di innovazione”, afferma Gatti. “Di conseguenza, nell’ambito della gestione dei dati a fini analitici, il knowledge warehouse ha un focus più su applicazioni di reporting, mentre il knowledge lake si configura piuttosto come un laboratorio di sperimentazione per knowledge scientist e knowledge analyst, adatto advert aree inventive, come il advertising and marketing. Entrambe le soluzioni oggi possono mostrare dei limiti: nel knowledge warehouse il campo è molto circoscritto, mentre nel knowledge lake si rischia di perdere la direzione dello sforzo di innovazione e la capacità di arrivare a un’applicazione di valore su larga scala”.
Il knowledge lakehouse, che unisce i pregi e supera i limiti dei due modelli, rappresenta secondo Gatti una “evoluzione darwiniana di knowledge warehouse e knowledge lake”. Ma per i CIO italiani non si prescinde dalla pratica, ovvero dalla domanda chiave: di che cosa ho veramente bisogno?