Denis Cassinerio, Regional Sales Director SEUR Bitdefender, spiega l’importanza del machine learning per l’analisi comportamentale e il rilevamento delle anomalie.
L’approccio ibrido che fonde apprendimento umano e machine learning ha dimostrato i migliori risultati per la formazione di modelli accurati davvero efficaci nell’ambito della sicurezza informatica.
Come evidenziato dal Rapporto Clusit 2019, l’anno passato è stato il peggiore di sempre in termini di evoluzione delle minacce informatiche e dei relativi impatti, non solo dal punto di vista quantitativo ma anche e soprattutto da quello qualitativo, con un trend di crescita degli attacchi, della loro gravità e dei danni conseguenti mai registrato in precedenza. Nell’ultimo biennio il tasso di crescita del numero di attacchi gravi è aumentato di 10 volte rispetto al precedente. Non solo, il livello medio di gravità di questi attacchi è contestualmente peggiorato, agendo da moltiplicatore dei danni. Dal punto di vista numerico, nel 2018 sono stati raccolti e analizzati 1.552 attacchi gravi (+ 37,7% rispetto all’anno precedente), con una media di 129 attacchi gravi al mese (rispetto ad una media di 94 al mese nel 2017, e di 88 su 8 anni).
Tutte le aziende che desiderano un più rapido processo di rilevazione e mitigazione delle minacce informatiche per evitare che abbiano un impatto significativo sulla loro attività, dovrebbero adottare il machine learning, che si basa sull’analisi dei comportamenti e il rilevamento delle anomalie. Affidandosi all’intelligenza artificiale per identificare attività o comportamenti di rete sospetti, il machine learning è in grado di adattarsi sia alle esigenze aziendali che alle nuove minacce.
Bitdefender sviluppa e utilizza algoritmi brevettati di apprendimento automatico dal 2009, mettendoli a punto e migliorandoli costantemente per rilevare in modo proattivo malware nuovi e mai osservati in precedenza. Con oltre 15 anni di esperienza nello sviluppo di tecnologie di sicurezza informatica, Bitdefender ha implementato con successo il machine learning nei propri prodotti molto tempo prima che diventassero popolari nel settore.
La rete aziendale è prevedibile
Partendo dal presupposto che la rete aziendale è prevedibile, l’implementazione di tecnologie di analisi del comportamento richiedono innanzitutto un attento studio del comportamento stesso della rete aziendale per capirne le dinamiche abituali. In seguito, qualsiasi elemento nuovo, diverso o fuori dall’ordinario che non rispetti appunto l’abituale modo di comportarsi appreso durante lo studio della rete, sarà segnalato ai responsabili IT.
Tuttavia, è importante notare che è possibile utilizzare queste tecnologie per individuare sia nuovi processi sospetti per quella rete, sia comportamenti anomali. Ad esempio, dopo un periodo di apprendimento, il sistema di machine learning può creare un database delle previsioni che includerà tutte le applicazioni note distribuite in azienda.
Quindi, cosa succede al Database delle Previsioni quando un’applicazione utilizzata in azienda viene aggiornata, dopo che il processo di apprendimento è stato completato? È allora che l’adattamento alle variazioni interviene e il machine learning entra in azione e dimostra il suo valore. Infatti, quando l’applicazione aggiornata viene eseguita per la prima volta all’interno dell’azienda, il modulo di rilevamento del machine learning controlla se il Database delle Previsioni contiene l’applicazione lanciata. Se non viene trovata una corrispondenza perfetta, verrà applicato un fattore di somiglianza che stima statisticamente le probabilità che l’applicazione sconosciuta sia simile a qualcosa già presente nel database. Se tale percentuale di somiglianza supera una soglia specifica, l’applicazione viene considerata attendibile e il Database delle Previsioni viene aggiornato. Se il punteggio di somiglianza è inferiore alla soglia, l’applicazione viene messa in quarantena e l’amministratore IT ne viene informato.
Profilazione delle applicazioni con il machine learning
La profilazione di applicazioni con il machine learning richiede l’uso di vari algoritmi, come alberi di decisione binari, reti neurali e algoritmi genetici, ma tutto inizia con la creazione di un modello che può essere utilizzato per una rilevazione accurata. Poiché un modello è in realtà un’equazione matematica generata automaticamente che soddisfa una serie di condizioni note associabili a un file pericoloso, il suo scopo è quello di stimare statisticamente le possibilità che un file sconosciuto o mai visto prima sia dannoso.
Tra gli algoritmi di apprendimento automatico, le reti neurali sono quelle più comunemente usate, in quanto possono estrarre le caratteristiche dei file per ottenere dei dettagli più precisi – come il formato del file, le informazioni sull’emulatore, il tipo di compilatore utilizzato e molto altro – e trasformare queste caratteristiche in numeri. Naturalmente, non tutte le caratteristiche sono utilizzate per addestrare un modello, ma solo un sottoinsieme di esse può effettivamente produrre risultati molto accurati. Tutte queste caratteristiche sono collocate in matrici N-dimensionali, dove N rappresenta il numero di caratteristiche, e generano equazioni (o modelli) molto complesse che identificano accuratamente i campioni sconosciuti come dannosi o meno, in base al risultato dell’equazione.
In parole semplici, se un file sconosciuto raggiunge il perimetro di un’azienda e finisce per essere inserito in un algoritmo di machine learning che utilizza tali modelli, il file viene testato per verificare se risolve una serie di equazioni matematiche note per essere risolte solo da file o applicazioni dannose.
Il machine learning è affidabile negli ambienti aziendali?
Mentre l’utente medio ha in genere un comportamento imprevedibile quando si tratta delle sue attività online e con il PC, l’ambiente aziendale – dal traffico di rete all’attività degli endpoint – può tranquillamente considerarsi prevedibile, e quindi è possibile seguire un modello di comportamento di riferimento. Grazie al machine learning si può quindi fare una verifica all’interno delle grandi quantità di dati per fare un’analisi “guidata” – o statisticamente accurata – che consenta di capire se si sta verificando qualcosa di anomalo.
Mentre il modello di apprendimento può richiedere un certo lasso di tempo, l’espressione risultante (o equazione, come precedentemente indicato) ha solitamente una dimensione di solo un paio di kilobyte, il che significa che è davvero veloce da calcolare e occupa una quantità di memoria molto ridotta. Naturalmente, è sempre consigliabile avere più modelli specificamente addestrati per analizzare comportamenti specifici, in quanto possono coprire un’ampia gamma di potenziali vettori di attacco, segnalando ai team di sicurezza minacce imminenti e potenziali.
L’affidabilità degli algoritmi e dei modelli di machine learning incentrati sulla sicurezza si basano sull’esperienza del fornitore di servizi di sicurezza informatica. Questo perché l’esperienza fornisce una comprensione più profonda di come si comporta il malware e perché i ricercatori di sicurezza che sono coinvolti nella continua formazione e nella messa a punto dei modelli di machine learning hanno esperienza sul campo con il comportamento degli attacchi informatici e dei file dannosi.
L’unione tra apprendimento umano e automatico è vitale per la formazione di modelli accurati di machine learning, e le aziende possono beneficiare di grandi vantaggi lavorando con aziende del settore della sicurezza tecnologica che da anni sono attivamente coinvolte nello sviluppo dell’apprendimento automatico.
Automatizzare le decisioni in materia di sicurezza informatica sulla base dell’esperienza precedente
A causa del rapido ritmo con cui abbiamo integrato i software nella nostra vita e nelle nostre aziende, potenziare la sicurezza informatica con l’intelligenza artificiale non solo è consigliato ma obbligatorio. Per molti versi, il machine learning è di gran lunga migliore e più veloce degli esseri umani nell’identificare i modelli all’interno di un grande volume di dati, soprattutto perché ora abbiamo a che fare con 6,4 miliardi di dispositivi connessi a Internet che “parlano” costantemente con noi e tra di noi. Poiché attualmente viviamo in un mondo in cui ci sono quasi 400.000 nuovi programmi dannosi che vagano quotidianamente su Internet, non è possibile che sia l’uomo ad analizzare ognuno di essi. La fusione tra l’uomo e l’intelligenza artificiale non solo aiuta a rilevare e combattere minacce nuove e sconosciute, ma riduce anche il tempo necessario per reagire ad esse.
Il ruolo fondamentale dell’intelligenza artificiale nella sicurezza è che è in grado di riconoscere i modelli che emergono dalle esperienze passate e di fare previsioni basate su di esse. Il trucco è quello di “istruire” gli algoritmi di machine learning per fare previsioni basate su statistiche che abbiano un livello di accuratezza il più possibile vicino al 100%. Un altro modo di usare l’intelligenza artificiale è quello di suddividere grandi quantità di dati in piccoli gruppi di informazioni dall’aspetto simile, in modo che un essere umano possa intervenire e analizzarle manualmente. Tuttavia, l’obiettivo è quello di automatizzare completamente il processo di corretta identificazione di un eventuale nuovo malware, in modo che gli addetti alla sicurezza possano intervenire solo con leggere modifiche all’algoritmo o miglioramenti delle prestazioni.
Mentre l’intelligenza artificiale ha il potenziale per diventare un’incredibile arma informatica automatizzata, l’approccio ibrido tra uomo e macchina ha attualmente dimostrato i migliori risultati.