Google otwiera źródło narzędzia do analizy danych. "Liczy się prywatność"
Google zdecydowało się na otwarcie kodu biblioteki odpowiedzialnej za anonimizację danych telemetrycznych. Oficjalnie firma chce pomóc innym organizacjom przetwarzającym duże zbiory danych. Ciężko jednak nie ulec wrażeniu, że jest to zarazem zagrywka marketingowa, mająca na celu odparcie zarzutów o szpiegostwo użytkowników.
05.09.2019 16:35
Jak wynika z oficjalnych deklaracji, każdy zbiór danych telemetrycznych w Google'u jest anonimizowany. Mówiąc wprost, przetwarzany w sposób taki, aby uniemożliwić powiązanie danych z konkretnymi osobami. Spółka stosuje w tym celu technikę zwaną prywatnością różnicową.
Czym jest prywatność różnicowa? Chodzi o dodanie do zbioru danych szumu generowanego matematycznie. Taki szum oddaje wzorce, ale jest niemożliwy do bezpośredniego odczytu. Algorytm bezproblemowo zliczy odsetek określonych przypadków, ale już nie powiąże ich z nazwiskami czy danymi teleadresowymi. Google wyjaśnia na przykładzie:
Anonimizacja a uogólnienie
Oczywiście prywatność różnicowa to tylko jedna z technik, które powszechnie stosuje się do anonimizacji danych. Samo Google, poza ścisłą kontrolą pracowników i obowiązujących wewnątrz firmy zasad, chwali się uogólnianiem danych przez tzw. k-anonimizację. Technika ta polega na budowaniu podzbiorów z rekordów o cechach wspólnych.
Załóżmy, że w jakiejś bazie danych znajduje się 100 warszawiaków. Wtedy na każdego mieszkańca stolicy przypada 99 innych osób o wspólnym wykładniku. Algorytm tym samym nie jest w stanie ustalić tożsamości konkretnej osoby bazując wyłącznie na informacji o miejscu zamieszkania.
TensorFlow Privacy
Otwarcie kodu algorytmu prywatności różnicowej dla administratorów baz danych nie jest pierwszą zagrywką tego typu ze strony Google'a. W marcu firma z Mountain View podzieliła się kodem biblioteki TensorFlow Privacy, implementującej anonimizację w procesie nauczania modeli sztucznej inteligencji tak, aby te również nie mogły ustalać tożsamości danych osób w próbce.
– Ten rodzaj analizy można wdrożyć na wiele różnych sposobów i do wielu różnych celów – pisze Miguel Guevara, menedżer produktu Google w departamencie prywatności i ochrony danych, na blogu. – Na przykład, jeśli jesteś lekarzem, możesz porównać średni czas pozostawania pacjentów w różnych szpitalach w celu ustalenia, czy istnieją różnice w opiece. Prywatność różnicowa jest wysoce analitycznym środkiem zapewniającym, że przypadki użycia takie jak ten są rozpatrywane w sposób chroniący prywatność – tłumaczy Guevara.
Apple też się tym chwaliło
Ciekawostką jest, że wykorzystaniem prywatności różnicowej swego czasu intensywnie chwaliło się Apple. Miało to miejsce w okolicach premiery iOS 10. Producent iPhone'ów, jak wówczas głosił, wykorzystał właśnie tę technikę w celu anonimizacji danych telemetrycznych pobieranych ze swych smartfonów i tabletów. Oszczędził jednak detali.
Tymczasem kod algorytmu należącego do Google'a można znaleźć na GitHubie.