Algoritmer och data

Den här guiden publicerades 2017. På Internetstiftelsens folkbildningssida internetkunskap.se hittar du nyare information om algoritmer och andra ämnen som hjälper dig att bli en säker och medveten internetanvändare.

Data utgör grunden för vad algoritmer arbetar med och därmed för vad vi tar del av på nätet. I detta kapitel redogör vi för olika sätt att beskriva data och var dessa data kommer ifrån. Avslutningsvis diskuterar vi i vilken utsträckning som vi användare kan kontrollera de data vi lämnar ut om oss själva och det vi gör på nätet.

Data i olika typer av tjänster

Algoritmer behöver data för att kunna utföra sina beräkningar och fatta beslut, exempelvis om hur olika sorters innehåll ska visas.

Hur en internettjänst finansieras påverkar vad en algoritm analys­erar. Vissa tjänster finansieras huvudsakligen genom abonnemang (Netflix, Spotify), andra genom reklamplacering (Facebook, Google). Ytterligare andra tjänster finansieras genom att de får en del av den affärstransaktion som tjänsten möjliggör (Uber, Airbnb). Därtill finns det tjänster som inte har vinstintresse, utan bygger på donation­er (Wikipedia). De olika typerna av tjänster använder sig av data på olika sätt.

Vi kan skilja mellan data som utgör innehåll i tjänster och data som samlas in genom användarnas interaktion med tjänster. I de flesta tjänster som behandlas i denna guide är data delvis skapade av användarna – så kallad användargenererade data. Det kan handla om digitala spår som vi lämnar vid sökningar på Google, ”likes” vi gör på Facebook eller betygssättningar som vi gör på Netflix.

Hur användargenerade data används skiljer sig åt mellan en tjänst som Netflix som ger tillgång till serier och filmer på abonnemangsbasis och en tjänst som Facebook som säljer reklamplats. På Netflix kombineras de med uppgifter om serier och filmer, och på Facebook kombineras de med uppgifter om användare som möjliggör riktad reklamplacering eller politiska budskap. När det gäller Google Sök utgörs data dels av dess index, dels av uppgifter om användarnas sökningar och aktiviteter i andra Google-tjänster. Användar­genererade data används i Google Sök för att förbättra relevansen för den som söker. De används också för att förbättra tjänsten genom att föreslå sökord eller kategorier. Dessa två användningsområden skriver vi mer om nedan under rubriken Personliga data och kakor.

Metadata

Ett annat sätt att beskriva olika sorters data är genom att skilja mellan data och metadata. Metadata är ett strukturerat sätt att beskriva andra data så att dessa kan hittas och hanteras.

Vi kan exemplifiera det med en receptbok. Boken har författare, förlag, utgivningsår, sidantal, fysisk storlek, ISBN-nummer, innehållsförteckning, rubriker och kanske index. Alla dessa kategorier är ­metadata som kan användas för att vi ska kunna hitta både själva boken och i bokens innehåll. Dessa uppgifter finns i nästan alla böcker och de ser ungefär likadana ut. De används också av bokhandlarna och biblioteken för att kunna hantera boken. Metadata används alltså för att beskriva data. I receptboken utgörs då dessa data av innehållet i recepten.

På Youtube ser vi ett annat exempel på betydelsen av metadata. I Google Sök söker du på ett index skapat av bland annat innehållet, det vill säga texten, på webbsidor. På Youtube består innehållet av filmklipp av olika längd som det är svårt att söka på om det inte finns metadata eftersom innehållet inte är textbaserat (med undantag för eventuell textning). När ett nytt filmklipp laddas upp behöver det alltså beskrivas med titel, innehåll och nyckelord. Senare i ett filmklipps livstid kompletteras dessa medvetet formulerade metadata med metadata som skapas automatiskt genom till exempel antal visningar och visningstid. Med visningstid menas hur mycket tid som går innan människor stänger av eller klickar vidare. Beroende på algoritmernas utformning viktas ordningen på filmklippen utifrån innehållet i metadata, snarare än på innehållet i själva filmen.

Ett kraftfullt exempel på metadatas betydelse såg vi då vissel­blåsaren Edward Snowden överlämnade uppgifter om USA:s bevakning av telefontrafik till utvalda nyhetsmedier. Snowdens uppgifter visade på en omfattande insamling av data. Dessa data var inte främst innehållet i telefonsamtal, utan metadata om samtalen. Det handlade bland annat om längd på samtal, när samtalen ägde rum och mellan vilka personer.8 Med en sådan massiv övervakning är det omöjligt att lyssna igenom alla samtal. I stället används metadata som kan sökas igenom med hjälp av algoritmer. Den före detta ­chefen för både CIA och NSA, Michael Hayden, uttrycker betydelsen av metadata med följande ord: ”Vi dödar människor baserat på meta­data”.9

Personliga data och kakor

Sökmotorer och sociala nätverkstjänster använder sig av olika former av personalisering. Med personalisering syftar vi här på hur sökresultat och nyhetsflöden anpassas beroende på vem användaren är och var han eller hon befinner sig.

Personalisering kräver att det finns information om användaren. Det rör sig både om data som användaren delar medvetet och om data som användaren genererar utan att nödvändigtvis vara medveten om det. Data som användaren delar medvetet kan handla om uppgifter i användarprofiler. Exempelvis uppmanas användare på Facebook att ange ålder, civilstånd, arbetsplats, kön och utbildning. Facebooks användare ges dessutom möjlighet att göra olika slags tester som levererar data om användarna, ofta utan att användarna har läst villkoren för att delta. Därtill delar användare med sig av data genom interaktion med tjänsten.

För internetföretagen är det viktigt att användaren är inloggad så mycket som möjligt eftersom det genererar mest data om användarens beteende. Googles olika tjänster, allt från Google Play till Youtube, Gmail eller Calender samt olika Android-produkter, är ofta kopplade till ett och samma Google-konto. Det som användaren gör i en Google-tjänst kan sedan utnyttjas i en annan.

Ytterligare ett sätt att samla information om användare är genom så kallade kakor (cookies). Kakor är små program som skickar information om vad en webbläsare används till. Det finns olika slags kakor. Vissa kakor lagras under längre tid, medan andra endast är lagrade under den tid någon är aktiv på en webbplats.10 En del kakor kommer inte från webbplatserna själva, utan är så kallade tredjepartskakor (third-party cookies) som kommer från en tredje part utöver användaren eller själva webbsidan man befinner sig på. Den vanligaste typen av tredjepartskakor är Googles kakor. Tredjeparts-kakor gör det möjligt för tjänster som Google Sök och Facebook att skräddarsy reklamplacering. Ena dagen kan du söka efter information om tvättmaskiner i sökmotorn och nästa dag dyker det upp annonser för just tvättmaskiner när du läser en dagstidning på nätet, även om artikeln handlar om något helt annat. Dagstidningen har då köpt Googles tjänst Double-click tracking som placerar kakor och får därmed information om användarens aktiviteter på nätet för att kunna sälja personaliserad reklam.

Big data och kategoriernas betydelse

För den enskilda användaren är det omöjligt att överblicka hur användargenerade data från olika tjänster används och förs vidare. Vid varje enskilt tillfälle där information om en själv förmedlas vidare kanske det inte upplevs som problematiskt, men när data från flera tjänster sammanställs kan de enskilda delarna bilda ett mönster som vi inte kunnat förutse. Den sammanställda mängden data kan föra med sig så kallad ”algoritmisk skada”11. Det betyder att algoritmer kan användas av företag eller myndigheter på ett sätt som kan utsätta människor för problem (se vidare i kapitlet om Informationsinfrastruktur). Fenomenet att sammanställa och analysera stora datamängder från olika källor för att hitta mönster och samband kallas ofta för Big data.

Big data hanterar, som namnet antyder, stora mängder data, men syftar i sin betydelse snarare på hur man sammanför olika data för att kunna urskilja mönster. Man använder då algoritmer för att utföra så kallade förutsägande (predikativa) analyser genom att förstå hur olika skeenden hänger ihop. Det handlar inte minst om att förutspå konsumentbeteenden och individers preferenser, men andra användningsområden är också tänkbara. Exempelvis kan de ord vi söker på i Google Sök användas för att bedöma allmänhetens intresse för olika politiska frågor, för att förutse valresultat eller hur en influensaepidemi sprider sig. (Google Flu Trends, GFT).

Ett exempel på hur Big data kan påverka människors liv rör en kvinna som under nio månader försökte undvika att förmedla information om sin graviditet på nätet.12 Hon använde metoder för att undvika att information om henne sparades och sammankopplades. Hon lät exempelvis bli att betala med sina kreditkort, hon använde webbverktyg med kryptering och hon använde olika anonymiseringstjänster. På det sättet kunde hon dölja sin graviditet på nätet. Däremot framstod hennes samlade nätbeteende som misstänksamt i omvärldens ögon och ansågs ha stora likheter med hur en kriminell agerar för att undvika att bli upptäckt. Att utnyttja nätet samtidigt som man inte genererar data åt tjänster är mycket svårt.

Personalisering betyder inte enbart individanpassning av sökresultat eller nyhetsflöden utan även att information som samlas in om en person kan möjliggöra att personer delas in i på förhand bestämda kategorier. Samtidigt som internetföretagen personaliserar sina tjänster använder de sig av marknadsföringens indelning av konsumenter i kundsegment: gravida, ensamstående män, storstadsbor och så vidare. Användardata placerar automatiskt in användare i sociala kategorier för marknadsföring. Vi kan jämföra det med hur användare som bor i ett område med många låginkomsttagare ”översätts” till en kategori tillsammans med andra i området, oavsett enskilda individers inkomster.

Denna kategorisering går att jämföra med hur man i USA har börjat använda algoritmer som sammanför sociala kategorier med persondata för att fatta beslut om hur en misstänkt eller dömd person ska behandlas i rätten. De här algoritmerna används för att beräkna vilka risker det finns för att personen ska återfalla i brottslighet eller avvika om hen släpps fri mot borgen.13 På så sätt kan de kategorier som algoritmer bidrar till ses som ett slags klassifikationssystem som kan få direkta konsekvenser för människors liv. De kan bekräfta fördomar och de kan till och med bidra till att förstärka dem.

Kontroll över personliga data

Hur data får samlas in och hanteras av de stora internetföretagen regleras i lagstiftningen. Samtidigt är det inte lätt för enskilda användare att få kontroll över de data de lämnar ut. För att kunna använda en tjänst måste användaren som regel ingå avtal med tjänsten. En användare har vanligtvis mycket litet inflytande på utformningen av avtalet. De ledande internetföretagens intäkter, till exempel Googles och Facebooks, bygger på att utnyttja användargenererade data av olika slag. Företagen och individen har därför inte alltid samma intressen när det gäller dataskydd. Personalisering och reklamplacering kan förstås ligga i användarnas intresse. Däremot kan det vara ett problem i de fall då data om användares beteende säljs vidare till andra tjänster eller förs vidare till myndigheter.

Samtidigt finns det olika metoder som en medveten användare kan använda sig av för att i större utsträckning kontrollera vilka data som samlas in om en själv och hur de används. Det görs främst genom att anpassa sekretessinställningarna i användarprofiler. Möjligheterna är vanligtvis begränsade till att kryssa för ett fåtal rutor utan vidare förklaring av konsekvenserna. Det är också möjligt att ändra sekretessinställningarna i webbläsaren så att viss typ av information eller kakor inte lagras. Google Dashboard är en tjänst som möjliggör för användarna att se vilken information som samlas in om dem i Googles olika tjänster. Det finns också sökmotorer som uttryckligen inte sparar användargenererade data och som heller inte personaliserar sökningar – exempelvis den amerikanska sökmotorn DuckDuckGo eller den franska Qwant. Ett annat sätt är att låta bli att vara inloggad i Google och Apple, vilket minskar de båda företagens tillgång till dina data.

Ytterligare ett sätt att kontrollera data om en själv är att inte acceptera kakor och att då och då rensa bort kakor från den egna datorn. Sedan 2011 finns det en svensk lag som för med sig att användaren måste acceptera varje gång en kaka ska installeras på hens dator. För de flesta innebär det endast att man rutinmässigt klickar på ”ok”. Att inte acceptera en kaka kan i vissa fall innebära det att du inte kan använda en tjänst. I andra fall innebär det sämre funktionalitet.

Så kan du kontrollera dina data:

  • Se över sekretessinställningar i alla tjänster. De ­brukar finnas under ”Inställningar”.
  • Med Google Dashboard kan du se vilken information Google samlar in.
  • På Facebook kan du få se vilka data som sparats om dig genom att gå till ”Inställningar” > ”Ladda ned en kopia av dina Facebook-data”.
  • Använd en sökmotor som inte personaliserar sökningar eller sparar användargenererade data, till exempel DuckDuckGo eller Qwant.
  • Försök att inte alltid vara inloggad samtidigt som du surfar på nätet.
  • Låt om möjligt bli att acceptera kakor. Rensa bort kakor från din dator. Det kan du vanligtvis göra genom att gå in under ”systeminställningar” i den webbläsare du använder.

8. Pomerantz, J. Metadata. Cambridge, MA.: MIT Press, 2015.
9. Cole, D. ”We kill people based on metadata”. The New York Review of Books. 2014-05-10. http://www.nybooks.com/daily/2014/05/10/we-kill-people-based-metadata/ (Hämtad 2016-12-02)
10. PTS. Frågor och svar om kakor för webbplatsinnehavare. https://www.pts.se/sv/Privat/Internet/Integritet1/Fragor-och-svar-om-kakor-for-anvandare2/ (Hämtad 2017-01-01)
11. Tufekci, Z. Algorithmic harms beyond Facebook and Google: Emergent challenges of computational agency. Colorado Technology Law Journal 13 (2015b). http://ctlj.colorado.edu/wp-content/uploads/2015/08/Tufekci-final.pdf (Hämtad 2016-02-04)
12. Vertesi, J. My Experiment Opting Out of Big Data Made Me Look Like a Criminal. Time. 2014-05-01. http://time.com/83200/privacy-internet-big-data-opt-out/ (Hämtad 2016-10-25)
3. Christin, A.; Rosenblat, A. och boyd, d. Courts and predictive algorithms. Data & Civil Rights: A New Era of Policing and Justice. (workshop primer) Oct 27, 2015. http://www.datacivilrights.org/pubs/2015-1027/Courts_and_Predictive_Algorithms.pdf (Hämtad 2016-12-03)