Så blir filtren bättre med ny teknik

En enkel sökning på Google åskådliggör en del av informationsproblemet. Sökresultaten räknas inte sällan i hundratusentals länkar. Förhoppningsvis är någon av dem som ligger i topp relevant, men ofta får man successivt komplettera med ytterligare söktermer innan träfflistan innehåller det man faktiskt letar efter. Andra möjligheter att finjustera sökresultatet finns också, bland annat genom att begränsa sökningen till vissa språk eller webbplatser eller i tid.

Men det här är fortfarande tämligen grovmaskiga justeringar.

Både Google och Bing har som ambition att sökresultaten ska bli mer personliga. Informationstillväxten må vara väldigt kraftig, men bara en liten del av de data som finns tillgänglig är relevant för en enskild person. Därför lägger tjänsteleverantörerna till nya lösningar som inte bara tar hänsyn till hur de olika informationsbitarna förhåller sig till varandra utan också till vem det är som gör sökningen. I rankingen av webbplatserna är länkar en viktigt signal som sökmotorerna använder sig av. Många länkar till en webbplats antyder att den är viktig. Och om en viktig webbplats länkar vidare till en annan som inte har så många inlänkar kan det fungera som en indikation på att den sajten ändå har hög relevans, bara det att inte så många andra har upptäckt det ännu.

Med den här länkinformationen som utgångspunkt går det att bygga en topplista från en generell utgångspunkt. Men genom att bland annat ta hänsyn till vilka länkar den enskilda användaren tidigare klickat på och andra signaler går det att skruva på resultatlistan så att den blir mer relevant.

Liknande ambitioner finns hos fler företag. När nyhetsflödet hos Facebook exploderade införde det sociala nätverket något som kallas för EdgeRank. Varje objekt hos Facebook, en statusuppdatering, ett fotografi, en filmsnutt, rankas på samma sätt som länkarna hos Google. Hos Facebook är signalerna som används bland annat hur många som kommenterat eller klickat på ”Like”-knappen och hur ofta du brukar kommentera på andra användares statusuppdateringar. Men mycket tyder på att Facebook jobbar på nya lösningar som tar den personliga anpassningen ytterligare några steg framåt. Facebook har bland annat patent på en teknik för ”kurerat sök” (http://www.bnet.com/blog/technology-business/newfacebook- patent-the-huge-implications-of-curated-searchupdate/9274) vilket innebär att sökningar som dina vänner gjort och hur de reagerat på sökresultaten vägs in i dina sökningar.

I takt med att datorer får bättre förmåga att förstå mänskligt språk öppnas också nya möjligheter. Våren 2011 ställde en dator för första gången upp i Jeopardy. IBM:s Watson mötte två före detta amerikanska stormästare, Ken Jennings och Brad Rutter. För IBM blev pr-jippot en stor framgång. Watson stod som segrare efter att ha spelat ihop 77 147 dollar. De mänskliga deltagarna stannade på 24 000 respektive 21 600 dollar.

För att utveckla en dator som kunde ställa upp i Jeopardy krävdes att IBM:s forskare lyckades med utmaningen att få datorer att verkligen förstå mänskligt språk. I Jeopardy räcker det inte att kunna mycket, deltagarna måste också förstå vad programledaren frågar efter.

Datorer älskar siffror och komplicerade uträkningar. Bokstäver, ord och aldrig så enkla meningar har de betydligt svårare för. Förklaringen är att matematik följer väldefinierade regler där de matematiska uttrycken är entydiga. Vad ett ord betyder beror ibland på sammanhanget som det används i. Banan kan vara en frukt, eller en bana för bilar. Vi använder oss flitigt av metaforer och synonymer. Pronomen kan ibland syfta flera meningar bakåt i en text. Den som läser ”hon gick in i huset igen” måste komma ihåg att det var Ebba och Arvid som i kapitlets början kom ut genom ytterdörren och dessutom veta att Ebba är den av de två som är flicka.

Watsons framgångar i Jeopardy visar att utvecklingen har kommit väldigt långt inom det här området. Och för IBM handlar det inte bara om ett pr-jippo. Företaget har gott om idéer för hur kärnteknologierna ska kunna användas i kommersiella lösningar.

Kan en dator i någon mening förstå vad en text handlar om, då kan den också hitta andra texter som handlar om ungefär samma sak. Det innebär att sökningar kan gå från att handla om att matchning ord för ord – innehåller text A ordet ”fotboll” så handlar den kanske om samma sak som text B som också innehåller ordet ”fotboll”. Istället kan datorn förstå att text C också handlar om fotboll eftersom ”IFK Göteborg” är ett välkänt fotbollslag.

Med den här kompetensen, att förstå vad texter handlar om, kommer datorer i framtiden bli bättre än idag på att filtrera fram information som intresserar den enskilda användaren. För att lyckas med det krävs också någon form av feedbacksystem, där användaren i små steg talar om för datorn vilken typ av texter som han eller hon är intresserad av.

Med språkförståelse får datorerna också kompetens att avgöra om en text är skriven med en negativ eller positiv ton. Redan idag finns det kommersiella lösningar för detta, något som på engelska kallas för ”sentiment analysis”. Men i takt med att tekniken utvecklas vidare kommer de här funktionerna att förbättras.

Återkoppling lär tekniken om dig

Med feedback-mekanismer, lösningar för att låta användarna på olika sätt ge återkoppling till datorn, blir program och tjänster bättre på att anpassa sig till olika användare. Utgångspunkten är enkel: Genom att tala om för datorn vad du som användare är intresserad av får den veta mer om dig, och kan successivt anpassa sig till just dig. Redan börjar de första lösningarna som fungerar på det sättet dyka upp. Ett exempel är Zite, ett program till iPad.

Zite skapar ett ”personligt magasin” genom att hämta in information från massor av källor på nätet, gå igenom innehållet och sätta ihop en artikelmix anpassad efter den enskilda användaren. När han eller hon sedan läser artiklarna kommer Zite få återkoppling på urvalet på flera olika sätt. Att användaren alls väljer att klicka på en rubrik istället för att bara bläddra förbi den är en liten signal om att det i den texten fanns något som intresserade. Väljer användaren efter att ha läst artikeln att skicka den vidare med e-post eller tipsa om den på Facebook är det ytterligare sublima signaler om att han eller hon gillade den. Och sen finns dessutom en tumme upp och en tumme ner där användaren kan trycka för att i klartext uttrycka sin åsikt om artikeln. Tillsammans blir allt detta en samling data som Zite kan använda för att finjustera urvalet nästa gång programmet startas.

I Malmö finns Saplo, vars grundteknik låter datorer förstå text på ungefär samma sätt som vi människor. Saplo har flera idéer om hur tekniken kan användas, och en av dem handlar om informationsfiltrering. Demonstrationen Saplo Stream (http://stream.saplo.com) kopplas till användarens Twitterkonto. Alla länkar som användaren tipsar om på Twitter analyseras, med utgångspunkten att sådant som användaren tipsar andra om är sådant som också intresserar honom eller henne. När Saplo Stream på det sättet lärt sig om användarens intressen kan tekniken gå igenom andra texter som det tipsas om på Twitter och välja ut sådana som troligen passar.

Google har byggt in liknande funktioner i företagets mejltjänst Gmejl. Sommaren 2010 introducerades Priority Inbox, en teknik som automatiskt sorterar mejlen som kommer till inkorgen. Lösningen fungerar som ett omvänt spamfilter. Istället för att sortera bort det som användaren inte är intresserad av, fokuserar Priority Inbox på det som är viktigast. Till sin hjälp har funktionen många olika signaler. Bland annat utgår tekniken från att personer som användaren ofta mejlar till och får mejl från är viktiga. För att hjälpa automatiken på traven finns dessutom möjligheten att manuellt markera vissa saker som viktiga, och eller inte viktiga om Priority Inbox gjort ett felaktigt antagande.

Ditt sociala nätverk in i träfflistan

Vem du är definieras av dina intressen, men också av vilka vänner och bekanta du har. Och precis som ett datorsystem kan använda kunskap om dina intressen för att föreslå länkar kan samlad information från ditt kontaktnät användas på samma sätt. Google har börjat experimentera med något som företaget kallar för ”social search” (http://googlesystem.blogspot.com/2009/10/googlesocial- search.html), där man bland annat hämtar in information från användarens konto på Twitter och RSS-prenumerationer i Google Reader till sökresultaten. Microsoft har börjat använda signaler från Facebook i sökresultaten på Bing (http://www.bing.com/community/site_blogs/b/search/ archive/2011/05/16/news-announcement-may-17.aspx). Länkar som vänner klickat ”Like” på märks ut i resultatlistan, tillsammans med länkar som många andra Facebookanvändare också valt att gilla.