Dokumentationsbild av den strandade valen fotograferad av August Wilhelm Malm 1865. Reprofotograferad på Göteborgs universitetsbibliotek, Eva-Terez Gölin.
År 1865 strandar en blåval i Askimsviken utanför Göteborg. Valen kommer senare att kallas ”den Malmska valen” efter August Wilhelm Malm, som ombesörjde att bärga, och bevara valen genom att montera skinnet på en träställning som alltjämt ersätter dess skelett. Malm var konservator till yrket och gick grundligt till väga med uppmätning och fotografering av valen och två år senare ger han ut en bok på franska innehållandes 29 albuminfotografier [1], både av valen i dess helhet, och dess olika delar, tillsammans med beskrivningar i text. Trots att den fotografiska tekniken vid den här tiden redan hunnit utvecklas från dagerrotypier och pappersnegativ, till att fotografier i stället kan framställas från glasnegativ, så har det mänskliga seendet, eller snarare vår förmåga att läsa fotografiska bilder, inte riktigt utvecklas i lika snabb takt. I texten som föregår bildavsnittet i boken förklarar Malm att valens storlek inte framgår av fotografierna varför dess delar kommer att anges i millimetertal, samt att ”tiden till att fotografera … har varit så knapp och måtten så kolossala att i många av fallen har det inte varit möjligt att arrangera en enhetlig fond, varför tavlorna innehåller olika saker som inte har någon relevans” [2]. Nu, drygt ett och ett halvt sekel senare, känns påpekanden som dessa överflödiga. I en värld där vi ständigt översköljs av fotografiska bilder – stilla, likväl som rörliga –har vi sedan länge tränats i att urskilja relevant information. Och sedan mitten av förra århundradet har vi i vår tur, med varierande framgång, försökt överföra denna kunskap till maskinen.
Men ännu en bra bit in på 2000-talet kan den maskinella perceptionen skilja sig stort från vår, något som framgår tydligt när några simpla klistermärken fästa på en stoppskylt har kunnat göra den totalt otolkbar för självkörande bilar [3]. Inte ens ett lågstadiebarn skulle hindras från att utläsa STOP på grund av att ett par av bokstäverna till mycket liten del döljs av en vitt och en svart rektangel. Denna, för människan ännu så länge utmärkande förmåga – att inte låta sig förvillas av ovidkommande rektanglar, extra streck, sneda och tilltufsade bokstäver, eller annan distraherande information, är vad som i robotfiltret captcha, används för att skilja maskin från människa och som vi ofta möter vid registrering till olika webtjänster.
Att avkoda fotografiska bilder är alltså något vi tränat upp, men att känna igen och särskilja ansikten är en medfödd förmåga hos oss människor [4] och sedan 1960-talet har vi genom maskininlärning försökt träna datorer till att också kunna detektera, och identifiera ansikten. Från att tekniken tidigare kanske mest har associerats med olika tillämpningar för övervakning, återfinns den sedan några år även i konsumentprodukter som mobiltelefoner och kompaktkameror. Och på området ansiktsdetektering och ansiktsigenkänning, verkar den maskinella och den mänskliga perceptionen ligga närmre varandra. Inte bara har det maskinella seendet nu kapacitet att känna igen ett ansikte i olika vinklar, eller identifiera och föreslå taggning av de människor som förekommer på bilderna utan upplärningen genom maskininlärning verkar också ha transfererat den till synes mänskliga egenskapen pareidoli – vår förmåga uppfatta mönster, exempelvis ansikten, där inga ansikten egentligen finns.
Att en ko fått sitt ansikte utsuddat i Googles automatiska och irreversibla ansiktsanonymisering på Street View, skrattades det gott åt för ett antal år sedan [5]. Men en ko har ju ”ögon, näsa, mun” och det är inte så svårt att förstå ansiktsdetekteringens misstag. Mer överraskad blev jag på en av mina Street View-promenader [6], när jag noterar att Googles processer också verkar ha urskilt och suddat ut ett ansikte högt upp på fasaden i korsningen Upplandsgatan – Barnhusgatan vid Norra bantorget i Stockholm [7]. Två fönster med markiser har tydligen framstått som ögon, och en arkitektonisk detalj som avskiljer våningsplanen har, i en viss kameravinkel, förmodligen gett intrycket av en mun. Varken i Street View-”steget” innan, eller efter, har detta ”ansikte” upptäckts och utraderats. Det är lite som när vi själva plötsligt upptäcker ett ansikte ibland molnen, ena stunden uppfattar vi det tydligt, för att det i nästa stund inte liknar något annat än ett vanligt moln. Att den maskinella perceptionen också har förmågan att se ansikten i molnen är något som den Seoul-baserade konstnärsduon Shinseungback Kimyonghun utnyttjat i sitt arbete Cloud Face, där ansiktsdetektering kunnat identifiera och ”fotografera” en mängd ansikten bland molnen över Bradford [8]. Visst kan jag i dessa molnbilder oftast också se ett ”ansikte” i det av datorn markerade molnet, och i jämförelse med de egenansikten (eigenface) som används för ansiktsdetektering – suddiga standardansikten som var och en baserar sig på en mängd porträttbilder, så är det inte svårt att förställa sig hur den maskinella perceptionen tolkar dessa mjuka molnformationer som ansikten. Att min mobilkamera däremot kunde uppmärksamma ett ansikte i en stor rosenbuske var mer oväntat. Men den gula markeringen blinkade till mer än en gång när jag höll upp kameran för att fånga busken i full blom. Jag försökte kisa med ögonen för att få syn på ansiktet i busken, men förgäves. Inte ens när jag i efterhand i utsatte bilden för olika försök med digital oskärpa i Photoshop, kunde jag få syn på vad ”kameran” såg. Kanske borde jag inte blivit så förvånad då jag redan ett par år tidigare, under arbetet med mitt videoverk Röd flagg, insett hur stor diskrepans det kan vara mellan det jag ser, och vad den maskinella perceptionen tycks uppfatta. När jag till arbetet lät Photoshops maskinella seende analysera och markera de viktiga objekten i varje bildruta i olika videosekvenser, visade det sig nämligen att även statiska objekt så som hus, som kunde förväntas bli bedömda lika från en bildruta till en annan, ömsom inkluderades och ömsom exkluderades i den automatiserade processen. Resultatet i det slutliga videoverket blev därför en flimrig bild som likt försöken med stoppskylten och den självkörande bilden, pekar på att det datorstyrda seendet inte alls är så stabilt som vi skulle kunna förvänta oss av en maskin.