Spaningar inom tech och sociala medier från veckan som har gått.
Övriga delar i veckans sammanställning
AI – artificiell intelligens
ChatGPT får nya samarbetsfunktionen Canvas
Ny funktion i ChatGPT. Den här gången en collabofunktion: Canvas.
Den är rätt mycket vad den heter som: en ny yta där arbetet kan visualiseras. Men så har vi det där med samarbetet. Ett samarbete som kan ske mellan dig själv och en kollega till: ChatGPT.
Det handlar alltså egentligen om ett nytt sätt att visualisera det som man håller på att arbeta med (så länge som det är i form av text eller kod, som är de två format som stöds av funktionen i dagsläget).
Canvas består av två vyer: chattfönstret till vänster och resultatet till höger. Det ska sedan bli möjligt att be ChatGPT göra saker i det högra fönstret eller omvänt: låta ChatGPT komma med förslag.
Så hur aktiverar du Canvas? Det… gör du inte. ChatGPT kommer själv att kicka igång funktionen när den ”upptäcker ett scenario där funktionen skulle vara hjälpsam”. (Okej, det går även att manuellt trigga funktionen – fast det verkar intressant nog då bara gälla en chatt som redan finns, inte från scratch alltså.)
Om man så vill så har Open AI här snott rätt oblygt från konkurrenten Anthropic och deras AI-bot Claude. Det i mångt och mycket en enklare version av Claudes Artifacts, fast med mer tänkt fokus på att collaba med ChatGPT.
Canvas fungerar dock inte med senaste o1-modellen, utan det är 4o som gäller. Det är dessutom betalabonnemangen Plus och Team som gäller om du vill få tillgång idag. Från och med nästa vecka ska även de som betalar för Enterprise eller Edu få funktionen.
Det mest intressant är att Canvas klassas som en beta och att Open AI planerar att släppa Canvas även för gratisanvändare av ChatGPT när ”den kommer ut ur beta”. Så… alla betalande ChatGPT-kunder betalar alltså för att betatesta Canvas åt gratisanvändarna.
Because förstås.
Open AI lanserar API för det avancerade röstläget
Knappt har Open AI hunnit börja rulla ut det nya avancerade röstläget för ChatGPT förrän det är dags att ge funktionen ett API. (Ja, eller API:et ska åtminstone hantera text-till-ljud på ”liknande” sätt som det avancerade röstläget.)
Realtime API, som det heter, gör det alltså möjligt för betalande utvecklare att lägga till ChatGPT avancerade röstläge i en app eller tjänst. Sex förinställda röster ska följa med på köpet.
Realtime API:et ska bjuda på ”low-latency”, alltså riktigt snabb svarstid – vilket är lite förutsättning för realtidskonversation med en digital motpart. Det lär också innebära att API:et inte är billigt att använda.
Så för den lite mer kostnadsmedvetna utvecklaren – eller bara för den som inte har behov av blixtsnabba realtidssvar – så lägger Open AI också till ljud in och ut som format i sitt Chat Completions-API.
Det sistnämnda innebär att utvecklare kan skicka in text eller ljud till ChatGPT:s 4o-modell via API och sedan välja om man vill få ut svaret som text, ljud eller både och.
Däremot så har API:et beta-etikett, så förväntningarna kanske kan läggas på rimlig nivå utifrån det.
https://openai.com/index/introducing-the-realtime-api/
Open AI siktar på att dubbla priset för ChatGPT
Hur mycket är du beredd att betala för ChatGPT? Det tänker Open AI nu testa. Planen är att dubbla priset.
New York Times har kommit över dokument från Open AI till potentiella investerare och där är planen att höja priset för grundtjänsten med två dollar och sedan gradvis skruva upp den till nya priset 44 dollar om fem år. Mer än en fördubbling.
Det skulle för svenska vidkommanden – baserat på dagens nivåer – betyda att ChatGPT ligger på strax under 600 kronor i månaden runt 2030.
Nu är det ungefär oceaner av tid dit (inte minst för vår regering som väl hoppas på att vi har fyra helt nya kärnkraftverk i drift då). Mycket kan med andra ord hända. Open AI kan ändra sig och konkurrens kan skapa prispress (som att Apple kanske inte börjar betalt för Apple Intelligence.
Men nästa år är planen att Open AI ska gå från semivinstdrivande till all in vinstdrivande. Då vill man gå med vinst. Med tanke på att företaget bedöms omsätta 3,7 miljarder i år, men ta en förlust på 5 miljarder, så finns det… en del hål att stoppa pengarna i.
Nu är det inte första gången som det ryktas om prishöjningar på ChatGPT. Som uppgifter om att det internt på ChatGPT har pratats om en prislapp på uppemot 2000 dollar i månaden för vissa abonnemang (man kan väl hoppas att det då handlade om dem som vänder sig till stora företag – men ändå).
600 kronor i månaden för en AI-assistent är säkert totally worth it för vissa. Men det kommer säkerligen göra att många inte kommer ha råd.
Att Open AI kommer att höja priserna på något sätt kan vi nog vara säkra på. Gäller ju ungefär alla prenumerationer. Men det blir intressant att se var smärtgränsen går för dem som använder tjänsten lite mer sporadiskt. Och hur strypt en gratisversion då kommer att vara.
Var skulle den gränsen gå för dig?
https://www.nytimes.com/2024/09/27/technology/openai-chatgpt-investors-funding.html
Microsoft Copilot börjar se och höra det du ser på nätet
Ni vet den där oron om att mobilen avlyssnar oss, som Svenskarna och internet bara häromdagen visade fortfarande lever? Och som avfärdades som en envist ihängande myt som inte har någon markförankring? Håll vårt ölfat säger Microsoft.
Före sommaren presenterade företaget Rewind – det fotografiska minne som Microsoft som ska ta skärmdumpar på allt man gör i en PC med funktionen så att man sedan kan ställa frågor till AI-boten om det man har gjort medan man använde datorn. Nu är det dags för en ny funktion. Microsofts AI-bot får Vision. Den lär sig bokstavligen se.
På beskrivningen så låter Vision ungefär som en lite-variant av Rewind. Den ska spåra vad du ser och gör i webbläsaren för att skaffa sig en bättre kontext när du sedan ber den om exempelvis rekommendationer. Eller sammanfattar artiklar. Så typ… samla in förstahandsdata? (Känns som att hela första- och tredjepartsdatadiskussionen måste uppgraderas med AI som möjligt ny kategori).
Samkör man sedan Vision med Voice så kan Copilot man prata med Copilot, så att boten kan se, höra och prata.
Intressant nog så verkar funktionen vara sessionsbaserad. Allt blåses när man avslutar sin session och data används inte för att fräna Copilot-modellen. Vilket känns lite… kontroproduktivt om man vill ha en bot som förstår personlig kontext. Men hej.
Vision kommer dessutom bara fungera på ”ett begränsat antal” sajter, vilket också känns lite märkligt. Vision verkar inte fungera på betalväggssidor eller ”känsligt innehåll”. (Vilket sannolikt kan läsas som… vuxensidor.) Det känns med andra ord som att sajter måste göra något för att ”släppa in” Vision.
Sist men inte minst så lanserar Microsoft också Copilot Daily, som ska vara typ en personaliserad nyhetsmorgonsammanfattning. Med tanke på att morgonradioprgram på kommersiell radio alltid har låtit AI-skapat – långt före ChatGPT – så blir det väl marginell skillnad jämfört med hur det har varit tidigare.
Oavsett: Voice och Daily rullas nu ut för Windows i några engelskspråkiga länder, som USA och Storbritannien nu. Fler länder och språk kommer ”snart”.
Vision ska ”snart” börja rullas ut i USA, men då bara för den som betalar för Copilot Pro. Dessutom måste man köra Edge vilket gör att… ingen kommer att använda funktionen.
https://www.digitaltrends.com/computing/copilot-vision-sees-web-pages/
Microsoft börjar betala publicister för nyhetsinnehåll som används av AI
Google har länge varit… sådär sugna på att betala publicister för nyheter som visas i sökresultatet. Ja, någonstans hos Google överhuvudtaget. Google har dessutom varit öppna med att de inte tänker betala publicister för innehåll som AI-träningsinnehåll, till skillnad från exempelvis Open AI.
Nu vill även Microsoft bli mer kompis med publicister. Även de kommer nu att börja betala för nyheter. I Daily-tjänsten.
Daily var en av Copilot-nyheterna som Microsoft presenterade i veckan och den är rätt mycket vad den låter som: en daglig sammanfattning av saker som kan vara bra att ha koll på som inledning på dagen. Saker som väderprognos och just nyheter.
Microsoft kommer att börja betala de publicister som dyker upp i Daily. Ja, så länge som man har ett avtal med Microsoft. Något som publicister och titlar som Reuters, USA Today och Financial Times har. Det är kort sagt (som vanligt) stora namn som fått chans att skriva avtal.
Det är dessutom bara i USA och Storbritannien som publicister har chans att få betalt. Beroende på att, ja, det är bara i dessa länder som Daily kommer att finnas till att börja med.
AI-bolagen börjar med andra ord bli allt mer villiga att betala för innehåll i sina AI-tjänster. Eller rättare sagt: de tvingas allt mer till det på grund av att publicister allt mer stryper tillgången och på grund av allt hårdare regleringar i framförallt EU.
Det här kommer med andra ord bli ett viktigt område att följa på AI-området.
https://techcrunch.com/2024/10/01/microsoft-starts-paying-publishers-for-content-in-copilot/
Microsoft ger Copilot förmågan att resonera
Kan Open AI så kan Microsoft. Ja, så verkar de senare ha resonerat. Nu får Copilot förmågan att resonera, precis som Open AI:s nya o1-modell.
Och det är ingen slump att det kommer nu. ”Think deeper”, som funktionen heter, är baserad på just o1 – med Microsoft-anpassningar.
o1 är i dagsläget släppt som en förhandsversion, som saknar rätt många av förmågorna hos föregångaren 4o. Det blir därför intressant att se vad Microsofts anpassningar kan bestå av.
Vi här får oavsett vänta innan vi kan testa den nya funktionen. Think deeper är för tillfället bara tillgänglig för ett ”begränsat” antal användare inom ramen för Microsofts Copilot Labs. Dessutom bara i Australien, Kanada, Nya Zeeland, USA och Storbritannien.
Microsoft lanserar Clippy 2.0
Clippy är tillbaka! Tillbaka!! TILLBAKA!!!
Japp. ÄNTLIGEN får vi gemet igen!
Ja, eller. Nej. Tyvärr får vi inte nöjet att umgås med världens charmigaste skärmassistent igen (jag tillhör en av dem som älskade Clippy. Alla vi som älskade Clippy möts regelbundet och delar våra favoritminnen om Clippy. Ibland behöver vi till och med tre stolar till våra möten.)
Enligt Microsoft så har företagets ChatGPT-utmanare Copilot skruvats till lite så att den ska erbjuda sina användare ”mer känslomässig support”. Ordagrant så anser Microsoft att Copilot nu blir din ”hype man”.
Ett påstående som inte alls fick alla cringeboomervarningslampor i hela världen att explodera.
Tanken är oavsett att Copilot ska bli bättre på att hoppa in och peppa dig när du behöver. Ja, uppmuntra dig att använda Copilot mer. Så… kanske inte alls när du behöver.
Men hej. Jag är helt övertygad om att de flesta användare inte alls kommer att stänga av funktionen förrän efter tre minuter.
https://www.wired.com/story/microsoft-copilot-vision-voice-emotional-support-windows-office/
Gemini Live tillgängligt för alla användare
Google tar nästa steg med sin Google Assistant, the next generation. Googles AI-funktion Gemini Live ska nu finnas tillgängligt för alla användare. Även dem som inte betalar för ett Gemini-abonnemang.
Live gör det möjligt att bokstavligen prata med Gemini på samma sätt som med Google Assistant. Eller med ChatGPT-appen.
Lite osäker, men som jag fattar det så innebär det att Live även är tillgänglig för oss i EU. Däremot har jag ingen personlig erfarenhet av det, eftersom den har en väldigt stor nackdel: den finns bara för Android. Just nu, åtminstone.
https://mashable.com/article/gemini-live-available-free
Gemini Live blir tillgängligt på 40 nya språk
Gemini Live, Googles svar på Open AI:s röstchattsfunktion, har så här långt bara funnits på ett enda språk: engelska. Men nu blir det ändring på det. Gemini Live har lärt sig ett gäng nya språk.
Det blir alltså möjligt att föra konversationer på andra språk än engelska. Först ut franska, tyska, portugisiska, hindi och spanska. Och ”de närmaste veckorna” så blir det alltså ännu fler.
Och… det är det vi vet. Google har kort sagt inte gått ut med en lista över vilka 40 språk som omfattas. Vi får kort sagt vänta och se när det kommer till den detaljen.
https://www.theverge.com/2024/10/3/24260561/gemini-live-language-support
Gmail för iOS får ny AI-sökfunktion
Ännu mer AI i Gmail. Because AI. Den här gången är det iOS-användarna som får lite mer AI-hjälp i sitt mejlande.
iPhone-Gmail får nu samma stöd som rullades ut för Android i augusti, vilket innebär att det går att ställa frågor om sina mejl till Googles AI-bot Gemini. Som att be Gemini sammanfatta mejl inom ett visst ämne.
Det krävs dock att man betalar för något av Googles Gemini-abonnemang, som Google One AI Premium eller Workplace-abonnemangen Business, Enterprise, Education eller Education Premium.
Meta presenterar AI-videoverktyg
Dags för Meta att ge sig in i kampen om dem som vill skapa AI-videos. Företaget har presenterat verktyget Movie Gen.
Movie Gen kan skapa högupplöst video med tillhörande högupplöst ljud. Och videos skapas på det sätt vi nu har vant oss vid när det kommer till AI: du beskriver med text vad du vill ha och sedan skapar verktyget det åt dig.
Movie Gen kan även redigera befintliga videos och även bilder.
Men sen finns det några brasklapapr. Videorna som skapas kan vara max 16 sekunder långa med 16 rutor per sekund. Ljudet som skapas kan däremot intressant nog stäckas ut till 45 sekunder.
Ja, och så är det än så länge bara ett demonstrations-ex. Bokstavligen. Enligt Meta så är Movie Gen inte redo att släppas ”någon gång snart”. Varför? Därför att modellen fortfarande är för dyr och det tar ”för lång tid” att skapa videos.
Men det betyder oavsett att vi har en ny spelare på AI-videoområdet. Blir intressant hur Meta kommer att stå sig i konkurrensen.
https://www.theverge.com/2024/10/4/24261990/meta-movie-gen-ai-video-generator-openai-sora
Meta vill bygga små AI-modeller för smartphones tillsammans med Arm
Senaste veckan eller så så presenterade Meta nyheter som del av sin årliga Meta Connect-konferens. En av de mer intressanta sakerna som Meta gick ut med är ett nytt samarbete med chiptillverkaren Arm. Ett samarbete som går ut på att de båda företagen vill ta fram små AI-modeller.
En utmaning med dagens avancerade AI-modeller, inte minst inom generativ AI, är att de är skitstora och kräver en herrans massa processorkraft och el för att snurra runt. Det innebär i de flesta fall att det krävs molnlösningar och externa servrar dit data ska skyfflas från den enhet man använder en AI-bot i.
En lösning på det här, som inte minst Apples kommande AI-plattform Apple Intelligence kommer att bygga på, är att själva AI:andet helt eller till största del sker lokalt i enheten. Det är alltså här som Meta och Arm nu vill in och leka (ja, kanske inte specifikt i iPhones, eftersom Apple har sina egna chip med tillhörande infrastruktur).
Det som är extra intressant här är två saker. Dels att det inte handlar om ett nya chip – det som Arm är mest kända för – utan just AI-modeller som ska kunna köras lokalt. Och dels att Meta inte, trots flera försök, har en riktigt etablerat hårdvaruekosystem. Det närmaste är företaget Quest-set för VR och AR.
Men Meta vill förstås ändra på det här och ett initiativ som också presenterades i veckan är en helt ny AR-glasögonmodell. En modell som ska vara en riktig AR-pryl, så att skärmarna i bågarna åtminstone delvis ska kunna ersätta mobilen. Och som förstås också är tänkt att ha AI-funktionalitet, så att man exempelvis ska kunna ställa frågor till glasögonen och sedan få upp svaret på glasögonlinserna eller få det uppläst. Här skulle mindre AI-modeller vara väldigt lämpliga. Inte minst eftersom det också är en pryl där Meta skulle kunna kontrollera operativsystemet.
Nu finns det… några utmaningar. De nya AR-glasögonen är än så länge bara ett koncept och inte en färdig produkt, Arm-samarbetet finns sannolikt än så länge mest på pappret, och Meta har flera gånger tidigare försökt få till framgångsrika hårdvaruprylar och egna ”operativsystem” utan att ha nått särskilt stora framgångar.
Men det blir oavsett intressant att se vad Arm-partnerskapet kan leda till. Meta skulle kunna jobba sig fram till en position som AI-modellsleverantör till de företag som skapar prylarna som konsumenter sedan använder.
Nvidia lanserar sin egen AI-modell
Ännu en spelare på AI-planen: Nvidia. Chiptillverkaren lanserar nu sin egen utmanare till Open AI:s GPT.
Nvidias modell, NVLM 1.0, är open source och ska dessutom matcha Open AI:s GPT-4-modell. Den ska kunna hantera såväl text- som bilduppgifter.
Enligt de som har bättre koll än jag på det AI-hardcoretekniska så ska Nvidias modell vara vass. Men det återstår väl att se hur bra den är när den väl dyker upp i tjänster som kan användas av oss vanliga människor.
Nvidia just dropped a bombshell: Its new AI model is open, massive, and ready to rival GPT-4
Perplexity släpper Mac-app
Är du Perplexity-knarkare? Känner du att du har för få AI-appar i ditt Mac-liv? Grattis! Nu kan du kombinera både de sakerna: AI-söktjänsten Perplexity blir med Mac-app.
Däremot får du hålla dig till tåls lite till. Appen släpps preliminärt 15 oktober, men för den som vill kunna skärmdumpa upp att man alltid är först med det senaste så går den att förboka nu.
Studenter identifierar och samlar in personlig information om främlingar på stan via Metas AR-glasögon och AI
Oroar du dig över att din mobil lyssnar på dig? Gör dig redo att ha en helt ny orosnivå: Metas Ray-Ban-solglasögon som i realtid kan identifiera människor på stan och söka upp all information om dem, inklusive hemadress.
Det var alldeles för länge sedan någon drog en parallell till Minority Report. Så nu gör jag det.
Okej. Det är inte så att Metas bågar har the power of doxa främlingar på stan när man packar upp dem. Det krävs lite handpåläggning. Eller mycket. Vilket var precis vad två MIT-studenter ägnade tid åt.
Studenterna Insta-strömmade när de gick fram till – vad som ska ha varit – främlingar på stan och sedan berättat saker för dem om dem själva. Till sin hjälp hade de ett par Meta-Ray-Bans och en egenutvecklade AI-språkmodellslösning.
Mer specifikt så strömmade de videon från glasögonen till Instagram. De hade sedan en dator som tittade på sändningen och sedan sökte efter matchande ansikten på nätet. Därefter gjordes uppslag mot artiklar men även väljarregistreringsdatabaser för att få fram information om personerna. Saker som telefonnummer, adress och namn på släktingar. Det sammanställda resultatet skickades sedan tillbaka till en mobilapp som studenterna hade skapat. Allt automatiserat.
Okej, vi pratar inte om hundra procents träffsäkerhet. Och det låter inte så lite som ett skönt första april-skämt. Och det känns inte som helt orimligt att det skulle vara det.
Men samtidigt så är det förstås fullt möjligt. Att identifiera ansikten på stan och sedan göra uppslag mot dem finns. Inte minst i… något mindre demokratiska länder som Kina. Och resten av stegen är automatisering av sådant som, varje steg för sig, gör att göra rätt enkelt.
De båda studenterna inser de negativa sidorna med deras lösning, så de släpper inte koden som de har tagit fram för att få allt att funka. Men hej, det är ju inte så att det inte går att reverse engineera nu.
Ett användarfall att ha i bakhuvudet nästa gång som någon suckar över hur EU reglerar sönder all AI-innovation.
ChatGPT:s avancerade röstläge extraknäcker som indisk telefonscammare
Det avgör saken. När (om?) jag får ChatGPT:s avancerade röstläge kommer jag ställa in den på indisk engelska.
Thank you come again!
https://www.instagram.com/reel/DAkJ4_QqSfE/?igsh=ajN1Z3JyM2xiNjMx