Det semantiske internet

Claus Valgren

Søgemaskiner der kan forstå sammenhænge, værdsætter varieret sprogbrug og medtager brugernes adfærd og brugsmønstre. Fremtidens søgemaskiner bliver intelligente søgemaskiner.

Semantik handler om ordenes mening eller betydning. En semantisk søgemaskine er en computer der ikke bare ”læser” og genkender ord, men også ”forstår” deres betydning.

Claus Valgren er manden bag den danske søgemaskine Zooka. Han er også manden bag et rigtigt godt seo værktøj, Sitexploration, en stor hjælp til dig der sidder og link builder. Fælles for både Zooka og Sitexploration er, at de tager udgangspunkt i samme datacenter. Et datacenter som Claus Valgren selv har udviklet.

Lydklip: Adobe Flash Player (version 9 eller højere) kræves for at afspille dette lydklip. Hent den seneste version her. Du skal også have JavaScript aktiveret i din browser.

Varighed:27.33

Download lydfil: PotterCut-Claus-Valgren

Mere om Claus Valgren og links til de steder der bliver omtalt i podcasten.

http://zooka.dk/

http://ba.zooka.dk/

http://sitexploration.com/

http://twitter.com/sitexploration

http://twitter.com/valgren

Hvad synes du? smid en kommentar eller klik her og få kommende indlæg direkte til din nyhedslæser.

Comments

Den var igen rigtig god! Uden at vide noget særlig om SEO går mine tanker i retning om at google må udvikle sig i den semantiske retning, hvis de ikke allerede er nået langt i den retningen bag kulissen.

Google og andre søgemaskiner bør jo i princip modarbejde mange af de kendte SEO-tricks for at opfordre folk til at fokusere mere på godt indhold på nettet end smarte SEO-tricks!

I den perfekte verden (efter min opfattelse) skal der ikke være nogen grund til at lave andet SEO arbejde end at skrive gode tekster, gode overskrifter og arbejde på at skaffe links som folk rent faktisk klikker på, follow eller no-follow.

Glæder mig til næste Pottercut!

Og mens vi stadig er her og nu: Tak for dine follow-links :-)

Ha.. Super Pottercut. Claus, du har jo gjort det, som vi andre indimellem går og tænker “det kunne sateme være spændende at prøve”, men som man så aldrig realiserer, fordi man tænker “men fuuuuck det er en giga-opgave”. One-man-search engine. Hatten af for det.

Kunne I ikke allerede aftale at lave en opfølgende Pottercut om Zooka om et halvt til et helt år? Bare for at se, hvilken retning det evt. udvikler sig i?

@Vadskær – jeg er 100% enig. Det er vildt fascinerende at møde den slags mennesker, der bare kaster sig ud idet. Det er et fantastisk projekt Claus har gang i.

@Anders – enig – og fint i tråd med de tanker Claus gør sig med sit projekt. Der sker rigtigt meget op det område – og det er værd at gøre sig nogle teser – og dermed forberede sig på “what is to come”.

Men at give folk noget af værdi, kommer aldrig til at gå af mode ;)

Super Pottercut, det er et rigtig spændende projekt, som Claus har gang i. Jeg glæder mig til at høre mere om Zooka :)

@Anders

Der findes ikke en perfekt verden i SEO. ..også alligevel gør der, for til sidst har du algoritmerne som “bare” skal tilfredsstilles – det er ren matematik, det er fuldstændig som at løse en ligning, og i Google’s tilfælde har den ca. 200 ubekendte.

Google arbejder helt sikkert med semantik i deres ende, dog tror jeg de har deres egen succes i mod sig, og kan “kun” gradvist tilføje nye ubekendte faktorer, for ellers kan folk jo ikke finde noget mere – det er min tese.
Tror desuden at deres caffeine opdatering indeholder nogle rammeværker til bla. semantik der bare venter på at blive sluppet løs for alvor.

@Vadskær

Det ER en kæmpe opgave, med rigtig mange ender der skal styres, men designer du korrekt fra bunden af, så er der ingen grænser for hvad sådan et system kan udrette.

Og jo, jeg er helt sikkert klar på en Vol.2.

@Dennis

Hvis du har spørgsmål om Zooka el. li. fyr løs ;)

Tak for endnu et rigtig spændende pottercut!

@Claus Herfra er det ikke bare hatten af for dit arbejde. Men hatten højt op i luften, beundring og fascination. Skønt at høre din stemme i øvrigt. Du lyder som jeg tænkte, som en rigtig nørd :)

Sitexploration er et super værktøj, og jeg synes du har gjort det helt rigtige ved at indrage brugere på et tidligt tidspunkt i udviklingsfasen.

>> Tror desuden at deres caffeine opdatering indeholder nogle rammeværker til bla. semantik der bare venter på at blive sluppet løs for alvor.

Hvad bygger du dine formodninger på? er det bare fornemmelser, eller har du lavet nogle tests som peger i den retning?

Super godt podcast og spændende at høre hvordan du har griber arbejdet med en søgemaskine an.
Jeg har lige to spørgsmål:

Hvilken hardware og software benytter du?
Hvor mange søgninger bliver der lavet pr. måned?

Mvh. Martin LeBlanc

@ Claus: Det er faktisk det jeg er bange for, at ende med at “tilfredsstille algoritmerne” hos google. Det behøver jo ikke nødvendigvis betyde at indholdet er i orden bare for at rammerne og opsætningen/præsentationen er det. Og jo flere som tilfredsstiller google´s robotter, jo mere undergraves søgeresultaterne. Og det er jo i hvert fald ikke google´s ønske. Så jeg vil mene at de har alt at vinde på at tweake og ændre parametrene hele tiden for at sikre at det er det bedste indhold og ikke det bedst tilpassede som vises i søgeresultaterne.

Der er jo to ekstremer:
1. Google offentliggør alle sine algoritmer og giver alle samme mulighed for at “blive synlige” – med resultatet at alle hjemmesider kommer til at ligne hinanden på en prik med hensyn til design, opbygning, sprogbrug m.v. (langt mere end idag). M.a.o. google dikterer hvordan nettet skal se ud – ikke så godt…
2. Fuldstændig lukkethed om algoritmerne med den følge at SEO-folk prøver at bryde koden og finde ud af præcis hvordan man “kommer igennem”. Det er jo sådan set der vi er idag, hvorfor den logiske reaktion fra google må være at hele tiden ændre og udvikle sig.

mvh

Anders

Hej Claus

Spændende projekt du er i krig med. Men du skal have justeret en smule når man søger på “Google Analytics”. Hverken http://www.webanalytiker.dk eller http://www.Analyticsbogen.dk er til at finde ;-)

Og Potter – vil du ikke gøre sådan at links under casten åbnes i nyt vindue? (jojo, kender godt ctrl) – det er surt at være så nysgerrig undervejs at man klikker og mister lyden. Ups. :-)

Godt arbejde begge to!

@Jon
Takker! – Og jeg er en rigtig nørd og stolt af det jeg laver :)

Når Google sender noget ny af sted i deres søgemaskine, tester jeg bla. på (Latent semantic analysis & indexing) – ting som Google også roder med – det samme har SEO folk ved jeg – og som er relativ hurtig at beregne, og derfor burde det også være i interesse for Google. Og nu begynder der at ske lidt ryk i mine tests. Derfor er det logisk for mig at konkluderer, at de rykker i den semantiske retning – om det så rigtigt eller forkert, tja.

Du kan prøve det selv: Indsæt ord i din tekst som relaterer sig mod dit nøgleord. Google læser 2-3 nøgleord, men læseren læser forhåbentligt kun 1. Man kan så diskuterer om det er semantik, men det er et skridt i den rigtige retning syntes jeg.

@Martin
Da jeg selv har opbygget mit eget datacenter, har jeg også haft mulighed for at vælge præcis det hardware jeg ved fungerer godt sammen, og som performer. Alle mine serverer benytter Intel teknologi, RAID, GigaBit netværk osv.

Frontserveren er en windows maskine, og det er valgt primært pga. af ASP.NET, da jeg på ingen måde er front udvikler – og syntes faktisk det er jævnt kedeligt :)

Alt andet køre på Linux og en enkelt MySql har jeg da også. Den helt store GRID database m.v. har jeg selv udviklet fra bunden af.

Da jeg gav den gas på Zooka systemet var der omkring 100-150.000 søgninger pr. md. Ikke ret meget, men nok til at jeg fik testet nogle ting af.

Mht. til Sitexploration som er den mest interessante del, ligger den omkring 5.000+ søgninger.

@Anders
Google er en meget simpel søgemaskine, der har det bedst med at få serveret sit data homogent. Her tænker jeg f.eks. Wikipedia, som er et pragt eksempel. At man således kan designe en side så den passer til Google’s system, er for mig og se kun i Google’s interesse.

Hvis du læser/hører nogle folk fra Google udtale sig i ovennævnte, siger de næsten altid denne sætning; “Det vil vi gerne løse maskinelt” – fair nok, eftersom de skal beregne en hel del sider, er de nød til at holde det simpelt og lidt hemmeligt. Derfor har de også i mine verden selv skabt SEO begrebet.

Så hvis man skal se lidt bombastisk på situationen er jeg af den overbevisning, at hvis en hjemmeside bliver lavet med det formål at ligge nr. 1,2 eller 3 med et givent keyword, og en anden hjemmeside ligger og roder rundt i bunden, eller på side 2, så må de jo gøre hvad der nu skal gøres, for at komme opad listen – Jeg mener, det er deres system, det er deres regler.

Desuden, bare fordi man ligger i toppen betyder det ikke at folk klikker på ens snippet. Specielt ikke hvis den nedenunder har en tekst der går lige ind, og budskabet er lige i øjet. Den del er jo også i SEO regi.

Hvis flere og flere hjemmesider bliver strømlignet mod Google, så skal de disse elementer nedtones og nogle andre skal hæves, og/eller nye kommer til – f.eks. signaler fra twitter el. li. – det er en naturlig udvikling af en teknologi der stammer fra 1995 (BackRub). Den del de bare ikke kan nedjustere, er det som binder nettet sammen – links! Deres værdi jo, men ikke deres betydning. (nofollow er undtagelsen)

Med semantikken tilføjer man (med mit system) værdier til denne ligningen der på mange punkter ikke bare kan manipuleres op eller ned hvis vi skal se sådan på det. (og ja, mine algoritmer holdes da også hemmelige, men det er jo også bare matematik) – det er dog noget svære at “regne dem ud” da de bygger på forståelse og mening frem for placering og antal. Men så længe Google eller andre benytter simple algoritmer er ballet åben.

@Jacob
Takker!
Zooka nævner dig ved navn under Relaterede emner når jeg søger på “Google Analytics” – De indstillinger jeg søger med er: Overføring (on), Fjern støj(on), Automastisk(On) + Dyb.

Men ellers har Zooka det ikke nemt i tiden, da Sitexploration har første ret til alt nede i Centiverse.
Og du har helt ret, der skal stadig rodes med rytmeboksen – men det er jo kun herligt.

@ Jacob: Det er jo lige før at din kommentar lugter lidt af markedsføring og linkbuilding på Potters vejne! Det kunne jeg nu aldrig selv finde på med min http://www.digitaltrombone.com/shop ;-)

@ Claus: Min tilgang til hvad google kan/skal/burde/gør o.s.v. er lidt over i den filosofiske grøft. Tror du har helt ret i at de er på vej mod semantiske søgninger, det er nærmest den eneste tankegang som giver mening når man taler søgninger om man tænker nogle år frem i tiden. Så mon ikke du har fat i noget som både er hurtigt voksende og meget spændende!

mvh
Anders

haha Anders, good one. Lige de to sites mangler nu ikke links, så det var faktisk lidt seriøst. Men links til basun-sites er godt nok, sådan to basuner i mellem.

Og Claus, tag det ikke som kritik. Men mere seriøst, så undrer det mig bare til tider hvorfor mit site er så ringe indekseret i andre søgemaskiner. Jeg mener – det er da trods alt ret præcist emne mv., så på den måde er det ikke et “lunkent” site :-)

@Jacob

Jeg tager det slet ikke som kritik. Jeg ser det som en reminder om at Google har lært verden at søge på deres måde. Det er en kæmpe udfordring, og noget man ikke lige løser over en weekend :)

Hvis nu jeg listede de samme ting som Google, ja, så havde jeg ikke lavet noget nyt. På den anden side, hvis der ikke er bare lidt elementer som folk genkender, så konkluderes der i retning af; Det virker jo slet ikke.

Ang. det omtalte site, vil jeg gerne lave en debug på det i næste uge – men resultatet gælder jo kun i mit system.

@claus

Lyder interessant meget eget datacenter. Jeg har valgt en mere pragmatisk approach og får Iconfinder hosted på MediaTemple for at holde omkostningerne nede.

1. Hvad benytter du til at matche søgeordet og det indekserede indhold – f.eks. indbyggede MySQL værkøjer som “full text search”?
2. Har du opbygget GRID databasen med MySQL eller er det noget du har kodet fra bunden?
3. Har du et link til et eller flere blog/beskrivelser af den approach du har til lave søgemaskinen med?

@Martin

1-2:
Jeg har designet og kodet min egen database. Den er designet således at den kan spredes over N antal maskiner og fungere som 1 eller flere enheder. Grunden til det er simpelt – kontrol og hastighed.
Det eneste jeg bruger MySql til, er til noget letvægts administration og bruger styring.
Når der laves en søgning, analyseres Queryen først og oversættes til tal, også går det ellers stærkt..

3:
Kig på denne her: http://infolab.stanford.edu/~backrub/google.html – den er en gamle traver, men ganske fin. Ellers har jeg læst en frygteligt masse bøger om bla. Syntax, Semantik, Parallel programmering, Data strukturering til spil (tror det eller lad vær, der er så meget at hente der mht. hastigheder), AI design m.v., jeg kan sende dig en liste med ISBN’er i næste uge, hvis du er interesseret?

[…] Tjek også podcastet med Claus og Ib Potter: Det semantiske internet. […]

Det er sku et ambitiøst projekt. Tager hatten af for det.

Efter at have hørt dette cut for noget tid siden, fik jeg endelig kastet mig over at blive tilmeldt og bruge sitexploration.com.

Og det kan meget stærkt anbefales, som en hjælp til at holde øje med udviklingen hos sine konkurrenter.

Hvorfor er søgemaskinen på zooka ikke oppe?

Skriv en kommentar

(påkrævet)

(påkrævet)


Queries: 46
Timer: 0,407