Posts Tagged ‘dublicate content’

Jeg vil tracke alt !

Monday, August 10th, 2009

Igen idag havde mine kollegaer og jeg en super dialog omkring nogle af de problemer vi har med dublicate content.

Når man som mig er statistik nørd, vil man gerne kunne tracke præcist hvad der klikkes på, ikke bare hvilken side men også hvor på siden. Det er her vi har nogle af vores udfordringer.  Vi bruger Google analytics, og det er et fantastisk lille stykke værktøj, der er ikke det man ikke kan se og måle på.

Forestil jer følgende:

vi har en side der hedder http://www.computerworld.dk/art/52005/her-er-de-10-mest-betydningsfulde-danske-spil, det er den side som er vores primære side og den vi gerne vil have Google til at finde. For at finde denne side på computerworld.dk er der flere forskellige links:

1: Tophistorie

2: Seneste nyt

3: Mest læste seneste uge

4: Mest læste igår

5: Mest læste lige nu

6: Computerworld newsletter

7: link fra anden artikel

Alle disse forskellige indgangsvinkler til artikelen er jo som udgangspunkt helt fantastisk. Men…. Her har vi et problem. Vi tracker alt! For at vi kan se hvorfra man kommer ind på artiklen tilføjes et parameter, ?a=block&i=224&pos=1, lige præcis dette parameter gør at jeg kan se at det kommer fra øverste link i mest læste lige nu boksen der ligger i bunden af computerworld.dk. Det er pisse fedt at vi kan se det… Det er ikke pissefedt at det betyder at hver artikel har minimum 7 forskellige url’s.  Hver eneste af de ovenstående indgange til artiklen tilføjer et nyt parameter.

Det helt store spørgsmål er så hvordan kan vi undgå dublicate content, når vi samtidig vil måle alt?

Jeg er jo ikke udvikler, så jeg har en naturlig begrænsning i forhold til hvad der kan gøres rent kodemæssigt for at undgå at indsætte disse parametre. Nu har vi sparket tankerne igang hos os alle og jeg føler mig ret overbevist om at drengene nok skal komme op med løsningen.

Skulle der læse en med der har svaret, så fyr løs !

Henrik

Dublicate content og jobportaler

Monday, August 3rd, 2009

hmmm… Så blev det endnu engang et indlæg omkring dublicate content.

På jobbet idag havde jeg en diskusion med en af mine gode kollegaer vedr. graden af dublicate content på alle jobsites og jobportaler.

Eksemplet er at et firma, lad os kalde det Firmaet har brug for en ny medarbjeder. Firmaet tager derefter kontakt til Stepstone, som lægger jobbet op på stepstone.dk. Firmaet har selv udformet annoncen. Pga Stepstones sammenarbejde med it-jobbank.dk ligger jobbet også der. Om natten crawler Jobindex.dk så it-jobbank.dk og nu ligger jobbet også hos jobindex.dk. Nu bliver det tricky; Nu ser en sælger hos Jobworld. dk jobbet, fordi de sidder og overvåger de andre jobsites, og tager derefter kontakt til Firmaet, så jobbet også kan blive vist på jobworld.dk og comon.jobworld.dk. Herefter crawler Monster.dk jobworld.dk og så ligger jobbet også der.

Det betyder kort og godt at på et par dage ligger det samme job på rigtig mange sites. Fimaets eget site, Stepstone.dk, it-jobbank.dk, jobindex.dk, jobworld.dk, comon.jobworld.dk, moster.dk osv osv.. Der findes et utal af jobportaler så man må antage at jobbet kan ligge mange flere steder end de ovennævnte. havde der været et rekruterings bureau indover havde det også ligget der.

Jobbet vil dermed ligge på minimum 8 forskellige sites inden for et par dage. Her er så spørgsmålet; Er det dublicate content ? og hvis det er er det så Pagerank der afgør hvem der for det første resultat på Google ???

Kan et site der lever af at sælge pladser til jobannoncer (stepstone, jobworld, it.jobbank osv) med fordel sidde og nørkle lidt med teksten så de får unikt indhold….. det må stå hen i det uvisse i første omgang.

Jeg mener bestemt at det er dublicate content, hvor min kollega var lidt mere tilbageholden. Det kunne være man skulle snakke med nogen eksperter :)

blot lidt seo tanker her ved midnatstid.

Henrik

Canonical tag

Saturday, August 1st, 2009

Meningen med dette tag var at alle os der havde problemer med dublicate content, blot kunne implementere dette tag, og så var alle dublicate content problemer løst.

Et af de sites jeg arbejder med, har store dublicate content problemer grundet vores meget detaljeret statistik målinger. det betyder at vi har samme indhold liggende på op til ti forskellige urls. Vi havde kontakt med en af danmarks bedste SEO folk Thomas Rosenstand, som meget hurtigt meldte tilbage at det problem vi havde mestendels bundede i dublicate content.

Ingen tivivl om at den bedste løsning er at bygge sit site op så man undgår dublicate content, men da vores system og site er voldsomt komplekst, ville det være en opgave som ville tage vores udvikler team, så lang tid at formålet var forsvundet. Så da Google samtidig introducerede et tag (canonical tag) var vi jo lykkelige, vi ville få løst vores udfordring på en enkelt time.

Det så faktisk ud til at det virkede.

Nu er Mikkel DeMib så ude og fortælle at man ikke kan bruge canonical tagget til at omgå dublicate content. Det virker simpelthen ikke. Her tænkte jeg at han bare skulle brokke sig, fordi han partout skulle have en anden mening end Google, men når jeg laver nogle forskellige søgninger kan jeg også konstatere at det i hvertfald ikke virker hver gang. Det har fuldstændig sit eget liv. Nogle gange virker det, andre gang virker det ikke. Det gør dog noget bare ikke nødvendigvis det rigtige. Jeg har ved flere søgninger konstateret at den url der indekseret ikke er den vi har bedt om, men derimod vores mobil site, og det er i den grad ikke særligt hensigtsmæssigt.

Hva gør vi så? Mon ikke vores udviklerer må en tur i tænkeboks, så vi kan få lavet vores system , så det ikke genererer dublicate content. Det tror jeg.

Henrik