RT @iosif_lazaridis: "the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlight…
Abstrakt
Målet med den foreliggende studien var å beskrive den genetiske strukturen til den norske befolkningen ved hjelp av genotyper fra 6369 ubeslektede personer med detaljert informasjon om bostedsplasser. Ved hjelp av standard enkeltmarkør- og haplotypebaserte tilnærminger rapporterer vi bevis på to regioner med særegne mønstre av genetisk variasjon, en i det fjerne nordøst, og en annen i Sør-Norge, som indikert av fikseringsindekser, haplotype deling, homozygosity og effektiv befolkningsstørrelse. Vi oppdager og kvantifiserer en del av uralisk samisk opphav som er beriket i nord. I større skala ser vi at migrasjonsraten har blitt påvirket av topografi som fjellrygger. I den bredere skandinaviske konteksten oppdager vi forhøyet slektsskap mellom mellom- og nordgrenseområdene mot Sverige. Hovedfunnene i denne studien er at til tross for Norges lange maritime historie og som tidligere dansk territorium, synes regionen nærmest fastlands-Europa i sør å ha vært den mest isolerte regionen i Norge, og fremhever det åpne havet som en barriere mot genstrømmen.
Introduksjon
Befolkningsunderstrukturer kan gi opphav til falske positive assosiasjoner i foreningsstudier av genetiske varianter (1), kan avsløre historiske mønstre av befolkningsbevegelser (2, 3), og anslag over forfedre har potensial i å informere slektsforskning og rettsmedisinsk genetikk (4). Naturlige egenskaper, som hav- og fjellrygger, har en tendens til å begrense genstrømmen mellom grupper avindivider (5),noe som resulterer i reproduktiv isolasjon og divergens i allelefrekvenser over tid. Denne divergensen kan være spesielt uttalt i mindre populasjoner, på grunn av større genetisk drift. Blant befolkningene i Nord-Europa skyldes geografisk strukturerte forskjeller hovedsakelig isolasjon etter avstand, men kan også skyldes grunnleggingseffekter og påfølgende isolasjon (6, 7). Videre kan isolasjon og reduksjon av genstrømmen innenfor et geografisk område også manifestere en økning i recessive mendelianske lidelser (8, 9) og grunnleggermutasjoner. Faktisk har geografisk grupperte og ekspanderende BRCA1 grunnleggermutasjoner tidligere blitt rapportert for Norge (10, 11).
Norge er et av de mest tynt befolkede landene i Europa, men lite er kjent om hovedgenetisk struktur. Den relativt store landmassen har den lengste kystlinjen i Europa, men har en befolkning på bare ~ 5 millioner, som inkluderer en av de få urfolkene i Europa, samene. Med ugunstige klimatiske forhold, kombinert med det tredje minstrerbare landet i Europa, har Norge gitt sitt folk begrensede landbruksmuligheter. Historisk sett ble gårder fragmentert gjennom arv til stadig mindre enheter, noe som til slutt resulterte i uholdbar befolkningsvekst, spesielt i løpet av de 19Th Århundre. Kombinert med fattigdom motiverte dette masseutvandringen av en betydelig brøkdel (1/3) av befolkningen til Amerika i løpet av 1800-tallet, en brøkdel bare overgått av Irland (12). Til tross for nylig urbanisering, som førte til en tredjedel av befolkningen bosatt i byer med > 100 000 innbyggere, er Norge fortsatt preget av bygdesamfunn og små kystbyer. Mangfoldet i dialekter over hele landet tyder på begrenset genstrøm i det siste (13).
Som forventet viser genetiske studier at moderne nordmenn er mest nært knyttet til nabobestandene i Sverige og Danmark (14, 15). Genetiske studier av de menneskelige populasjonene i Danmark, Sverige, Finland og Island har avdekket noen spennende resultater, fremhever virkningen geografi har på menneskelig genetisk variasjon og blanding, inkludert minimal struktur i den danske befolkningen (15), en nord-sør gradient i Sverige (16) og grunnlegger effekter og genetisk drift i Finland (6, 17) og Island (14, 18, 19).
Her beskriver vi den geografiske strukturen i det norske genbassenget i detalj, basert på mikroarray genotyper fra 6369 ubeslektede individer, som ble tildelt geografiske koordinater basert på postnumre. Siden gjennomsnittsalderen for disse personene er ca. 64 år, gir vår analyse en oversikt over stratifisering i det norske genbassenget før de siste innvandringsepisodene (20, 21).
Materialer og metoder
Prøver
Datasettet ble avledet fra en biobank på ca. 18 000 EDTA-inneholdt blodprøver samlet inn over en periode på 25 år, som et pasientens selvhenvisningsinitiativ for overrepresentasjon av kreft hos familier, med både klinisk og forskningshensikt. Den inneholder informasjon om familiestruktur og postnumre, som ble omgjort til lengdegrad og breddegradskoordinater (22). Biobanken består av familier, så vel som urelaterte individer, med delvis stamtavleinformasjon som dekker mer enn 50.000 individer (10, 11). Det kliniske målet var å gi nytte for pasientene fra de etablerte oppfølgingsundersøkelsene med sikte på tidlig diagnose og behandling. Alle deltakerne ga separat skriftlig informert samtykke til dagens forskning, og studien ble godkjent av den regionale etiske gjennomgangsnemnda (REK sør-øst C: 2015/2382).
Genotyper og prøvekvalitetskontroll
DNA ble hentet ut og genotypet ved deCODE genetikk ved hjelp av Illumina OmniExpress 24 v 1.1 chip, som inneholder analyser for 713,014 SNPs. Dataanalyser ble utført både på "Tjenester for sensitive data" (TSD) plattform ved Universitetet i Oslo og ved deCODE genetikk. De genotypede prøvene ble utsatt for kvalitetskontroll og behandling i følgende rekkefølge (tilleggstabell S1), ved bruk av PLINK (v1.90b3) (23). Først ble autosomale SNPer med manglende hastighet > 2% fjernet, etterfulgt av fjerning av SNPer med en mindre allelefrekvens (MAF) <2%. Deretter ble prøver med mer enn 2% manglende data ekskludert, sammen med de uten postnummer. Dette resulterte i 583 183 autosomale SNPer skrevet inn 14 429 personer igjen. Til slutt identifiserte vi alle parvise relasjoner mellom enkeltpersoner ved hjelp av parameteren "--relatert --grad 3" i KING (v 1.2.3)(24),og forkastede personer relatert opp til tredje grad, og holder den eldste personen i hver avstamning. Dette resulterte i et datasett på 6545 personer uten nære relasjoner (slektskapskoeffisient <0,044) og en gjennomsnittsalder på 64 år. Det var en overvekt av kvinner (81%) som prøvene ble samlet inn gjennom selvhenvisninger for brystkreft.
Som vårt fokus er på befolkningshendelser som skjedde før de 20Th århundre, utførte vi analyser for å ekskludere enkeltpersoner fra vårt utvalg som stammer fra nylig migrasjon fra fjerne populasjoner. Vi vurderte omfanget av europeisk (CEU), asiatisk (CHB) og afrikansk (YRI) avstamning i vår norske prøve ved hjelp av ADMIXTURE (v 1.3.0) (25). Etter å ha undersøkt de resulterende distribusjonene, setter vi den maksimale terskelen for afrikansk avstamning til 5%, noe som fører til en utelukkelse av 65 personer. Omfanget av asiatisk avstamning i vårt datasett var mer uttalt (n = 141 > 5% asiatisk). Etter hvert som mange av disse prøvene ble funnet å være fra det nordligste fylket i Finnmark, spesielt fra den samiske byen Kautokeino, bestemte vi oss for å sette den asiatiske avstamningsgrensen > 35% (unntatt 29 prøver), for å beholde personer av antatt samisk avstamning. For å finne ut om disse faktisk var av samisk opphav, fusjonerte vi vårt datasett med et offentlig datasett med genotyper fra individer fra en rekke land, inkludert ett kjent samisk utvalg (26) og gjennomførte en PCA. Totalt utelukket vi 94 prøver fra videre analyse som overgikk terskler av afrikanske (> 5%) og østasiatisk opphav (>35%).
Eksempeltetthet
Prøvene i denne studien ble distribuert over det meste av Norge, med en overrepresentasjon av sørøstregionen som huser halvparten av befolkningen, og en underrepresentasjon fra Sogn og Fjordane og Finnmark (tabell 1). For de fleste analyser tildelte vi enkeltpersoner til ett av de 19 fylkene i Norge basert på postnumre og brukte en begrensning på maksimalt 200 tilfeldige utvalg per fylke.
Sammendragsstatistikk per fylke. N= antall prøver som passerer kvalitetskontroll. N*=det endelige antallet tilfeldige prøver per fylke inkludert i den endelige analysen, med maks 200. Gjennomsnittlig ROH=gjennomsnittlig sum av Runs-of-Homozygosity i cM. Mener IBD=Gjennomsnittlig i-fylke-IBD-deling i cM. Ne= anslag over effektiv befolkningsstørrelse ved g=5 siden. Pop. størrelse og pop. pr. km2= Folketellingens befolkningsstørrelse i 1970.
Skandinavisk datasett
Det norske datasettet ble slått sammen med utvidede versjoner av det danske og en svensk referanseprøve brukt i (14), genotyped på samme genotypingplattform. SNPs bestått kvalitetskontroll og filtrering kriterier i det norske datasettet ble hentet fra de danske og svenske datasettene, utvide datasettet med 1853 danske og 7966 svenske prøver.
Hovedkomponentanalyse
Det LD-beskjærede datasettet (PLINK: --indep-pairwise 200 25 0.2"), og spesielt unntatt 24 høye LD-regioner (27, 28), ble utsatt for hovedkomponentanalyse (PCA) som implementert i eigensoft v6.0.1 (7) funksjonen til smartPCA. Den parvise FSt ble beregnet uten automatisk fjerning av outliers (29).
Delte haplotyper og homozygosity
Manglende data i det kombinerte skandinaviske datasettet ble imputert og faset med beagle v.5 (30). Delte haplotyper, også kjent som IBD-segmenter (Identity-by-descent), ble oppdaget for autosomale kromosomer ved hjelp av RefineIBD (31), ved hjelp av standardinnstillinger (minimumslengde: 1,5 cM, lod > 3 i vinduer på 40 cM). Vi økte minimumsstørrelsen på IBD til 3 cM(31) og oppsummerte parvis IBD-deling mellom alle mulige par individer. Parvis fylkesnivå ble fastslått som gjennomsnittet av summen av IBD-deling mellom personer bosatt i de aktuelle fylkene. Fylkesinformasjon var tilgjengelig for Norge og Sverige, mens Danmark ble behandlet som en geografisk enhet.
Lengden på homozygøse segmenter (cM) i hvert individ ble oppsummert for å gi et mål på genomisk innavl, hvis fordeling ble vurdert etter fylke (maksimalt N-utvalg per fylke = 200, totalt N = 2984). For å lage et utjevnt konturkart over Norge kombinerte vi summen av homozygous innhold per person med breddegrad og lengdegrad i romlig regresjon som med i Krig-funksjonen i R-pakken"felt"( 2 , 32).
Historiske effektive befolkningsstørrelser
Timelige endringer i effektive populasjonsstørrelser kan estimeres med lengden og fordelingene av delte haplotyper (IBD) (33). Den effektive størrelsen (NE) av en populasjon kan vurderes fra mønsteret av genetisk variasjon i genbassenget og påvirkes av migrasjons- og vekstrater (34, 35). Her implementerte vi IBDne (33), for hvert fylke ved hjelp av IBD-segmenter kalt av RefineIBD-algoritmen (30, 36), forutsatt en generasjonstid på 30 år (37).
Estimering av migrasjonshastigheter og rettet genstrøm
Effektive migrasjonsrater i Norge ble estimert ved bruk av EEMS (38), ved hjelp av det LD-beskjærede datasettet. En romlig omriss av Norge ble konstruert ved å representere det som et konkavt skrog ved hjelp av R-pakken "konkavemann", og den resulterende polygonet ble brukt som grensebeskrivelse. En ulikhetsmatrise ved hjelp av det medfølgende skriptet "bed2diff" ble konstruert. Algoritmen tilordner enkeltpersoner til nærmeste deme, og ved hjelp av en stepping-stone modell, overføringshastigheter er estimert mellom demes. Vi utførte flere iterasjoner med 500 demes. Som anbefalt justerte vi migrasjons-, mangfolds- og frihetsgrader for en akseptrate på 10-40 %. Vi setter antall innbrenninger til 500 000 for å sikre at MCMC-algoritmen konvergerte.
Resultater
Befolkningsstruktur i Norge
Vi utførte en PCA for å oppdage finskala populasjonsstruktur ved hjelp av LD-filtrerte SNPer (n=102 023) (tilleggstabell S1). Først fargekodet vi prøvene i PCA (figur 1). Den første komponenten (PC1) ser ut til å fange Uralisk-assosiert blanding (supplerende figur S1), og variasjon i den andre komponenten (PC2) gjenspeiler drift i Sør-Norge. Den geografiske fordelingen av uralisk assosiert opphav ble kvantifisert for hvert fylke ved hjelp av resultatene fra Admixture (Supplerende figur S2). Potensielle kilder til uralisk opphav inkluderer uramene og senere immigrerende finske minoriteter. Vi fant også bevis for at den tredje (PC3) komponenten fanger meningsfull geografisk informasjon (Figur 1a og 1b). Gjennomsnittlig PC1-10 per kommune leveres i supplerende materialer. Vi vurderte relasjonene mellom PCer og geografi (breddegrad og lengdegrad) ved hjelp av en Pearsons produktøyeblikkskorrelasjonskoeffisienttest. PC1 viste signifikante (p < 2e-16) korrelasjoner med breddegrad (r = 0,42) og breddegrad (r = 0,44), det samme gjorde PC2 (p < 2e-16; breddegrad r = −0,32, lengdegrad r = −0,16). For ytterligere å undersøke korrelasjonen med geografi, fargekodet vi prøvene basert på fylke, og inspiserte utvalgsfordelingen i en PCA-tomt (Figur 1a og 1b). De fem postnumrene med de største eigenverdiene i PC1 (N-individer >1) var: Kautokeino, Nesseby, Nordreisa, Røyrvik og Alta i nordøst og Hægebostad, Hå, Eigersund, Birkenes og Seljord i Sør. En kommunes tabell med gjennomsnittlige PC1-10-verdier er tilgjengelig (https://doi.org/10.6084/m9.figshare.11235803.v1).
a) & b) PCA tomter av LD beskjærede SNPer (102,023) fargekodet etter fylke. Median PC1 og PC2 pr. fylke er merket med en større fylt sirkel. PC1 fanger den samiske komponenten, og PC2 en sørlig del av særegen drift. c) Fargekodet kart over fylkene i Norge. d) Hierarkisk klynger av Reichs FSt verdier, ved hjelp av kvadrerte ulikheter (menighet. D2) presentert som et fylogram.
For å sette den norske befolkningen i skandinavisk sammenheng gjennomførte vi en PCA av det kombinerte skandinaviske datasettet. Her er forskjellen i Sør-Norge tydelig (Tilleggstall S3). I de to første PCene er det tre dimensjoner av divergens: Uralisk-relatert herkomst, den norske sør, og den svenske nord.
Genetiske avstander mellom norske fylker
En hierarkisk klynge av parvis FSt avstander mellom fylkene viste et lignende mønster som PCA, med størst divergens i Finnmark i nord, etterfulgt av de sørlige fylkene Rogaland, Agder og Telemark (figur 1b). Vi merker oss at fylkene Møre og Romsdal, Trøndelag og Nordland grupperer seg sammen, og at fylkene ved Oslofjordområdet også utgjør en klynge. Gjennomsnittlig parvis FSt mellom norske fylker var 0,0012 (maks. 0,0073). Til sammenligning er gjennomsnittlig parvis FSt verdier for regional differensiering i omkringliggende land er: 0,0024 i Finland (maks: 0,006), 0,0002 i Danmark, 0,0012 i Sverige (maks: 0,0025) og 0,0007 i Storbritannia (maks: 0,003) (3, 15–17) (alle FSt verdiene er avledet fra samme programvare, med unntak av den danske studien). Det er klart at Finland skiller seg ut i denne sammenhengen, og Norge kan sammenlignes med Sverige når det gjelder interfylkedyrisering. Norge har imidlertid den største graden av differensiering i en nasjon, med Rogaland vs Finnmark, FSt = 0,0073, som også er den mest romlig fjerne (~ 1250 km) parvis sammenligning i Skandinavia (vi merker oss at den svenske studien utelukket prøver med Uralisk relatert avstamning)(16).
Slektskap og innavl i norske fylker
Vi vurderte gjennomsnittlig autosomal haplotypedeling (IBD > 3cM) innenfor og mellom fylkene (figur 2). Den klart største innenforfylket sa i Finnmark (52,2 cM), etterfulgt av Sogn og Fjordane (14,8 cM), Rogaland (14,2 cM) og Vest-Agder (13,5 cM). Den markerte haplotypedelingen i Finnmark skiller seg ut i norsk sammenheng, men forhøyet haplotypedeling er også funnet i den finske befolkningen, spesielt Øst-Finland(39), noe som tyder på homogenitet og små effektive befolkningsstørrelser. Derimot ble det observert den minste areplotypedelingen for hovedstaden Oslo (4,7 cM), Akershus (5,2 cM) og Østfold (5,7 cM). Størst haplotypedeling mellom fylkene ble observert for Troms og Finnmark i nord (18 kr), og for Vest-Agder og Aust-Agder i Sør (10,8 cM).
Visuell representasjon og hierarkisk klynger av den gjennomsnittlige kumulative summen av haplotypedeling (IBD > 3cM) innenfor og mellom fylker i Norge, i centiMorgans (cM). Samlet sett er det økt slektskap innenfor fylkene (diagonalt), og uttalt slektsenhet mellom fylker danner torg.
Homozygosity, målt som den oppsummerte lengden på homozygogous segmenter oppdaget av RefinedIBD, er relativt høy i nord, antagelig på grunn av økt samisk og finsk avstamning. Økt homozygosity er også tydelig i grenseområdene mot Sverige i midten, og innlandet i Midt-Norge, som stikker ut ned til den sørvestlige kysten (Figur 3). Områder med vesentlig lavere grad av homozygosity inkluderer Oslofjordområdet i sørøst, Trondheimsfjordområdet i midten og nordlandsfylket. Nordland, uten store byer og hjem til store fiskeplasser, fremstår heterogen. Vi vurderte også om personer fra distriktene (n=1701) var betydelig mer homozygous enn de fra urbane områder (20 største byer, n = 1283). Personer fra distriktene var betydelig mer homozygous enn individer fra urbane områder, med en median på 6,1 cM og 5,1 cM henholdsvis (tosidig t-test p = 9,28 × 10-9 (andre personer)).
Konturplott av den kumulative summen av homozygous segmenter (cM) på log10 skala oppdaget av Beagle, ekstrapolert av romlig regresjon (Krig / felt). De svarte prikkene representerer jittered koordinater av postnumre, ved hjelp av 2984 individer (maks 200 pr. fylke). De ti mest folkerike byene (> 50 000 innbyggere) er merket med hvite torg. Et kontinuerlig belte av forhøyet homozygosity strekker seg langs i interiøret, mot den sørvestlige kysten.
Slektskap til Danmark og Sverige
Vi utforsket gjennomsnittssummen for autosomal haplotypedeling (IBD > 3cM) mellom norske og svenske fylker, og Danmark som helhet (Tilleggsfigur S6 og S7). Vi finner et tydelig mønster av lav grad av delt avstamning mellom Norge og Danmark (3,1 cM), inkludert Sør/Sørøst-Sverige (Skåne=3,3 cM). I motsatt ende delte det nordligste fylket i Sverige, Norrbotten, henholdsvis 13,1 og 8,1 med Henholdsvis Finnmark og Troms. Videre oppdaget vi forhøyet haplotype deling mellom fylkene på grensen til Norge og Sverige. Det tidligere omstridte fylket Jämtland, erobret av Sverige i 1679, skiller seg ut for å ha en relativt høy IBD-deling med Nord-Trøndelag på 6,6 cM.
Historiske effektive befolkningsstørrelser
Fordelingen av delte IBD-segmentlengder er også informativ om NE gjennom tiden (33, 40). De fleste, men ikke alle, fylker avslører en nedgang i effektive befolkningsstørrelser, med minimum rundt 12-14 generasjoner siden på 1550-1600 e.Kr., forutsatt en 30-års generasjonstid (Supplerende figur S4). Dette minimumet er også rapportert i andre isolerte populasjoner i Nord-Europa (41).
Estimering av migrasjonshastigheter
Simuleringene av effektive migrasjonsoverflater returnerte mange mønstre, hvorav noen var konsistente på tvers av flere iterasjoner. Disse inkluderte en generell trend med kystlommer som fikk migrasjon og innlandsbarrierer (tilleggstall S5). Vi observerte tre av de bemerkelsesverdige funksjonene. For det første var en økt migrasjonsrate over et høylandsområde med tittelen "Hardangervidda" som ligger mellom de to største byene i Norge, Oslo og Bergen. Denne genetiske korridoren tilsvarer kjente gamle handelsstier og hestespor over dette høylandet. For det andre er det bevis for barrierer i sør, i tråd med nord-sørvendte daler, sammenfallende med dagens fylkesgrenser. For det tredje noterer vi en isolasjon av det tradisjonelle samiske området "Finnmarksvidda" lengst nord.
Diskusjon
Vi beskriver for første gang, ved hjelp av felles varianter, den genetiske strukturen til den norske befolkningen i genom-omfattende skala. Samene, og senere immigrerende minoriteter fra Finland, som "kvensk" og "Skogfinner" (~ 1500 e.Kr.), er anerkjente etniske minoriteter, og deres innflytelse på det genetiske landskapet i Norge er tydelig påviselig i PCA, spesielt i de tre nordligste fylkene (figur 1 og supplerende figur S1). Dette stemmer overens med bevis fra en helseundersøkelse utført på 1980-tallet i Finnmark, der 25 % av deltakerne rapporterte finsk familiebakgrunn. For å fullt ut sette pris på omfanget av finsk og samisk avstamning, kvantifiserte vi omfanget av asiatisk herkomst per fylke (Supplerende figur S1 & S2). Vi finner en betydelig grad av asiatisk avstamning (gjennomsnitt ~ 25%, Kautokeino), en størrelse som ligner på den rapporterte (42) i en enkelt samisk prøve (~ 25% Nganasan). Så vidt vi vet, rapporterer tidligere studier av samene i Finland mindre asiatisk opphav (~ 6%) (43), noe som tyder på en mer isolert samisk befolkning i Norge.
Våre resultater støtter videre divergens, isolasjon og homogenitet i de sørlige fylkene (Rogaland, Agder og Telemark). Isolasjonen er eksemplifisert av observasjonen om at Oslo har en lignende historisk profil av effektiv befolkningsstørrelse som den generelle britiske befolkningen, mens Rogaland hadde en lignende historisk profil som Orknøyene (41). Videre viser fylkene Rogaland og Vest-Agder forhøyede nivåer av innenfor-haplotype deling (~13-14 cM), noe som tyder på isolasjon og innavl (figur 2), samt økt homozygosity (figur 3) og små NE (Tabell 1). Dette er i tråd med tidligere rapporter om genetisk drift i Sør-Norge (10, 11).
Norge har nære historiske bånd til Danmark, da Norge ble en vasallstat i Danmark i 1380, som varte i 443 år, frem til 1814. PCA-analysene (Tilleggstall S4) og IBD tyder sterkt på at fylkene i Sør-Norge har avviket fra resten av den norske befolkningen på grunn av isolasjon, i stedet for genstrøm fra Danmark eller noen andre nærliggende populasjoner. Vi spekulerer i at isolasjonen i nord-sør kan være en konsekvens av en uvanlig kystlinje, med fravær av dype fjorder, vanlig andre steder i Norge, sen utvikling av infrastruktur som jernbane og veier de siste 100 årene og regionen som ikke klarer å rekruttere økonomiske innvandrere.
I medisinsk sammenheng er det behov for å etablere nasjonale frekvensbaserte databaser for sykdomsstudier (44). Vi har tatt det første skrittet i dette arbeidet ved å dokumentere geografiske mønstre av genetisk variasjon i den norske befolkningen. En slik database bør inneholde en relativt stor mengde frekvensforskjeller (vektet FSt=0,0073) mellom geografiske regioner (Rogaland (200) vs Finnmark (30), vektet FSt=0,0073, maksimal lokal FSt = 0,47, rs904274) i Norge. For å unngå uønskede effekter av populasjonstratifisering på genotype-fenotypeforeningsstudier, og for å øke presisjonen, bør detaljert geografisk informasjon av individuell opprinnelse inkluderes.
For første gang dokumenterer vi begrenset genstrøm i den sørlige delen av Norge, noe som motsier en vanlig forestilling om dansk blanding. Vi tar deretter sikte på å karakterisere de detaljerte befolkningsstrukturene i den norske befolkningen ytterligere ved hjelp av sjeldne varianter, da sjeldne varianter er mer geografisk gruppert, på grunn av deres nyere opprinnelse.
Tilleggsdata
Tilleggsdata inkluderer syv tall og én tabell.
Erklæring om interesser
Forfatterne erklærer ingen interessekonflikt.
Finansiering
Vi takker Kreftforeningen for midler (#194751: Økende kunnskap om arvelig brystkreft i Norge), og støtte fra Helse Sør-Øst, Norges forskningsråd (#223273) og Universitetet i Oslo.
Forfatter Bidrag
Studien ble unnfanget av E.H, O.A.A, P.M, K.S og A.H. TW og T.F.H. samlet den danske prøven og I.K., T.O. og LA samlet den svenske prøven. Genotyping ble utført av K.S. og A.H. Dataanalyse ble utført av M.M., E.H., S.S.E., A.H. og K.H.S.M. Manuskriptet ble utarbeidet av M.M, med bidrag fra E.H og A.H. Alle forfattere kommenterte utkastet og godkjente det endelige manuskriptet.
Supporting Information Legends
Figure S1: PCA of the dataset from this study (black) merged (SNPs = 58,457) with public datasets (26) of selected and colored European samples, including one single Sami sample (left legend). The size of the black circles (right legend) represents the percentage of Asian ancestry (CHB+JPT) calculated by ADMIXTURE (25).
Figure S2: The fraction of Asian ancestry pr. county (mean with standard error of the mean) indicate increased Asian ancestry in the northmost counties of Troms and Finnmark (ADMIXTURE/ HapMap CHB+JPT).
Figure S3: PCA plot of 8110 Scandinavian samples, consisting of 2985 Norwegians, 3519 Swedes and 1606 Danes, with regional information. A maximum of 200 samples was set pr. region, and LD pruned (“indep-pairwise 200 25 0.5”), leaving 238,689 SNPs. In additional to the diverging Sami/Finnish samples, samples from the northern counties of Sweden (Norrbotten and Västerbostten) and the southern counties of Norway (Rogaland, Vest-Agder, Aust-Agder and Telemark) display distinctive drift.
Figure S4: Changes in effective population sizes though time as estimated by IBDne, using IBD segments > 3 cM and maximum 50 generations back. The upper and lower 95% confidence intervals are marked with dotted lines. Most counties show a decrease in effective population sizes with a minimum around 12-14 generations ago. We assume the decline has been initiated by The Black Plague, with subsequent isolation, having a minimum at 1550-1600 AD (assuming a 30-year generation time). Counties in the far north and far south have the least growth in more recent times.
Figure S5: Simulation of effective migration rates using LD-pruned SNPs from 2984 (max 200 pr. county) individuals and 500 demes. Brown indicate areas of significantly reduced migration rates, and blue indicates significantly increased migration on a logarithmic scale. The black circles represent sample size and overlay grid (38).
Figure S6: The proportion of shared genomic content between counties in Norway, Sweden and Denmark. The border areas between Norway and Sweden share overall more genetic content compared that of Denmark and southern Sweden.
Figure S7: Visual representation and hierarchical clustering of the mean cumulative sum of haplotype sharing (IBD > 3cM) between counties in Norway and Sweden, including Denmark, in centiMorgans (cM). The color-coding does not scale linearly. Overall, Denmark and South/southeastern Sweden share less kinship towards Norway (dark left), than do the bordering counties between Norway and Sweden (upper right).
Table S1: Overview of quality control and the retained number of samples and SNPs.
Acknowledgements
We wish to express our deepest gratitude and respect to the volunteer participants. We also wish to acknowledge Erik Bolstad and ~600 Norwegian volunteers at the “dugnad” at yr.no for collecting and publishing postcodes with coordinates. We also wish to thank Arne Solli for interesting discussions.
References
RT @iosif_lazaridis: "the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlight…
RT @yorgos_a: The genetic structure of Norway https://t.co/xZeU2G3935
RT @yorgos_a: The genetic structure of Norway https://t.co/xZeU2G3935
RT @iosif_lazaridis: "the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlight…
RT @iosif_lazaridis: "the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlight…
RT @iosif_lazaridis: "the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlight…
"the region closest to mainland Europe in the south appears to have been the most isolated region in Norway, highlighting the open sea as a barrier to gene flow." https://t.co/7cPASJjppF
The genetic structure of Norway https://t.co/xZeU2G3935
The genetic structure of Norway https://t.co/A9Dm2Adt3M @biorxivpreprint @biorxiv_genetic
The genetic structure of #Norway https://t.co/kAf0ODJ3Lm see also: ref #44. #PM101
RT @biorxivpreprint: The genetic structure of Norway https://t.co/uMsOgEtLKM #bioRxiv
RT @DebbieKennett: New preprint on the genetic structure of Norway. https://t.co/pvedrUQtap https://t.co/r7PMSr0nun
RT @DebbieKennett: New preprint on the genetic structure of Norway. https://t.co/pvedrUQtap https://t.co/r7PMSr0nun
RT @DebbieKennett: New preprint on the genetic structure of Norway. https://t.co/pvedrUQtap https://t.co/r7PMSr0nun
New preprint on the genetic structure of Norway. https://t.co/pvedrUQtap https://t.co/r7PMSr0nun
RT @aDNA_papers: The genetic structure of Norway https://t.co/PrFMDW5NUZ
RT @aDNA_papers: The genetic structure of Norway https://t.co/PrFMDW5NUZ
The genetic structure of Norway https://t.co/qgpZ5KX8o8
RT @biorxiv_genetic: The genetic structure of Norway https://t.co/aZ5DJW0mcI #biorxiv_genetic
The genetic structure of Norway https://t.co/QmnW0JqtT8
The genetic structure of Norway https://t.co/PrFMDW5NUZ
RT @biorxivpreprint: The genetic structure of Norway https://t.co/uMsOgEtLKM #bioRxiv
RT @biorxiv_genetic: The genetic structure of Norway https://t.co/aZ5DJW0mcI #biorxiv_genetic
The genetic structure of Norway https://t.co/aZ5DJW0mcI #biorxiv_genetic
The genetic structure of Norway https://t.co/uMsOgEtLKM #bioRxiv