Corpas Náisiúnta na Gaeilge
Is corpas cothromaithe é Corpas Náisiúnta na Gaeilge (CNG) a bhfuil 100 milliún focal ann, idir ábhar scríofa agus ábhar labhartha. Baineann na téacsanna go léir a tiomsaíodh don chorpas leis an tréimhse 2000–2024 agus é i gceist go mbeadh sé ionadaíoch ar an nGaeilge chomhaimseartha.
URL | https://corpas.ie/ |
---|---|
Cineál | corpas téacs agus suíomh gréasáin |
Teanga | an Ghaeilge |
Cur i seirbhís | 29 Samhain 2024 |
Tír | Éire |
Tá meascán mór seánraí, foinsí, agus canúintí in CNG agus iad ualaithe ar bhealach a sheachnaíonn róthionchar a bheith ag duine, seánra, nó saothar ar leith ar an gcorpas trí chéile. Úsáidfear CNG chun ceisteanna ginearálta teanga a fhiosrú, mar shampla, cé chomh minic is a úsáidtear focal nó frása áirithe, cén réamhfhocal is mó a úsáidtear le briathar áirithe srl. Is iomaí duine a ritheann ceisteanna den sórt sin leo agus iad ag foghlaim, ag scríobh nó ag aistriú agus cuirfidh cuardach in CNG fianaise iontaofa ar fáil dóibh a chabhródh leo freagra sásúil a aimsiú. Ní hamháin sin ach is féidir le ríomheolaithe na sonraí corpais a phróiseáil ar bhealaí éagsúla chun samhlacha teanga a ghiniúint nó chun liostaí minicíochta a dhéanamh.
Cothromú
cuir in eagarCothromaíodh an corpas ar dhá phríomhbhealach: 1) bailíodh an saothar bunaidh ón oiread foinsí agus seánraí agus ab fhéidir agus 2) coigeartaíodh líon focal cineálacha téacs áirithe (e.g. ábhar reachtach) chun ró-láithreacht foinsí agus seánraí áirithe i dtorthaí cuardaigh a sheachaint. Is fiú a thabhairt faoi deara, áfach, nach próiseas beacht matamaitice é corpas a chothromú ach iarracht thomhaiste chun corpas a chruthú atá ionadaíoch ar staid na teanga. I measc na gcúiseanna atá leis seo tá (1) cineálacha áirithe téacs a bheith i bhfolach ón taighdeoir toisc go bhfuil siad pearsanta nó íogairh (m.sh. comhráite i measc cairde agus teaghlaigh, deasghnátha reiligiúnacha áirithe), (2) cineálacha téacs eile a bheith costasach ó thaobh próiseála de (ábhar cainte a thras-scríobh) agus, i gcásanna áirithe, (3) sealbhóirí cóipchirt nach bhfuil sásta ábhar áirithe a roinnt. Chomh maith leis na tosca seo, a bhaineann le gach teanga, tá ceisteanna breise ann a bhaineann le caillteanas fearainn i gcomhthéacs teanga mionlaigh – is iomaí réimse saoil nach bpléitear mórán leo trí mheán na Gaeilge.
Struchtúr
cuir in eagarIs ríléir ón bpíchairt go bhfuil i bhfad níos lú ábhar labhartha in CNG ná ábhar scríofa. An chúis atá leis sin ná nach raibh an oiread sin ábhar tras-scríofa urlabhra ar fáil. Bhí an tionscadal in ann teacht i dtír ar chnuasach téacsanna tras-scríofa a chruthaigh rannóg foclóireachta Fhoras na Gaeilge mar chuid de thionscadal an Fhoclóra Nua Béarla-Gaeilge agus rinne foireann an tionscadail seo tras-scríobh as an nua ar roinnt cláracha teilifíse ó TG4 i measc rudaí eile ach is próiseas malltriallach chostasach é an tras-scríobh de láimh agus ní raibh sé d'acmhainn ag an tionscadal mórán thairis sin a dhéanamh. Meastar go réiteoidh an mheaisínfhoghlaim an fhadhb sin sna blianta beaga amach romhainn ach ní raibh an teicneolaíocht teanga go téacs forbartha go dtí leibhéal sásúil cruinnis i gcás na Gaeilge chun dul chun tairbhe an tionscadail.[1]