ართული ნის როვნული ორპუსი
The Georgian National Corpus
ქართული ენის ეროვნული კორპუსი

ქეეკ (ქართული ენის ეროვნული კორპუსი) არის ქართული ენობრივი რესურსების რეპრეზენტატიული კორპუსი, რომელიც წარმოადგენს ღია რესურსს და შევსებადია.

ქართული ენის ეროვნული კორპუსი აერთიანებს ქართული ენის როგორც წერილობით, ისე ზეპირმეტყველების ნიმუშებს. იგი მოიცავს ქართული ენის განვითარების სამივე საფეხურს და შედგება ძველი ქართულის (GNC ძველი ქართული), საშუალი ქართულის (GNC საშუალი ქართული) და ახალი ქართული ენის (GNC ახალი ქართული) ტექსტების ქვეკორპუსებისაგან; კორპუსში ასევე შესულია მეგრული და სვანური ტექსტები და ტრანსკრიბირებული დიალექტური ჩანაწერების ორი ქვეკორპუსი (GDC და SSGG).

ქართული ენის ეროვნული კორპუსის ყველაზე რეპრეზენტატიულ ქვეკორპუსს, როგორც მოცულობის, ისე ჟანრობრივი თვალსაზრისით, წარმოადგენს ქართული ენის რეფერენციული კორპუსი (GRC), რომელიც ქართული ენის ქვეკორპუსების გარდა ღია დიგიტალურ ინტერნეტრესურსებსაც მიემართება. ქართული ენის რეფერენციული კორპუსის ტექსტები ერთმანეთისაგან განსხვავდება არა მარტო ჟანრული თვალსაზრისით, არამედ იმითაც, რომ ლინგვისტური და მეტაენობრივი დამუშავების განსხვავებულ დონეებს გვიჩვენებს.

ქართული ენის ეროვნული კორპუსი ანოტირებულ კორპუსს წარმოადგენს. GNC-ში შემავალ ყველა ტექსტი აღჭურვილია მეტამონაცემებით. კორპუსის დიდი ნაწილი (GRC და GNC) გრამატიკულად ანოტირებულია (თითოეულ ტოკენს თან ახლავს ლემა და მორფოსინტაქსური მახასიათებლები).

ქართული ენის ეროვნული კორპუსი აღჭურვილია მრავალფუნქციური სამომხმარებლო ნიღბით (interface), რომელიც მარტივი ან რთული ძიების საშუალებას იძლევა და გამოსადეგია დიაქრონიული და სინქრონიული კვლევების განსახორციელებლად.


Design & implementation: Paul Meurer, Uni Research Computing, 2016 | Copyright (C) GNC Project 2011 – 2016