ᲤორმირებისᲙოლეჯებისა და უნივერსიტეტების

Რა არის კორპუსის ლინგვისტიკა?

რამდენიმე ათეული წლის წინ ავტომატიზაცია ლინგვისტური კვლევის, მეცნიერები შეიძლება მხოლოდ ოცნება. მუშაობა კეთდება ხელით, ეს იზიდავს დიდი რაოდენობით სტუდენტები, არსებობს არსებითი ალბათობა "უყურადღებოდ" შეცდომები, და რაც მთავარია - ეს ყველაფერი დიდი ხნის, დიდი ხნის განმავლობაში.

განვითარებასთან ერთად კომპიუტერული ტექნიკა გახდა შესაძლებელი ჩაატაროს კვლევა ბრძანებით მასშტაბები სწრაფად და დღეს ერთ-ერთი ყველაზე პერსპექტიული მიმართულებაა შესწავლა ენა არის კორპუსის ლინგვისტიკის. მისი მთავარი ფუნქცია არის გამოყენების დიდი მოცულობის ტექსტის ინფორმაციას, ერთ მონაცემთა ბაზაში, სპეციალური გზა და მოუწოდა აღინიშნება სხეულის.

დღეისათვის არსებობს მრავალი შენობა იქმნება სხვადასხვა მიზნებისათვის საფუძველზე სხვადასხვა ენობრივი მასალის პორტატული მილიონობით ათობით მილიარდი ლექსიკური ერთეულები. ამ მიმართულებით აღიარებულია, როგორც პერსპექტიული და იმაზე მნიშვნელოვანი პროგრესი განაცხადი და კვლევითი მიზნებისათვის. ექსპერტები, ერთი გზა ან სხვა საქმე ბუნებრივი ენა, მიზანშეწონილია გაეცნოს ორგანოს ტექსტები მინიმუმ საბაზისო დონეზე.

ისტორია კორპუსის ლინგვისტიკის

ფორმირების ეს ტენდენცია განპირობებულია შექმნას ამერიკის შეერთებული შტატების Brown სხეულის ადრეულ 60-იან წლებში გასული საუკუნის. კოლექცია მოიცავს ტექსტების ყველა 1 მილიონი სიტყვა ფორმები და დღეს ორგანოს ამ ზომის იქნება მთლიანად არაკონკურენტუნარიანი. ეს დიდწილად იმის გამო, განვითარების ტემპი კომპიუტერული ტექნიკა, ისევე როგორც მზარდი მოთხოვნების ახალი კვლევის რესურსები.

90-იან წლებში კორპუსის ლინგვისტიკის გაჩნდა შევიდა სრული და დამოუკიდებელი დისციპლინის, კოლექცია ტექსტები შედგენილია და აღნიშნეს ათეულობით ენაზე. ამ პერიოდში შეიქმნა, მაგალითად, ბრიტანეთის ეროვნული Corpus 100 მილიონი სიმბოლოს.

განვითარების ამ სფეროში ლინგვისტიკის, ტექსტი ტომი სულ უფრო და უფრო (და მიაღწიოს მილიარდობით ლექსიკონი ერთეულების), და განლაგება უფრო მრავალფეროვანი. დღემდე, ინტერნეტ სივრცეში გვხვდება გვამები წერილობითი და სალაპარაკო ენის, ენისა და სწავლის ორიენტირებული მხატვრული და სამეცნიერო ლიტერატურის, ისევე როგორც მრავალი სხვა სახეობა.

რა საბინაო

სხეულის ტიპის ორგანოს ენათმეცნიერების შეიძლება უზრუნველყოფილი იყოს რამდენიმე მიზეზის გამო. ინტუიციურად, საფუძველი კლასიფიკაცია შეიძლება იყოს ტექსტი ენაზე (რუსული, გერმანული), დაშვების რეჟიმი (ღია, დახურული, კომერციული), ჟანრის წყარო მასალის (მხატვრული, დოკუმენტური, სასწავლო, ჟურნალისტიკა).

საინტერესო გზა წარმოშობს მასალები სალაპარაკო ენა. მას შემდეგ, რაც განზრახ ჩაწერის ასეთი გამოსვლა, რათა შეიქმნას ხელოვნური გარემოს რესპონდენტთა და შედეგად მასალა ვერ ვუწოდებთ "სპონტანური", თანამედროვე კორპუსის ლინგვისტიკის წავიდა სხვა გზით. მოხალისე აღჭურვილია მიკროფონი, და დღის განმავლობაში წარმოებული ჩანაწერი ყველა საუბარი, რომელშიც მონაწილეობას. ხალხი გარშემო, რა თქმა უნდა, არ იცით, რომ, რა თქმა უნდა ყოველდღიურ საუბარში ხელს უწყობს მეცნიერების განვითარების.

მოგვიანებით ჩანაწერი ინახება მონაცემთა ბაზაში და თან ახლავს დაბეჭდილი ტექსტის ტრანსკრიპტი ტიპის. ამგვარად, შესაძლებელი ხდება markup საჭიროა შეიქმნას ზეპირი ყოველდღიურ სიტყვის საცხოვრებელი.

პროგრამა

შეძლებისდაგვარად, ენის გამოყენება, და, ალბათ, შენობა-ნაგებობების გამოყენება ტექსტები. მეთოდები გამოიყენოს კორპუსის ლინგვისტიკაში შეიძლება იყოს:

  • შექმნა პროგრამა განსაზღვრის გასაღები, ფართოდ გამოიყენება პოლიტიკისა და ბიზნესის შენარჩუნება სიმღერა დადებითი და უარყოფითი რეაგირება ამომრჩევლის მომხმარებელს, შესაბამისად.
  • კავშირი საინფორმაციო სისტემის ლექსიკონები და მთარგმნელები გააუმჯობესოს მათი შესრულება.
  • სხვადასხვა კვლევის ამოცანები, რომლებიც ხელს უწყობს გაგება ენის ერთეული, ისტორია და მისი განვითარების პროგნოზი ცვლილებები უახლოეს მომავალში.
  • განვითარების ინფორმაციის მოძიება სისტემების საფუძველზე მორფოლოგიური, სინტაქსური, სემანტიკური და სხვა ფუნქციები.
  • ოპტიმიზაცია სხვადასხვა ენობრივი სისტემები და სხვ.

შენობა-ნაგებობების გამოყენება

მსგავსი რესურსი ინტერფეისი ტიპიური საძიებო სისტემა და თხოვს მომხმარებელს შეიყვანეთ სიტყვა ან კომბინაცია სიტყვა მოძიება ინფორმაცია ბაზა. გარდა შექმნას ზუსტი შეკითხვის შეგიძლიათ გამოიყენოთ გაუმჯობესებული ვერსია, რომელიც საშუალებას იძლევა ტექსტური ინფორმაცია პრაქტიკულად ნებისმიერი ენობრივი კრიტერიუმებს.

ძიება ბაზა შეიძლება იყოს:

  • კონკრეტულ ჯგუფს ნაწილები სიტყვის;
  • გრამატიკული თვისებები;
  • სემანტიკა;
  • სტილისტური და ემოციური შეღებვა.

ასევე შეგიძლიათ დააკავშიროთ ძებნის კრიტერიუმი თანმიმდევრობა სიტყვა, მაგალითად, რომ ყველა მოვლენები ზმნის აწმყოში, პირველი პირი სინგულარული, რომელიც მას შემდეგ წინდებული "" და არსებითი წელს accusative შემთხვევაში. გამოსავალი არის ისეთი მარტივი ამოცანა იღებს შესახებ რამდენიმე წამში და მოითხოვს მხოლოდ რამდენიმე მაუსის დაწკაპუნებით მითითებულ სფეროში.

შექმნის პროცესი

ძიება თავად შეიძლება განხორციელდეს ყველა subcorpus და ერთი სპეციალურად შერჩეული, საჭიროებისა მისაღწევად კონკრეტული მიზანი:

  1. პირველი ნაბიჯი არის, რომელიც განსაზღვრავს ტექსტები საფუძველს შემთხვევაში. პრაქტიკული მიზნებისათვის, იგი ხშირად გამოიყენება ჟურნალისტური, ახალი ამბები, ონლაინ კომენტარი. კვლევის პროექტის გამოყენების მრავალფეროვანი პაკეტი ტიპის, მაგრამ ტექსტი არ უნდა შეირჩეს რაღაც საერთო.
  2. შედეგად კოლექცია ტექსტები დაექვემდებაროს დამუშავება, არსებობს შეცდომების გასწორება, ასეთის არსებობის შემთხვევაში, მათ მიერ მომზადებული ბიბლიოგრაფიული და დამატებითი ენობრივი აღწერა ტექსტი.
  3. აღმოფხვრილია ყველა არასამთავრობო ტექსტური ინფორმაცია: გაასუფთავებს გრაფიკა, სურათები, მაგიდები.
  4. არის გამოყოფის სიმბოლოს, რომელიც, როგორც წესი, სიტყვის, შემდგომი დამუშავება.
  5. და ბოლოს, ეს ხორციელდება მორფოლოგიური, სინტაქსური და სხვა აღნიშვნები მიღებული სიმრავლის ელემენტები.

შედეგი ყველა ტრანზაქციის სინტაქსური სტრუქტურა განაწილებული მასში გავურბივარ ელემენტები, რომელთაგან თითოეული არის განსაზღვრული ნაწილი სიტყვის, გრამატიკული და, ზოგიერთ შემთხვევაში, სემანტიკური ატრიბუტები.

სირთულეები შექმნაში შენობა

მნიშვნელოვანია, გვესმოდეს, რომ ეს არ არის საკმარისი იმისათვის, რომ ერთად კომპლექტი სიტყვა ან სასჯელს ორგანო. ერთის მხრივ, კოლექცია ტექსტები არ უნდა იყოს დაბალანსებული, რომ არის, წარმოადგენს სხვადასხვა ტიპის ტექსტების გარკვეული პროპორციებით. მეორეს - შინაარსი დანართი უნდა დაშორებული სპეციალური გზა.

პირველი პრობლემა მოგვარდება შეთანხმება: მაგალითად, კოლექცია მოიცავს 60% ლიტერატურული ტექსტების 20% დოკუმენტური, გარკვეული პროცენტი გადაეცემა წერილობითი წარმომადგენლობა სალაპარაკო ენა, კანონმდებლობა, სამეცნიერო ნაშრომები და ა.შ. სრულყოფილი რეცეპტი დაბალანსებული ორგანო დღეს არ არსებობს ...

მეორე საკითხი, რომელიც ეხება content განლაგება, გადაწყვიტოს რთული. არსებობს სპეციალური პროგრამები და ალგორითმები გამოიყენება ავტომატური მარკირების ტექსტები, მაგრამ მათ არ მისცეს სრულყოფილი შედეგი, შეიძლება გამოიწვიოს ხასიათის დარღვევებს და მოითხოვს სახელმძღვანელო rework. შესაძლებლობები და გამოწვევები, ამ პრობლემის დეტალურად აღწერილია ქაღალდის V. P. Zaharova of კორპუსის ლინგვისტიკის.

Text Markup ხორციელდება რამდენიმე დონეზე, რომელიც ჩვენ სიიდან.

მორფოლოგიური tagging

სკოლა, ჩვენ გვახსოვს, რომ რუსულ ენაზე, არსებობს სხვადასხვა ნაწილები სიტყვის, და თითოეული მათგანი აქვს საკუთარი მახასიათებლები. მაგალითად, ზმნის აქვს კატეგორიის მიდრეკილება და დროს, რომელიც არსებობს არსებითი. მშობლიური უყოყმანოდ უარს არსებითი და conjugate ზმნები, მაგრამ აღსანიშნავად ორგანოს 100 მლნ. სიმბოლოს ხელით შრომის არ იმუშავებს. ყველა საჭირო ოპერაციების შეუძლია შეასრულოს კომპიუტერი, თუმცა, ეს მას სჭირდება, უნდა ისწავლებოდეს.

მორფოლოგიური tagging, კომპიუტერი უნდა "მესმის" თითოეულ სიტყვას, როგორც გარკვეული ნაწილი სიტყვის რომელსაც გარკვეული გრამატიკული თვისებები. მას შემდეგ, რაც რუსეთის (და ნებისმიერ სხვა ენაზე) მოქმედებს რაოდენობის რეგულარული წესები, შესაძლებელია აშენება ავტომატური პროცედურა მორფოლოგიური ანალიზი, ინვესტიციების მანქანა ნომერი ალგორითმები. თუმცა, არსებობს გამონაკლისებიც, ისევე როგორც სხვადასხვა ართულებს ფაქტორი. შედეგად, წმინდა კომპიუტერული ანალიზი დღეს შორს არის იდეალური, და კიდევ 4% შეცდომა უკომპრომისო ღირებულება 4 მლნ. Words სხეულზე 100 მლნ. ერთეული, რომელიც მოითხოვს სახელმძღვანელო rework.

თვის წიგნში აღწერილია პრობლემა Zaharova V. P. "კორპუსის ლინგვისტიკა".

სინტაქსური ანოტაცია

დამუშავების და parsing - პროცედურა, რომელიც განსაზღვრავს ურთიერთობას სიტყვა სასჯელს. გამოყენება კომპლექტი ალგორითმები შესაძლებელია განისაზღვროს ტექსტის სათაური, ძირითადი დამატებები, მრავალი მონაცვლეობით სიტყვის. გასარკვევად, რომელიც სიტყვა მთავარი თანმიმდევრობით და რომელიც - დამოკიდებული, ჩვენ შეგვიძლია ეფექტურად ამონაწერი ინფორმაციას ტექსტი და ასწავლონ მანქანა გასცეს საპასუხოდ საძიებო მოთხოვნა მხოლოდ იმ ინფორმაციას, საინტერესოა ჩვენთვის.

სხვათა შორის, თანამედროვე საძიებო სისტემებში გამოიყენოთ ეს გასცემენ კონკრეტული ციფრები ნაცვლად ხანგრძლივი ტექსტები საპასუხოდ შესაბამისი შეკითხვებს, როგორიცაა "რამდენი კალორია ვაშლის" ან "მანძილი მოსკოვიდან სანკტ-პეტერბურგში". თუმცა, იმის გაგება, თუნდაც საფუძვლებს პროცესი აღწერილი უნდა კონსულტაციები "შესავალი კორპუსის ლინგვისტიკა" და სხვა ძირითადი tutorial.

სემანტიკური markup

სემანტიკა სიტყვა - ეს არის, მარტივი თვალსაზრისით, მნიშვნელობა. ფართოდ გამოიყენება მიდგომა სემანტიკური ანალიზი სიტყვა მოხსენიება tags, რომელიც ასახავს მისი კუთვნილი კომპლექტი სემანტიკური კატეგორიები და ქვეკატეგორიები. ასეთი ინფორმაცია არის ღირებული ოპტიმიზაციის ალგორითმის ანალიზი ტექსტი ტონი, ავტომატიკა შეჯამება და სხვა ამოცანებს მეთოდები კორპუსის ლინგვისტიკის.

არსებობს მთელი რიგი "root" ხე, რომელიც წარმოადგენს აბსტრაქტული სიტყვა ძალიან ფართო სემანტიკა. როგორც ფილიალი ხე კვანძების იქმნება, რომელიც შეიცავს უფრო და უფრო კონკრეტული ლექსიკური ელემენტები. მაგალითად, სიტყვა "არსება" შეიძლება დაკავშირებული იყოს ისეთი ცნებები, როგორც "ადამიანის" და "ცხოველთა". პირველი სიტყვა გააგრძელებს ფილიალი out შევიდა სხვადასხვა პროფესიის, ნათესაობის თვალსაზრისით, ეროვნების, და მეორე - კლასები და სახის ცხოველები.

გამოყენება, ინფორმაციის მოძიება სისტემები

ტერიტორიების გამოყენების კორპუსის ლინგვისტიკის მოიცავს მრავალფეროვან სფეროებში. Housings გამოიყენება მომზადება და კორექტირება ლექსიკონები, შექმნა ავტომატური თარგმანი სისტემები, annotating, მიღება ფაქტები, განსაზღვრის ტონი და სხვა ტექსტის დამუშავება.

გარდა ამისა, ასეთი რესურსები აქტიურად გამოიყენება შესწავლა მსოფლიოს ენებზე და მექანიზმების ფუნქციონირების ენის კულტურას. ხელმისაწვდომობა დიდი მოცულობის წინასწარ მომზადებული ინფორმაცია ხელს უწყობს სწრაფი და სრულყოფილი შესწავლა განვითარების ტენდენციები ენებზე და სტაბილური ფორმირების ნეოლოგიზმები სიტყვის სიჩქარის ცვლილება აფასებს ლექსიკური ერთეულები და სხვა.

მას შემდეგ, რაც მუშაობა ასეთი დიდი რაოდენობით მონაცემები მოითხოვს ავტომატიკა, დღეს არსებობს მჭიდრო ურთიერთქმედების კომპიუტერი და კორპუსის ლინგვისტიკის.

რუსეთის ეროვნული Corpus

ამ შემთხვევაში (შემოკლებით NKRYA) მოიცავს რიგ subcorpus, რომელიც საშუალებას გამოყენების რესურსი მრავალფეროვანი ამოცანები.

მასალების მონაცემთა ბაზაში იყოფა NKRYA:

  • პუბლიკაციები მედიაში "90-იან წლებში და 2000 წელს, ქვეყნის საშინაო და საგარეო;
  • ჩაწერა სიტყვის
  • aktsentologicheski აღინიშნება ტექსტები (მაგ, ნიშნები სტრესი);
  • დიალექტი სიტყვის
  • პოეზია;
  • მასალები სინტაქსური და სხვა ნიშნები.

საინფორმაციო სისტემა ასევე მოიცავს Subcorpus პარალელური ნაწარმოებების თარგმანები რუსულიდან ინგლისური, გერმანული, ფრანგული და ბევრი სხვა ენებზე (და პირიქით).

ასევე მონაცემთა ბაზაში არ მონაკვეთზე ისტორიული ტექსტები, რომელიც წარმოადგენს წერილობით გამოსვლა რუსეთის სხვადასხვა პერიოდებში მის განვითარებაში. არსებობს ასევე სასწავლო ორგანო, რომელიც შეიძლება იყოს სასარგებლო უცხოელი მოქალაქეების დაეუფლონ რუსულ ენაზე.

რუსეთის ეროვნული Corpus მოიცავს 400 მილიონი ლექსიკური ერთეულები და მრავალმხრივ წინ მნიშვნელოვანი ნაწილი ენების ორგანოები.

პერსპექტივები

ფაქტი სასარგებლოდ აღიარების ეს ტენდენცია, რომ ხელმისაწვდომობის პირობა დადო, ლაბორატორიული კორპუსის ლინგვისტიკის რუსეთის უმაღლეს სასწავლებლებში, ასევე უცხოელი. გამოყენება და კვლევის ფარგლებში ამ ინფორმაციას და ძებნის რესურსების გულისხმობს განვითარების გარკვეულ ტერიტორიებზე სფეროში მაღალი ტექნოლოგიების, კითხვა-პასუხის სისტემები, მაგრამ ეს ზემოთ განხილული.

შემდგომი განვითარება კორპუსის ლინგვისტიკის ნავარაუდევია ყველა დონეზე, დაწყებული ტექნიკური თვალსაზრისით განხორციელების ახალი ალგორითმები, რომ ოპტიმიზაცია პროცესების საძებნი და დამუშავების ინფორმაცია, განამტკიცებს კომპიუტერები, მეტი RAM, და მომხმარებელთა, რადგან წევრებს სულ უფრო და უფრო გზები გამოიყენოს ამ ტიპის რესურსის მათი ყოველდღიური ცხოვრება და მუშაობა.

დასკვნა

შუა გასული საუკუნის 2017 წელს, როგორც ჩანს, შორეულ მომავალში, სადაც spaceships მოგზაურობა სამყაროს და რობოტები ყველა სამუშაო ადამიანები. ფაქტობრივად, მეცნიერების სავსეა "თეთრი ლაქები" და უიმედო მცდელობა, რომ კითხვებს პასუხი გასცეს კაცობრიობის საუკუნეების დამაბრკოლებელი. კითხვები ფუნქციონირება ენის აქ დაიკავებს ადგილს პატივი და კაბინეტი და კომპიუტერული ლინგვისტიკა დაგვეხმარება, რომ პასუხი გასცეს მათ.

დამუშავება დიდი მონაცემთა კომპლექტი შეუძლია აღმოაჩინოს ნიმუშები, ადრე მიუწვდომელი, პროგნოზირება განვითარების კონკრეტული ენის თვისებები მწკრივზე ფორმირების სიტყვები თითქმის რეალურ დროში.

პრაქტიკულ დონეზე, გლობალური შიგთავსები ჩანს, მაგალითად, როგორც პოტენციური ინსტრუმენტი, რათა შეაფასოს საზოგადოების განწყობა - ინტერნეტში არის მუდმივად განახლებადი ყოველდღიურად სხვადასხვა ტექსტები მიერ შექმნილი რეალური მომხმარებლები: ეს კომენტარი და მიმოხილვები და სტატიები, და მრავალი სხვა ფორმით გამოსვლა.

გარდა ამისა, მუშაობის ორგანოების განვითარებას ხელს უწყობს იგივე ტექნიკა, რომლებიც მონაწილეობენ ინფორმაციის მოძიება, ჩვენ იცნობს მომსახურება "Google" ან "Yandex", მანქანური თარგმანი, ელექტრონული ლექსიკონები.

ჩვენ შეგვიძლია დარწმუნებით მტკიცება, რომ კორპუსის ლინგვისტიკის იღებს მხოლოდ პირველი ნაბიჯები, და უახლოეს მომავალში აყვავება.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ka.birmiss.com. Theme powered by WordPress.