FormacionKolegjet dhe universitetet

Çfarë është Corpus Gjuhësi?

Vetëm disa dekada më parë për të Automate kërkime gjuhësore, shkencëtarët vetëm mund të ëndërrojnë. Puna është bërë me dorë, ajo tërheq një numër të madh të studentëve, ka një të konsiderueshme gjasat gabime "të pakujdesshëm", dhe më e rëndësishmja - e gjithë kjo mori një kohë të gjatë, të gjatë.

Me zhvillimin e teknologjisë kompjuterike është bërë e mundur për të kryer kërkime me urdhër të magnitudë më të shpejtë, dhe sot një nga drejtimet më premtuese në studimin e gjuhës është një korpus gjuhësi. Tipari kryesor i saj është përdorimi i sasive të mëdha të informacionit të tekstit, informacion në një bazë të dhënash të vetme, në mënyrë të veçantë dhe e quajti trupin shënuar.

Deri më sot, ka shumë ndërtesa të krijuara me qëllime të ndryshme në bazë të materialeve të ndryshme gjuhësore që përfshin nga miliona për dhjetëra miliarda njësi leksikore. Ky drejtim është e njohur si një premtues dhe demonstron përparim të rëndësishëm në drejtim të aplikimit dhe kërkimore qëllime. Ekspertët, në një mënyrë ose në një tjetër kanë të bëjnë me gjuhën natyrale, ajo është e rekomanduar që të njihen me trupin e teksteve të paktën në një nivel bazë.

Historia e corpus gjuhësisë

Formimi i këtij trendi është për shkak të krijimit të Shteteve të Bashkuara në trupin Brown në fillim të viteve 60-ta të shekullit të kaluar. Koleksioni përfshin tekstet e të gjitha 1 milion e formave të fjalës, dhe sot trupi i kësaj madhësie do të jetë plotësisht jo konkurrues. Kjo është kryesisht për shkak të ritmit të zhvillimit të teknologjisë kompjuterike, si dhe kërkesat në rritje për burime të reja kërkimore.

Në vitet '90 gjuhësi corpus dalë në një disiplinë të plotë dhe të pavarur, një koleksion i teksteve janë hartuar dhe e shënuar për dhjetëra gjuhë. Në këtë periudhë ajo u krijua, për shembull, British National Corpus 100 milionë argumentet e.

Me zhvillimin e kësaj zone e gjuhësisë, vëllime tekst janë duke u bërë gjithnjë e më shumë (dhe për të arritur miliarda njësive fjalor), dhe layout është duke u bërë më të ndryshme. Deri më sot, hapësirën e internetit mund të gjenden kufomat e shkruara dhe gjuhë, gjuhë, dhe të mësuarit të orientuar letërsi artistike apo akademike, si dhe shumë lloje të tjera të folur.

Cilat janë strehimit

Llojet e trupit në gjuhësi trupit mund të sigurohet për disa arsye. Intuitive, bazë për klasifikimin mund të jetë një gjuhë tekst (Russian, gjermanisht), mënyra e qasjes (burim i hapur, i mbyllur, komerciale), zhanër e materialit burimor (fiction, dokumentar, akademike, gazetarisë).

mënyrë interesante gjeneron materialet e gjuhën e folur. Që nga regjistrimi i qëllimshëm i fjalës të tillë për të krijuar një mjedis artificial për të anketuarve, dhe materiali që rezultojnë nuk do të mund të quhet "spontane", gjuhësia moderne corpus ka shkuar në mënyrë tjetër. Një vullnetar është e pajisur me një mikrofon, dhe gjatë ditës prodhuar një rekord të të gjitha bisedave, në të cilën ajo merr pjesë. Njerëzit përreth, natyrisht, mund të mos e dinë se në rrjedhën e bisedës së përditshme kontribuon në zhvillimin e shkencës.

Më vonë mori rekordin e ruajtur në bazën e të dhënave dhe janë të shoqëruar nga të shtypura tipit text Transkripti. Kështu, bëhet e mundur markup nevojshme për të krijuar një strehim të përditshme me gojë të folurit.

kërkesë

Kudo që të jetë e mundur përdorimin e gjuhës, dhe ndoshta përdorimin e ndërtesave teksteve. Metodat për të aplikuar byk në gjuhësi mund të jenë:

  • Krijimi i një programi përcakton çelësin, është përdorur gjerësisht në politikë dhe të biznesit për të mbajtur gjurmët e përgjigjeve pozitive dhe negative të votuesve dhe konsumatorëve, respektivisht.
  • Sistemi i informacionit Lidhja me fjalorë dhe përkthyes për të përmirësuar performancën e tyre.
  • Një shumëllojshmëri e detyrave hulumtuese që kontribuojnë në kuptimin e njësisë së gjuhës, historisë së zhvillimit të saj dhe parashikimin e ndryshimeve në të ardhmen e afërt.
  • Zhvillimi i sistemeve tërheqjen e informacionit bazuar në morfologjike, sintaksore, semantike dhe të tjera karakteristika.
  • Optimizimi i sistemeve të ndryshme gjuhësore dhe të tjerët.

Përdorimi i ndërtesave

ndërfaqe të ngjashme burimeve me një motor kërkimi tipike, dhe bën përdoruesin të Shkruani një fjalë apo kombinim i fjalëve për të kërkuar për bazën e informacionit. Përveç formë e saktë query mund të përdorni version të zgjeruar, e cila lejon për të gjetur informacion tekstuale në pothuajse çdo kriteret gjuhësore.

baza e kërkimit mund të jenë:

  • anëtarësisë në një grup të veçantë të pjesëve të fjalës;
  • karakteristika gramatikore;
  • semantics;
  • stilistik dhe emocional për t'u ngjyrosur.

Ju gjithashtu mund të kombinohen kriteret e kërkimit për një rend të fjalëve, për shembull, për të gjetur të gjitha dukuritë e foljes në kohën e tashme, vetën e parë njëjës, e cila vjen pas parafjalë "në" dhe emrit në rasën kallëzore. Zgjidhja për një detyrë të tillë të thjeshtë merr përdoruesit disa sekonda dhe kërkon vetëm disa klikime të miut në fushat e specifikuara.

Procesi i krijimit të

Vetë Kërkimi mund të kryhet në të gjitha subcorpus dhe një të zgjedhur në mënyrë të veçantë, në varësi të nevojave në arritjen e një qëllimi të caktuar:

  1. Hapi i parë është për të përcaktuar që tekstet të formojnë bazën për rastin. Për qëllime praktike, ajo është përdorur shpesh gazetareske, lajme, komente në internet. Projekti i hulumtimit është përdorimi i një shumëllojshmëri të gjerë të llojeve të paketës, por teksti duhet të zgjidhen në bazë të një bazë të përbashkët.
  2. rezulton mbledhja e teksteve nënshtruar pretreatment, nuk është korrigjimi i gabimeve, nëse ka, të përgatitur nga përshkrimit bibliografik dhe ekstra-gjuhësore të tekstit.
  3. Është eliminuar të gjitha informatat jo-tekstuale: Pastron grafikë, fotografi, tavolina.
  4. Një alokimin e argumentet, të cilat janë zakonisht të folurit, për përpunim të mëtejshëm.
  5. Së fundi, ajo kryer morfologjike, sintaksore dhe shenjat e tjera të marra pluralizmin e elementeve.

Rezultati i të gjitha transaksioneve të bëra nga një strukturë sintaksore me shpërndarë aty një shumicë e elementeve, secila prej të cilave është identifikuar një pjesë të fjalës, gramatikore dhe, në disa raste, atributet semantike.

Vështirësitë në krijimin e ndërtesave

Është e rëndësishme për të kuptuar se nuk është e mjaftueshme për të vënë së bashku një sërë fjalë ose fjali për trupin. Nga njëra anë, një koleksion i teksteve duhet të jetë i balancuar, që është, përfaqësojnë lloje të ndryshme të teksteve në përmasa të caktuara. Nga ana tjetër - përmbajtja e mbyllje duhet të spaced në mënyrë të veçantë.

Problemi i parë është zgjidhur nga një marrëveshje: për shembull, në mbledhjen përfshin 60% të teksteve letrare, 20% e dokumentarëve, një përqindje të caktuar është dhënë një përfaqësim të shkruar të gjuhës së folur, legjislacioni, punimeve shkencore, etj përsosur recetë trupi balancuar sot nuk ekziston ...

Pyetja e dytë, në lidhje me paraqitjen e përmbajtjes, të zgjidhë sfiduese. Ka programe të veçanta dhe algoritmet e përdorura për shënimin automatike e teksteve, por ata nuk i japin një rezultat të përsosur, mund të shkaktojë ndërprerje dhe kërkojnë Rework manual. Mundësitë dhe sfidat gjatë ballafaqimit me këtë problem janë përshkruar në detaje në një letër V. P. Zaharova e gjuhësisë korpusi.

markup Tekst zbatohet në disa nivele, të cilat ne lista më poshtë.

tagging morfologjike

Nga shkolla, ne kujtojmë se në gjuhën ruse, ka pjesë të ndryshme të fjalës, dhe secili prej tyre ka karakteristikat e veta. Për shembull, folja ka kategori të prirjes dhe kohën në të cilën nuk ka emër. një Gjuha amtare pa hezitim rënie emra dhe folje çift, por për të shënuar trupin e 100 milion. argumentet punë fizike nuk do të funksionojë. Të gjitha operacionet e nevojshme mund të ekzekutojë kompjuterin, megjithatë, për këtë ajo ka nevojë për të mësuar.

tagging morfologjike, kompjuteri duhet të "kuptojnë" çdo fjalë si një pjesë të caktuar të fjalës që ka disa tipare gramatikore. Që nga Russian (dhe çdo gjuhë tjetër) vepron një numër rregullash të rregullta, është e mundur për të ndërtuar një procedurë automatike për analizën morfologjike, duke investuar në makinë për një numër të algoritmeve. Megjithatë, ka përjashtime nga rregulli, si dhe faktorë të ndryshëm komplikuar. Si rezultat i kësaj, analiza net kompjuter sot është larg prej ideales, dhe madje edhe 4% error jep një vlerë prej 4 mln. Fjalët në trupin e 100 milionë euro. Njësitë, kërkojnë Rework manual.

Libri i detajuar përshkruan problemin Zaharova V. P. "Corpus Gjuhësi".

annotation sintaktik

Parsing ose parsing - një procedurë që përcakton marrëdhënien e fjalëve në një fjali. Duke përdorur një sërë algoritme është e mundur për të përcaktuar tekstin e subjektit, kallëzues, shtesa, kthehet shumta të fjalës. Të gjetur se cilat fjalë janë sekuenca kryesore, dhe e cila - varur, ne në mënyrë efektive mund të ekstrakt informacion nga teksti dhe për të mësuar makinë për të nxjerrë në përgjigje të një kërkese Kërko vetëm informatat na interesante.

Nga rruga, motorë kërkimi moderne përdorin këtë për të dhënë një numër të veçanta në vend të teksteve të gjata në përgjigje të pyetjeve të rëndësishme të tilla si: "Sa kalorive në një mollë" ose "distanca nga Moska në Shën Petersburg." Megjithatë, për të kuptuar edhe bazat e procesit të përshkruar nga nevoja për të konsultuar e "Hyrje në Corpus Gjuhësi" ose tjetër tutorial themelore.

markup semantik

Semantikë e fjalës - është, në terma të thjeshtë, kuptimin. Qasja gjerësisht të aplikueshme për analizën semantik të një fjale atribuimit tags, duke reflektuar përkasin tij me një grup të kategorive semantike dhe nën-kategori. Një informacion i tillë është i vlefshëm për të optimizuar algoritme analizuar tonin tekst, përmbledhjen automatike dhe detyra metoda të tjera të gjuhësisë korpusi.

Ka një numër të "rrënjë" të pemës, që paraqet një fjalë abstrakte me një semantikë shumë të gjerë. Si një degë e nyjet pemë janë formuar, që përmban më shumë dhe më specifike elemente leksikore. Për shembull, fjala "krijesë" mund të shoqërohet me koncepte të tilla si "njeri" dhe "kafsha". Fjala e parë do të vazhdojë të zgjerohet në profesione të ndryshme, sa i përket farefisnore, kombësisë, dhe e dyta - në klasat dhe llojet e kafshëve.

Përdorimi i sistemeve tërheqjen e informacionit

Fushat e përdorimit të gjuhësisë korpus mbulojnë fusha të ndryshme të veprimtarisë. Housings janë përdorur për përgatitjen dhe korrigjimin e fjalorëve, të krijojë sisteme të automatizuar të përkthimit, annotating, retrieving faktet, përcaktojnë tonin dhe përpunimin tjetër tekst.

Përveç kësaj, burime të tilla janë përdorur në mënyrë aktive në studimin e gjuhëve dhe mekanizmat e funksionimit të gjuhës në përgjithësi botërore. Qasja në vëllime të mëdha të informatave të para-përgatitur lehtëson studimin e shpejtë dhe të plotë të trendeve të gjuhëve të zhvillimit, dhe ndryshim të qëndrueshme neologjizma formimit shpejtësi Fjalimi i vlerave njësi leksikore dhe të tjerët.

Që nga puna me sasi të tilla të mëdha të të dhënave kërkon automatizimin, sot ka ndërveprim të ngushtë midis kompjuterit dhe korpusi të gjuhësisë.

Russian Corpus Kombëtare

Ky rast (shkurtuar NKRYA) përfshin një numër të subcorpus, duke lejuar përdorimin e një burim për një shumëllojshmëri të gjerë të detyrave.

Materialet në bazën e të dhënave janë të ndarë NKRYA:

  • të botimeve në vitet '90 dhe 2000 e medias, dy vendas dhe të huaj;
  • regjistrimin e të folurit;
  • aktsentologicheski shënuar tekste (d.m.th., shenjat e stresit);
  • Fjalimi dialekt;
  • poezi;
  • Materiale me shenja sintaksore dhe të tjera.

Sistemi i informacionit gjithashtu përfshin Subcorpus me përkthimet paralele të veprave nga rusisht në anglisht, gjermanisht, frëngjisht dhe shumë gjuhë të tjera (dhe anasjelltas).

Gjithashtu në bazën e të dhënave nuk është një seksion i teksteve historike, përfaqëson fjalën e shkruar në gjuhën ruse në periudha të ndryshme të zhvillimit të saj. Ekziston edhe një trup të trajnimit, të cilat mund të jenë të dobishme për qytetarët e huaj në zotërimin e gjuhës ruse.

Russian Corpus Kombëtar përbëhet nga 400 milionë njësi leksikore, dhe në shumë mënyra përpara një pjese të konsiderueshme të gjuhëve të organeve të Evropës.

perspektivat

Fakt në favor të njohjes së këtij trendi është disponueshmëria e premtuar laboratorike gjuhësi corpus në universitetet ruse, si dhe të huaj. Me përdorimin e dhe hulumtime në kuadrin e këtij informacionit dhe kërkimit të burimeve përfshin zhvillimin e zonave të caktuara në fushën e teknologjive të larta, sistemet e pyetje-përgjigjet, por ajo është diskutuar më sipër.

Zhvillimi i mëtejshëm i corpus gjuhësisë është parashikuar në të gjitha nivelet, duke filluar nga teknike dhe në drejtim të implementimit të algoritme të reja që optimizojnë proceset e kërkimin dhe përpunimin e informacionit, fuqizimin e kompjuterëve, më shumë RAM, dhe të konsumit, për shkak se përdoruesit janë gjithnjë e më shumë mënyra për të përdorur këtë lloj të burimeve në të përditshme të tyre jeta dhe vepra.

në përfundim

Në mes të shekullit të kaluar, në vitin 2017 dukej ardhmen e largët, ku spaceships udhëtojnë nëpër univers dhe robots bëjë të gjitha punët për popullin. Në fakt, shkenca është e mbushur me "njolla të bardha" dhe duke bërë përpjekje të dëshpëruara për t'iu përgjigjur pyetjeve të njerëzimit për shekuj shqetësuese. Pyetjet e funksionimit të gjuhës këtu zënë një vend nderi, dhe kabinetit dhe kompjuterike gjuhësi mund të na ndihmojnë për t'iu përgjigjur atyre.

Përpunimi i grupe të mëdha të të dhënave mund të zbulojë modele, më parë i paarritshëm, parashikojnë zhvillimin e karakteristika të veçanta të gjuhës për të ndjekur formimin e fjalëve në kohë gati reale.

Në një nivel praktik, rrethime globale mund të shihet, për shembull, si një mjet të mundshëm për të vlerësuar humor publik - Interneti është një përditësuar vazhdimisht baza ditore tekstet e ndryshme të krijuara nga përdoruesit e vërtetë: ky komente dhe komente, dhe artikuj, si dhe shumë forma të tjera të shprehjes.

Përveç kësaj, duke punuar me organet kontribuon në zhvillimin e të njëjtën hardware, që janë të përfshirë në tërheqjen e informacionit, ne jemi të njohur me shërbimin "Google" ose "Yandex", machine translation, fjalorë elektronike.

Ne besim mund të pohojnë se corpus gjuhësi bën vetëm hapat e parë, dhe në të ardhmen e afërt do të lulëzojë.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sq.birmiss.com. Theme powered by WordPress.