Формирање, Колеџи и универзитети

Што е корпусот лингвистика?

Само пред неколку децении за да се автоматизира лингвистички истражувања, научниците можат само да сонуваат. Работата беше направено со рака, таа го привлекува голем број на студенти, постои значителна веројатност "безгрижно" грешки, и што е најважно - сето тоа требаше долго, долго време.

Со развојот на компјутерската технологија стана можно да се спроведе истражување на редоследот на големината побрзо, и денес е еден од најмногу ветува правци во изучувањето на јазикот е корпусот лингвистика. Нејзината главна карактеристика е употребата на големи количества на текст информации, информации во една база на податоци, на посебен начин и ги повика означениот тело.

До денес, постојат многу објекти создадени со различни цели врз основа на различните јазични материјал кој се протега од милиони за десетици милијарди лексички единици. Оваа насока е призната како ветувачки и покажува значителен напредок кон целите на примена и истражувања. Експерти, еден или друг начин се занимаваат со природен јазик, се препорачува да се запознаат со телото на текстови барем основно ниво.

Историја на корпусот лингвистика

Формирањето на овој тренд се должи на формирањето на САД во телото Браун во почетокот на 60-тите години на минатиот век. Колекцијата вклучува текстови на сите 1 милион форми на зборот, а денес телото на оваа големина ќе биде целосно неконкурентни. Ова главно се должи на темпото на развој на компјутерската технологија, како и на зголемената барањата за нови истражувачки ресурси.

Во 90-тите години корпусот лингвистика појави во целосна и независна дисциплина, колекција на текстови биле составени и означени за десетина јазици. Во овој период е создаден, на пример, на Британската национална Корпус 100 милиони токени.

Со развојот на оваа област на лингвистиката, тома текст стануваат се повеќе и повеќе (и да го достигне милијарди речникот единици), и изгледот станува се повеќе различни. До денес, на интернет просторот може да се најде трупови пишан и говорен јазик, мултијазично и учење-ориентирана уметнички или академската литература, како и многу други видови.

Кои се на домување

може да се обезбеди видови на телото во лингвистиката телото за неколку причини. Интуитивно, основа за класификација може да биде текст јазик (руски, германски), режим за пристап (со отворен код, затворен, комерцијални), жанрот на изворниот материјал (фикција, документарни, образовни, новинарство).

Интересен начин генерира материјали од говорниот јазик. Од намерно снимање на таков говор да се создаде вештачки средина за испитаниците, а како резултат на материјал не може да се нарече "спонтани", модерен корпусот лингвистика помина на друг начин. Волонтер е опремен со микрофон, а во текот на денот произведени евиденција на сите разговори, во кои учествува. Луѓето околу себе, се разбира, не може да се знае дека во текот на секојдневните разговори придонесува за развојот на науката.

Подоцна доби евиденција се чуваат во базата на податоци и се придружени со печатени тип на текст препис. Така, станува можно Селектирај потребни за да се создаде усно секојдневно домување говор.

апликација

Секогаш кога е можно на употребата на јазикот, а можеби и употреба на објекти текстови. Методи за да се применуваат на силите во лингвистиката можат да бидат:

Креирање на програма за утврдување на клучот, е широко се користи во политиката и бизнисот да ги пратите на позитивни и негативни одговори на гласачите и клиенти, соодветно.
Поврзување на информативниот систем на речници и преведувачи да ги подобрат своите перформанси.
А спектар на истражувачки задачи кои придонесуваат за разбирање за јазикот, историјата на својот развој и предвидување на промени во блиска иднина.
Развој на системи за вчитување информации врз основа на морфолошки, синтаксички, семантички и други карактеристики.
Оптимизација на различните лингвистички системи и др.

Користење на зградите

слични ресурси интерфејс со типичен пребарувач, и поттикнува на корисникот за да внесете збор или комбинација на зборови за да пребарувате за информации база. Освен точната пребарување може да се користи подобрена верзија, што овозможува да најдете текстуални информации на речиси секоја јазична критериуми.

пребарување база може да биде:

припадност на одредена група на делови од говор;
граматички карактеристики;
семантика;
стилски и емоционална боја.

Вие исто така може да се комбинираат критериуми за пребарување за низа на зборови, на пример, да се најде сите појавувања на глагол во сегашно време, прво лице еднина, која доаѓа по предлог "во" и именката во акузатив. Решението на таква едноставна задача го води корисникот неколку секунди и се потребни само неколку кликања на глувчето во специфични области.

Процесот на создавање на

Самата пребарување може да се врши на сите subcorpus и едно специјално избрани, во зависност од потребите за постигнување на одредена цел:

Првиот чекор е да се дефинира кои текстови ја формираат основата за случајот. За практични цели, тоа е често се користат новинарските, вести, онлајн коментари. На истражувачки проект е употребата на широк спектар на видови пакет, но текстот треба да бидат избрани според некои заеднички јазик.
Како резултат на збирка текстови подложен на предтретман, постои корекција на грешки, доколку ги има, подготвени од страна на библиографски и екстра-лингвистички опис на текстот.
Се елиминираат сите не-текстуални информации: Ја чисти графика, слики, табели.
Е распределба на токени, кои обично се говор, за понатамошна обработка.
Конечно, врши морфолошки, синтаксички и други обележја добиени множество на елементи.

Како резултат на сите трансакции направени од страна на синтаксичката структура со дистрибуирани него мноштво елементи, од кои секоја се идентификува дел од говорот, граматички и, во некои случаи, семантички атрибути.

Тешкотии во изнаоѓањето на згради

Важно е да се разбере дека не е доволно да се стави заедно со група на зборови или реченици за телото. Од една страна, колекција на текстови треба да биде избалансиран, односно претставуваат различни видови текстови во одредени пропорции. Од друга - содржината на комората треба да бидат распоредени на посебен начин.

Првиот проблем е решен со договор: на пример, во колекцијата се состои од 60% на книжевни текстови, 20% на документарни филмови, одреден процент е дадена писмена изјава на говорниот јазик, законодавство, научни трудови, итн совршен рецепт избалансиран тело денес не постои ...

На второто прашање, во врска со содржина распоред, реши предизвик. Постојат посебни програми и алгоритми користат за автоматско означување на текстови, но тие не даваат совршен резултат, може да предизвика прекини и бара рачно rework. Можности и предизвици при справување со овој проблем се детално опишани во документот В. П. Zaharova на корпусот лингвистика.

Текст Селектирај се спроведува во неколку нивоа, кои ние листата подолу.

морфолошки тагирање

Од училиште, се сеќавам дека во рускиот јазик, постојат различни делови на говорот, и секој од нив има свои карактеристики. На пример, глаголот има категории на наклонетост и времето во кое нема именка. е мајчин јазик, без двоумење се намалува именки и глаголи спрегнат, но за одбележување на телото од 100 милиони евра. токени рачен труд нема да работи. Сите потребни операции може да се изврши на компјутер, сепак, за ова треба да се предава.

Морфолошки означување, компјутерот мора да "разбере" секој збор што одреден дел од говорот има одредени граматички карактеристики. Од Русија (и било кој друг јазик) работи на бројот на редовни правила, тоа е можно да се изгради на автоматска постапка за морфолошка анализа, инвестирање во автомобил за голем број на алгоритми. Сепак, постојат исклучоци од правилото, како и разни комплицира фактори. Како резултат на тоа, нето компјутерска анализа од денес е далеку од идеална, па дури и 4% грешка дава вредност од 4 милиони. Зборовите на телото од 100 милиони евра. Единици, се бара рачно rework.

Детална книга го опишува проблемот Zaharova В. П. "Корпус лингвистика".

синтаксички коментар

Парсирање или парсирање - постапка што ја одредува односот на зборовите во реченицата. Помош на збир на алгоритми е можно да се утврди текстот на тема, прирокот, дополнувања, повеќе начини на изразување. Дознајте кои зборови се главната низа, и кој - зависни, можат ефикасно да се извлече информации од текстот и да ги учат на машината за да се издаде како одговор на барањето за пребарување само информациите што ни интересно.

Патем, модерна пребарувачите користат ова за да даде конкретни бројки, наместо долги текстови, како одговор на релевантни прашања како што се "колку калории во едно јаболко" или "растојанието од Москва до Санкт Петербург." Меѓутоа, за да се разбере дури и на основите на процесот опишан од потребата да се консултира со "Вовед во корпусот лингвистика" или други основни упатства.

семантички Селектирај

Семантиката на зборот - е, во едноставни термини, значењето. Широко применливи пристап до семантичка анализа на зборот заслуга тагови, како одраз на неговата припадност на група на семантички категории и подкатегории. Таквите информации се корисни за оптимизирање на алгоритми анализира текст тон, автоматски факултетима и други задачи методи на корпусот лингвистика.

Постојат голем број на "коренот" на дрво, што претставува апстрактен збор со многу широк семантика. Како се формираат гранка од дрво јазли, кои содржат повеќе и повеќе специфични лексички елементи. На пример, зборот "суштество" може да биде поврзан со ваквите концепти како "човечки" и "животно". Првиот збор ќе продолжи да филијала надвор во различни професии, роднински однос, националност, а вториот - на класи и видови на животни.

Употребата на системи за вчитување информации

Области на употреба на корпусот лингвистика покриваат различни области на активност. Куќишта се користи за подготовка и корекција на речници, се создаде автоматски системи превод, објаснуваат, прибирањето на фактите, утврдување на тон и други обработка на текст.

Покрај тоа, тие средства активно се користат во студијата на светските јазици и механизмите на функционирање на јазикот воопшто. Пристап до големи количини на претходно подготвени информации олеснува брзо и сеопфатна студија на трендовите на развој јазици, како и промена стабилна формирање неологизми брзина говор вредности лексички единици и други.

Од работа со такви големи количини на податоци, потребно автоматизација, денес постои тесна интеракција помеѓу компјутерот и корпусот лингвистика на.

Рускиот национален корпус

Овој случај (скратено NKRYA) вклучува голем број на subcorpus, овозможувајќи користење на ресурси за широк спектар на задачи.

Материјалите во базата на податоци се поделени NKRYA:

на публикации во 90-тите и 2000-тите медиумите ", и домашни и странски;
снимање на говор;
aktsentologicheski означени текстови (на пример, знаци на стрес);
дијалект, говор;
поезија;
Материјали со синтаксички и други обележја.

Информативниот систем исто така вклучува Subcorpus со паралелни преводи на дела од руски на англиски, германски, француски и многу други јазици (и обратно).

Исто така во базата на податоци постои дел од историските текстови, како претставник на писмениот говор во Русија во различни периоди од својот развој. Исто така постои и телото за обука, која може да биде корисно за странски државјани во совладувањето на руски јазик.

Рускиот национален корпус се состои од 400 милиони лексички единици, како и на многу начини во пресрет на значителен дел од јазиците на органите Европа.

изгледите

Факт во корист на признавањето на овој тренд е достапноста на ветувајќи лабораторија корпусот лингвистика во руските универзитети, како и странски. Со употреба на и истражување во рамките на оваа информирање и пребарување на ресурси наложува развој на одредени области во областа на високата технологија, прашање-секретарки, но тоа е дискутирано погоре.

Понатамошен развој на корпусот лингвистика е предвидено на сите нивоа, кои се движат од технички и во однос на спроведувањето на нови алгоритми кои се оптимизира процесот на пребарување и обработка на информации, зајакнување на компјутери, повеќе RAM меморија, и на потрошувачите, затоа што корисниците се повеќе и повеќе начини да го користите овој тип на ресурс во нивната секојдневна живот и работа.

во заклучок

Во средината на минатиот век во 2017 година чинеше далечна иднина, каде вселенски бродови патуваат низ вселената и роботите ја завршат целата работа за луѓето. Всушност, науката е полна со "бели точки" и прави очајнички обиди да се одговори на прашањата на човештвото со векови вознемирувачки. Прашања функционирање на јазикот овде заземаат почесно место, а на владата и компјутерската лингвистика може да ни помогне да ги одговори.

Обработка на големи збирки на податоци може да се открие модели, претходно недостапни, се предвиди развојот на специфични јазични функции, за да ги пратите на формирање на зборови во речиси реално време.

На практично ниво, глобалната куќишта може да се види, на пример, како потенцијална алатка за проценка на расположението на јавноста - на интернет е постојано се ажурираат секојдневно различни текстови создадена од вистински корисници: ова коментари и осврти, и статии, како и многу други форми на говор.

Покрај тоа, во соработка со органите придонесува за развој на истиот хардвер, кои се вклучени во добивање информации, ние сме запознаени со услугата "Google" или "Yandex", машински превод, електронски речници.

Ние со сигурност може да се тврди дека корпусот лингвистика само ги прави првите чекори, и во блиска иднина ќе се развива.

Формирање, Колеџи и универзитети

Што е корпусот лингвистика?

Историја на корпусот лингвистика

Кои се на домување

апликација

Користење на зградите

Процесот на создавање на

Тешкотии во изнаоѓањето на згради

морфолошки тагирање

синтаксички коментар

семантички Селектирај

Употребата на системи за вчитување информации

Рускиот национален корпус

изгледите

во заклучок

Similar articles

Формирање

Формирање

Формирање

Формирање

Формирање

Формирање

Trending Now

Храна и пијалаци

Компјутери

Бизнис

Автомобили

Здравје

Homeliness

Newest

Здравје

Патување

Уметност и забава

Патување

Бизнис

Бизнис