Корпусная лингвистика

Лингвистическая информация из корпуса извлекается при помощи специальных компьютерных программ. Есть два основных источника разработки подобных программ.

Корпусная лингвистика сделала возможным:

_x000D_

1. Уточнить результаты и выводы проведённых ранее исследований речи.

_x000D_

2. Произвести новые, более широкие и системные (по охвату эмпирического речевого материала) лингвистические исследования.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Под лингвистической аннотацией или разметкой корпуса (по-английски linguistic markup) подразумевается наличие в корпусе неких данных, не являющихся частью текста, но несущих какую-то информацию о нём (так называемые метаданные). 

Большие современные корпусы обычно комбинированные, с преобладанием письменных текстов. Даже в BNC лишь 10% текстов устные. Выделяется ICE, в котором 60% текстов устные.

Лингвистические корпусы составляют, чтобы предоставить основу для более точного и адекватного описания структурных и функциональных параметров языка. 

В качестве своей главной цели изучаемая нами наука видит объективное лингвистическое описание языковой системы, причём к этому описанию корпусная лингвистика подходит от изучения конкретной человеческой коммуникации, от реальных текстов, которые ранее рассматривались лишь как досадная помеха.

 Корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair)

Как и вся наука о языке, корпусная лингвистика занимается в основном описанием и объяснением сущности, структуры и использования языка, а так же более частными вопросами: изучение языков, их изменение и т.п.