История корпусной лингвистики

Собственно, корпусы люди составляли и изучали ещё до появления корпусной лингвистики, начиная с XVIII века. Примеры: исследования Библии (Cruden и многие другие), составление словарей (Johnson, Oxford English Dictionary, Webster Dictionary), преподавание языков (частотный корпус Thorndike'а, 1921), дескриптивная грамматика (Fries, 1940, Quirk, 1968). Корпус Квирка (Survey of English Usage) включал один миллион словоупотреблений и изначально представлял собой один миллион карточек размером 6 на 4 дюйма, 17 строк текста на каждой. Этот корпус стал последним не электронным. Его составление заняло 25 лет, и к 1989 году, когда он был закончен, технология ушла далеко вперёд. Пришлось срочно переводить корпус в цифровую форму. Теперь этот корпус доступен в Юниверсити Колледж в Лондоне.

Основные вехи создания компьютерных корпусов:

  1. 1. 1960-е: Брауновский корпус, (США), 1 млн. слов
  2. 2. 1970-е: LOB корпус (Великобритания, Норвегия), 1 млн. слов
  3. 3. 1980-е: Машинный Фонд русского языка
  4. 4. Уппсальский корпус русского языка (Швеция), 1 млн. слов
  5. 5. 1990-е: British National Corpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объёмом 100 млн. слов
  6. 6. The Bank of English, Birmingham (Collins Cobuild), 600 млн. слов
  7. 7. 2000-е: American National Corpus, 100 млн. слов
  8. 8. Corpus of Contemporary American English, 400 млн. слов.
  9. 9. Национальный корпус русского языка, 140 млн. слов
  10. 10. Gigaword corpora: английский, арабский, китайский, 2 млрд. слов
  11. 11. Oxford English corpus, 2 млрд. слов.

Таковы основные продукты деятельности корпусной лингвистики на сегодняшний день. В.В. Рыков даже пишет, что корпусная лингвистика – спорный термин, так как непонятно, имеется ли в виду наука о том, как создавать корпусы или же лингвистика, основанная на данных из корпусов. На практике, обычно под корпусной лингвистикой понимают и то, и другое. То есть, корпус для корпусной лингвистики, с одной стороны, исходный речевой материал, с другой – результат деятельности.

Подытоживая: Корпусная лингвистика сделала возможным:

1. Уточнить результаты и выводы проведённых ранее исследований речи.

2. Произвести новые, более широкие и системные (по охвату эмпирического речевого материала) лингвистические исследования.

Рекомендуемая литература

1. Список основной литературы по теме: http://scholar.google.com/scholar? q=corpus+linguistics&hl=en&lr=&btnG=Search

2. Список последних статей по теме: http://scholar.google.com/scholar?

3. Гальперин И.Р. Текст как объект лингвистического исследования. - М.: Едиториал УРСС, 2005. - 144 с.

4. Коваль С.А. Роль корпуса в создании реалистичных моделей словоизменительной морфологии. URL: http://skowal.narod.ru/research/corpora2006/Koval_Corpora.2006.htm

5. Марчук Ю.Н. Основы компьютерной лингвистики. - М.: Изд-во МПУ, 2000

6. Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов. 2009

7. Рыков В.В. Курс лекций по корпусной лингвистике. URL: http://rykovcl.narod.ru/c.html

8. Kennedy, Graeme. An Introduction to Corpus Linguistics / Graeme Kennedy. - London: Longman, 1998. - 315 p

9. Tony McEnery, Andrew Wilson. Corpus Linguistics. - Edinburgh University Press, 2001. URL: http://books.google.com/books?id=nwmgdvN_akAC

10.Developing linguistic corpora: a guide to good practice. Edited by Martin Wynne. URL: http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm

11.D Biber, S Conrad, R Reppen. Corpus Linguistics: Investigating Language Structure and Use. - Cambridge University Press, 1998. URL: http://books.google.com/books? id=2h5F7TXa6psC

12.ICAME (International Computer Archive of Modern and Medieval English) Journal. URL: http://icame.uib.no/journal.html


Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported