Złota era

Żyjemy w złotej erze językoznawstwa. Jeszcze nigdy nie mieliśmy tak łatwego dostępu do danych językowych. Jeszcze nigdy nie pracowaliśmy na tak dużych zbiorach uporządkowanych i starannie wyselekcjonowanych danych. Jeszcze nigdy nie mogliśmy odpowiadać na stawiane przez nas pytania z pewnością opartą na milionach przykładów. Jeszcze nigdy nie słyszeliśmy i nie widzieliśmy języka tak wielu ludzi pochodzących z tak różnych środowisk społecznych.

Złota era dostępności

Pomyśl przez chwilę o naszych poprzednikach: by zebrać zaledwie kilka przykładów użycia danego słowa, and musieli wertować setki gazet lub mozolnie zbierać wypowiedzi podczas badań terenowych. Dziś każdy z nas potrzebuje zaledwie kilku kliknięć. Szukasz kontekstów w jakich używa się określonego słowa ? po prostu wpisujesz je w dowolną wyszukiwarkę internetową. Chcesz wiedzieć, jak funkcjonuje ono w języku naukowym ? wybierasz aplikację umożliwiającą przeszukiwanie ogromnych baz tekstów naukowych. Interesuje cię użycie tego słowa w języku potocznym ? sprawdzasz na forach. Zawsze tylko kilka kliknięć i znasz odpowiedź. Kilka kliknięć zamiast tygodni wertowania gazet, zamiast miesięcy badań terenowych. Po prostu kilka kliknięć.

Złota era wielkości

Pierwsze korpusy angielskiego, które powstawały w latach sześćdziesiątych zawierały około miliona słów. I były dostępne tylko na specjalnych uniwersyteckich komputerach o wielkich mocach obliczeniowych. Dziś każdy z nas ze swojego domowego komputera ma dostęp do korpusów większych o blisko rząd wielkości: zrównoważona część Narodowego Korpusu Języka Polskiego zawiera 250 milionów słów, a wszystkie teksty zebrane w NKJP ? ponad miliard. Oznacza to, że dane, które pół wieku temu wydały się ogromnym zbiorem, dziś stanowią raczej małą próbkę. Oznacza to także, że dziś każdy z nas może zapytać ?jak to jest w polskim? i przy pomocy kilku kliknięć uzyskać odpowiedź opartą na gigantycznej próbce różnych gatunków i typów tekstów.

Złota era pewności

Większość wielkich teorii językoznawczych powstawała w oparciu o intuicję genialnych badaczy. Często znali oni wiele języków, co pozwalało im wyostrzać tę intuicję i formułować przypuszczenia i hipotezy na podstawie własnej wiedzy i doświadczenia. Dziś każdą z tych teorii możemy z większą lub mniejszą łatwością przetestować w oparciu o miliony bądź miliardy przykładów. Czytałaś, że ludzie najczęściej metaforyzują czas jako ruch? Sprawdź! Zobacz, z jakimi czasownikami najczęściej łączą się podstawowe określenia czasu takie jak godzina czy minuta. Przy pomocy Narodowego Korpusu Języka Polskiego możesz to ustalić w zaledwie kilkadziesiąt minut. Albo inaczej ? uczyłeś się, że polszczyznę pisaną charakteryzuje większa liczba zdań złożonych niż w przypadku języka mówionego. Na pewno? Zobacz, jak często kilka podstawowych spójników występuje w części mówionej, a jak często w części pisanej NKJP. I pamiętaj ? to, czego się dowiesz, będzie dotyczyło zrównoważonej bazy tekstów obejmującej ponad 250 milionów słów.

Złota era potoczności

Do niedawna większość ogólnych opracowań na temat języka dotyczyła de facto pisanej odmiany charakterystycznej dla ludzi wykształconych. Wynika to z dostępności danych ? kiedyś były to głównie książki, gazety, czy drobne ogłoszenia. To na języku ich twórców oparta jest na przykład część słowników języka polskiego. Dziś fora i duża część blogów dają nam dostęp do języka przeciętnego Kowalskiego. Oczywiście z zastrzeżeniem, że jest to Kowalski posiadający dostęp do Internetu i chęć wypowiadania się na forum. Z pewnością jest on jednak bardziej przeciętny niż dziennikarz czy autor książek. Videoblogi oraz tysiące filmów i filmików publikowanych na rozmaitych serwisach pozwalają nam z kolei usłyszeć, jak mówią zwykli ludzie. Bez wyjazdów w teren, bez żmudnych wywiadów, bez obciążenia specyfiką sytuacji badań. Tak po prostu, tu i teraz, na moim komputerze.

Złota era jakości

Dzięki statystyce i złożonym algorytmom obliczeniowym jesteśmy w stanie przy pomocy korpusów odpowiadać na coraz więcej pytań dotyczących nie tylko ilości, ale i jakości. Porównanie list zawierających informacje o częstotliwości występowania poszczególnych słów w dwóch korpusach pozwala określić, jakie tematy są charakterystyczne dla danego korpus (słowa kluczowe). Analiza współwystępowania (kolokacji) poszczególnych słów pozwala określać ich nacechowanie (prozodia semantyczna) i powiązania z określonymi dziedzinami (preferencja semantyczna). Dla angielskiego opracowano już tager semantyczny, który przypisuje każdemu słowu kategorię tematyczną, do której należy. Dzięki temu bez czytania możesz dowiedzieć się, o czym jest dany tekst. W wielu ośrodkach trwają prace nad narzędziami, które przy pomocy złożonych algorytmów będą w stanie określać, czy dany tekst ma pozytywne czy negatywne zabarwienie. Pomyśl, jakie to daje możliwości. Na przykład: chcesz kupić książkę. Jej recenzje pojawiły się w kilku gazetach i na niezliczonej liczbie blogów i forów. Oczywiście możesz je przeczytać. Wszystkie bądź tylko niektóre. Ale być może już za kilka lat będziesz mogła przy pomocy kilku kliknięć dowiedzieć się, jaka była ogólna wymowa wszystkich tych recenzji. Ile z nich było raczej pozytywnych, a ile raczej negatywnych. Być może dzięki temu zaoszczędzisz sobie czytelniczych rozczarowań.

*

Oczywiście złota era językoznawstwa ma swoje ograniczenia. Korpusy odpowiadają tylko na jedno pytanie: ILE. Ile jest danych jednostek w korpusie? Ile danych jednostek współwystępuje z inną? Ile jest czasowników, a ile rzeczowników w tekście? Oznacza to, że wszystkie nasze pytania musimy przełożyć na język korpusów, którego istotę stanowi słowo ile. Musi to rodzić wątpliwości: czy jeśli sprawdzę, ile razy w korpusie występują spójniki X, Y, Z (przyjmijmy na chwilę, że jest to wyczerpująca lista spójników dla języka polskiego), do dowiem się z całą niezachwianą pewnością, ile jest w korpusie zdań złożonych? Oczywiście, że nie. Do mojego zbioru nie zaliczę przecież żadnego ze zdań złożonych, które nie są połączone spójnikami. Znajdą się w nim natomiast wszystkie zdania pojedyncze, w których te spójniki wystąpiły. Czy to znaczy, że nie warto korzystać z korpusu? Oczywiście, że nie. Oznacza to, że trzeba bardzo precyzyjnie przemyśleć, o jakie ile pytamy, a przy interpretacji wyników zachować rozsądek i ostrożność.

Żyjecie w złotej erze językoznawstwa. Stawiajcie pytania o język i szukajcie na nie odpowiedzi. Jeszcze nigdy nie było to tak proste.

Powodzenia!

Victoria Kamasa

 

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *


9 × = osiemnaście