Od lewej: prof. Menno van Zannen i opiekunka wizyty dr Karolina Rudnicka
Suazi, tsonga, venda, zulu - to tylko kilka z 12 oficjalnych języków Republiki Południowej Afryki. Badania ich struktury, użycia i niuansów to prawdziwie syzyfowa praca. Właśnie tym zajmuje się profesor wizytujący UG Menno Van Zannen z North West University, który nie tylko chce poznać specyfikę tych języków, ale stworzyć na ich podstawie użyteczne dla społeczeństwa narzędzia. Ze specjalistą od cyfrowej humanistyki rozmawiamy o badaniu literatury za pomocą komputera, warsztatach ze studentami UG i sztucznej 'inteligencji' Chata GPT.
Prof. Menno van Zannen przyjechał na Uniwersytet Gdański w ramach IV edycji programu "Profesorowie Wizytujący UG" .
Marcel Jakubowski: - Jednym z obszarów Pana zainteresowań jest tzw. lingwistyka komputerowa. Nigdy nie słyszałem o takiej dyscyplinie. Czy mógłby ją nam Pan nieco przybliżyć?
Prof. Menno van Zannen: - Lingwistyka komputerowa zajmuje się sprawieniem, by komputery zrozumiały język. W tej dyscyplinie z jednej strony trzeba mieć wiedzę językoznawczą, rozumieć właściwości języków i to, jak języki funkcjonują. Z drugiej strony konieczna jest również wiedza z zakresu informatyki, programowania i technik matematycznych, które za nim stoją. Jako przykłady prac w obrębie lingwistyki komputerowej zwykle wspominam tłumaczenie maszynowe (np. Google Tłumacz), sprawdzanie pisowni czy rozpoznawanie mowy. Jeśli chodzi o język angielski, wiele wyzwań w tym obszarze uważa się za „rozwiązane”, co nie oznacza, że funkcjonuje to perfekcyjnie. W RPA, gdzie pracuję, jest dwanaście języków urzędowych - jedenaście spośród nich to języki pisane, dwunastym jest południowoafrykański język migowy. Dla tych języków - i dla wielu innych języków na świecie - narzędzia lingwistyki komputerowej są niedoskonałe, ponieważ po prostu nie ma wystarczająco dużo przykładowych danych językowych.
- Jak komputery rozumieją złożoność i niuanse języka? Czy da się to zakodować w oprogramowaniu?
- Można zakodować reguły językowe w oprogramowaniu, ale obecnie bardzo popularne są podejścia oparte o uczenie maszynowe, takie jak deep learning (uczenie głębokie), które wymagają używania dużych zbiorów danych. Korzystając z tych narzędzi, nie trzeba precyzować struktury języka, ponieważ maszyna spróbuje ją odnaleźć automatycznie. Ten proces wymaga jednak ogromnej ilości danych wprowadzonych do systemu - przyglądając się im, oprogramowanie samo odnajdzie regularności. To są przydatne narzędzia używane przez ludzi do tworzenia działających systemów, ale nie mówią nam wiele o tym, jak działa język.
- Co Pana interesuje w tym rozległym i dynamicznym obszarze?
- Moje osobiste zainteresowania nieco się zmieniły. Zacząłem od studiowania informatyki. Interesowała mnie informatyka z niższego poziomu: systemy operacyjne, sterowniki sieciowe czy komunikacja między oprogramowaniem a sprzętem komputerowym. Intrygowało mnie, w jaki sposób programy pisane przez ludzi, będące w swej istocie tekstem, są zamieniane na komendy zrozumiałe dla maszyny. Odkryłem, że w naturalnym języku, w lingwistyce, ludzie robią niemal to samo. Przeszedłem zatem do prób sprawdzenia, czy mogę doprowadzić do tego, by komputer automatycznie uczył się struktury języka z przykładowych zdań. Potem dotarło do mnie, że jeśli mogę zrobić coś takiego z mówionym językiem, mogę to również zrobić z innymi formami komunikacji. Muzyka, na przykład, również ma określone reguły. Nie można po prostu w przypadkowy sposób zestawić ze sobą nut. Próbowaliśmy automatycznie odnaleźć te wzorce w muzyce, a następnie za ich pomocą dowiedzieć się innych rzeczy, na przykład tego, kto skomponował dany utwór. Wraz z innymi badaczami staraliśmy się też odnaleźć wzorce, według których ludzie poruszają rękoma, wzorce naszych gestów. Czy możemy zyskać wyobrażenie o tym, w jaki sposób ludzie próbują dostosować się do innych, na podstawie ruchów ich rąk?
- To wygląda na bardzo szeroką dyscyplinę: analiza gestów to trochę psychologia, socjologia, lingwistyka…
- Zastosowanie cyfrowej humanistyki jest bardzo szerokie. Przypomina trochę to, o czym przed chwilą rozmawialiśmy, czyli wykorzystanie lingwistyki komputerowej w relacji do języka. W cyfrowej humanistyce próbujemy sprawić, by komputery rozumiały uprawianą przez człowieka naukę, obejmuje to wiele różnych obszarów. Oglądałem właśnie prezentację jednego z moich doktorantów, który stworzył wymierne kryteria czytelności tekstu dla jednego z południowoafrykańskich języków, sotho. Można wprowadzić do oprogramowania tekst i ono określi, jak trudny jest do przeczytania. Mój doktorant chciał sprawdzić, czy może dawać uczniom w szkole bardziej odpowiednie teksty, aby mogli się lepiej uczyć czytać i pisać. Do cyfrowej humanistyki należą również komputerowe podejścia do sztuki, muzyki itp.
- Republika Południowej Afryki, jako kraj z 12 oficjalnymi językami musi być rajem dla lingwisty komputerowego.
- To jest bardzo ciekawe miejsce z wielu powodów. Jednym z wyzwań jest to, że dla większości języków nie ma zbyt wielu pisanych tekstów. W wypadku języka angielskiego można znaleźć wiele próbek w Internecie. Są książki, czasopisma, posty, artykuły - wszystko w formie cyfrowej. W RPA mieliśmy na przykład problem ze zdobyciem wystarczającej ilości tekstu w sotho, aby móc zmierzyć czytelność. Istnieją narzędzia do sprawdzania pisowni dla wszystkich pisanych języków w RPA, ale słowa pochodzą głównie z tekstów rządowych udostępnionych online. To bardzo specyficzny rodzaj tekstów, pisanych w określony sposób.
W jednym z naszych projektów badawczych chcieliśmy sprawdzić, czy program komputerowy byłby w stanie automatycznie wyodrębnić z powieści głównych bohaterów i związki między nimi. Gdybyśmy mogli to zrobić automatycznie, moglibyśmy na przekład przeanalizować, w jaki sposób poszczególni autorzy wykorzystują swoich bohaterów. Próbowaliśmy to zrobić z książkami napisanymi w językach południowoafrykańskich i nie działało to zbyt dobrze. Nasze narzędzia nie były wystarczająco dobre, ponieważ były trenowane na tekstach rządowych.
- A w tekstach rządowych nie ma głównych bohaterów…
- Dokładnie. Teraz próbujemy zrobić coś podobnego tutaj, w Gdańsku. Mam kilka spotkań ze studentami UG. Zamierzamy przyjrzeć się temu, jak ludzie tłumaczą pewne książki. Kiedy tłumaczy się anglojęzyczną książkę na język polski, trzeba dokonać określonych wyborów. Z jednej strony, tłumaczenie ma być jak najbliższe oryginałowi, ale z drugiej strony powinno ono brzmieć po polsku naturalnie. Te dwie intencje czasami bywają przeciwstawne. Będziemy się przyglądać tym samym powieściom w kilku językach, aby sprawdzić, czy tłumacz w procesie przekładu wpłynął na strukturę i użycie imion postaci.
- To bardzo ciekawe, ponieważ odpowiada na pytanie: „Czy czytamy tę samą książkę?”.
- Można dowodzić, że czyta się tę samą książkę. Jednak pewne zmiany są konieczne, ponieważ chcemy, by język brzmiał naturalnie. Być może w jednym języku nie używa się imion aż tak często, prawda? Przedstawia się jakąś osobę, a następnie często używa się zaimków. Albo wręcz przeciwnie, wciąż powtarza się imię, co nie występuje w innym języku. Nie jest łatwo śledzić te zmiany bez pomocy komputera, ponieważ trzeba je liczyć.
- Jakie książki badacie w ten sposób?
- Potrzebujemy książek, które są dostępne w open access i w kilku językach. Rozważaliśmy „Portret Doriana Graya”, ale myśleliśmy też o niektórych innych wymaganiach odnośnie do naszych badań, np. ile postaci powinno być w książce, by ta technika zadziałała. Stosowałem ją przy utworach, w których było do dziesięciu bohaterów, ponieważ tworzymy rodzaj wizualnej sieci głównych postaci. Można zobaczyć rysunki głównych bohaterów i łączące je linie, które opisują, jakie relacje występują między nimi. Co by było, gdyby w książce było 50 postaci? Czy sieć wciąż wyglądałaby jak coś, co jesteśmy w stanie zrozumieć?
- Obszar Pana badan jest bardzo futurystyczny. Czy ma Pan jakieś przemyślenia odnośnie do tego, jak mógłby się rozwinąć? Jaka będzie przyszłość lingwistyki komputerowej?
- Częściowo to, co uważałem za możliwą przyszłość, dzieje się już teraz. Mam na myśli choćby ChatGPT I to, jak wpływa na nasze społeczeństwo i edukację. Lingwistyka komputerowa i cyfrowa humanistyka nie są tak naprawdę nowymi dziedzinami. Pojawiły się już po II wojnie światowej, między innymi dlatego, że Amerykanie chcieli zrozumieć rosyjskie teksty badawcze. To były wrażliwe informacje, więc nie ufali rosyjskim tłumaczom. W zamian postanowili skorzystać z komputera. Wzięli słownik i zaczęli po prostu szukać słów i zastępować je. W tamtym momencie wydawało im się, że rozwiązali problem; potem dotarło do nich, że w rzeczywistości jest on znacznie bardziej skomplikowany. Porozmawiali z lingwistami i zrozumieli złożoność tego zadania.
Po II wojnie światowej pojawiło się pytanie o to, jak sprawdzić, czy stworzyliśmy sztuczną inteligencję (AI). Coś naprawdę inteligentnego, ale na komputerze. Test Turinga opiera się na założeniu, że jeśli AI jest w stanie oszukać przeciętną osobę i sprawić, by myślała, że ma do czynienia z człowiekiem, to możemy ją nazwać AI. Tekst wygenerowany przez ChatGPT może z łatwością kogoś oszukać, więc myślę, że już tam jesteśmy. A jednak nie mam poczucia, że ChatGPT jest inteligentny. Powinniśmy na nowo przemyśleć, co to znaczy być inteligentnym.
Teraz docieramy do punktu, w którym te narzędzia są tak dobre, że zaczynają tworzyć nowe możliwości, ale również problemy społeczne. Rozmawiałem tutaj ze studentami na temat używania ChatGPT na zajęciach - czy to w porządku? Czy powinniśmy przemyśleć, co oznacza uczenie się i sprawdzanie wiedzy? Jakie pytania powinniśmy zadawać studentom, aby sprawdzić, czy mają wiedzę, którą chcemy, aby mieli? Co to oznacza dla dziennikarstwa, muzyki, edukacji? Teraz można automatycznie generować muzykę - czy to jest to, czego chcemy? Co to znaczy być kreatywnym? Co się stanie, jeśli uda nam się zaimplementować kreatywność do komputera - czy stanie się taki jak my? Możemy się skupiać na mocy obliczeniowej i nowych technologiach, ale koniec końców nie chodzi o technologiczne cudeńka, ale o to, w jaki sposób użyjemy ich w społeczeństwie.