default message
COPIED!

PRODIS

Probabilistic, prosodic and discourse effects on acoustic distinctiveness in speech

Probabilistyczne, prozodyczne i dyskursowe efekty na odrębność akustyczną w mowie

Project no. 2020/37/B/HS2/04161 (OPUS 19)

Projekt nr. 2020/37/B/HS2/04161 (OPUS 19)

NCN logo UAM logo

ICL 2024 (10.09.2024)

  • We have presented the preliminary results.

    Zaprezentowaliśmy wstępne wyniki.

  • Mrs Malisz presenting the preliminary results

LREC 2024 (08.05.2024)

ICL 2024 (08.05.2024)

PRODIS

Probabilistic, prosodic and discourse effects on acoustic distinctiveness in speech

Probabilistyczne, prozodyczne i dyskursowe efekty na odrębność akustyczną w mowie

Project no. 2020/37/B/HS2/04161 (OPUS 19)

Projekt nr. 2020/37/B/HS2/04161 (OPUS 19)

NCN logo UAM logo

The project aims to study why speakers lengthen or reduce speech sounds as well as pronounce them more or less carefully. For instance, some of the factors that influence this mechanism are word frequency and the effect of surprisal, that is, the predictability of a word in relation to the words in its immediate context.

Celem projektu jest zbadanie, dlaczego mówcy wydłużają lub skracają dźwięki mowy, a także wymawiają je mniej lub bardziej starannie. Na przykład, niektórymi czynnikami wpływającymi na ten mechanizm jest częstość występowania elementów mowy oraz efekt zaskoczenia, czyli przewidywalność słowa w stosunku do słów w jego bezpośredniej relacji do kontekstu.

When we speak, we lengthen and highlight some elements of speech while we shorten others. As a rule, we lengthen important or new words and shorten words which are obvious from context or occur very frequently. For example, expressions such as "I don't know" and "because" are often reduced to "dunno" and "'cuz", respectively. This is because, in general, we say them very often, but also, we can successfully guess in advance, from the meaning of the preceding sentence, that someone is about to pronounce them.

Kiedy mówimy, wydłużamy i uwypuklamy niektóre elementy wypowiedzi, a inne skracamy. Z reguły wydłużamy słowa ważne lub nowe, a skracamy słowa, które są oczywiste z kontekstu lub występują bardzo często. Na przykład, wyrażenia takie jak "w ogóle" i "na przykład" są często skracane odpowiednio do "wgle" i ""nprzykłd"". Dzieje się tak dlatego, ponieważ w zasadzie wypowiadamy je bardzo często, ale również z powodzeniem możemy z góry odgadnąć, na podstawie znaczenia poprzedniego zdania, że ktoś zaraz je wypowie.

Therefore, why we lengthen and why we reduce is influenced by factors such as the frequency of words and phrases in a language as well as by the surprisal effect: whether we expect a certain word to appear in a given context, or not. Another problem that we need to tackle is that this lengthening and highlighting also occurs under the influence of grammatical accent. Grammatical emphasis, for example, instructs us to lengthen and highlight the syllable "tu" in the word "constitution". Therefore, it is important for us to answer the following question: does the fact that Polish possess rules of grammatical emphasis, help or hinder the shortening of words which are very frequent or have a low surprisal effect?

Zatem na to, dlaczego wydłużamy i dlaczego skracamy, wpływają między innymi czynniki takie jak częstotliwość występowania słów i fraz w języku, a także efekt zaskoczenia: czy spodziewamy się, że dane słowo pojawi się w danym kontekście, czy też nie. Kolejnym problemem, z którym musimy się zmierzyć, jest to, że owo wydłużanie i uwypuklenie występuje również pod wpływem gramatycznego akcentowania. Gramatyczne akcentowanie, na przykład, nakazuje nam wydłużyć i podkreślić sylabę "pe" w słowie "encyklopedia". W związku z powyższym, ważne jest, abyśmy odpowiedzieli na następujące pytanie: czy fakt, że język polski posiada reguły akcentu gramatycznego, pomaga czy przeszkadza w skracaniu wyrazów, które są bardzo częste lub mają niski efekt zaskoczenia?

To carry out our research, we need to create a new speech database. The database must be of very good sound quality. We need excellent quality because our goals require measuring the emphasis in speech accurately (that is, acoustically). We will record the speech of Polish speakers in a recording studio that allows for capturing the speech in complete silence. In addition, we will build artificial neural networks which will "learn" a Polish language model using large amounts of text. This model will allow us to get an accurate measurement of which words have a high or low surprisal effect in a given context. Once we collect the surprisal, frequency and grammatical accent measurements, we will be able to examine how they affect speech duration and pronunciation.

Aby zrealizować nasze badania, musimy stworzyć nową bazę danych mowy. Baza ta musi być bardzo dobrej jakości dźwiękowej. Potrzebujemy doskonałej jakości, ponieważ nasze cele wymagają dokładnego (czyli akustycznego) pomiaru uwypuklenia w mowie. Będziemy nagrywać mowę użytkowników języka polskiego w studiu nagraniowym, które pozwala na uchwycenie mowy w całkowitej ciszy. Ponadto, zbudujemy sztuczne sieci neuronowe, które "nauczą się" modelu języka polskiego przy użyciu dużej ilości tekstu. Model ten pozwoli nam uzyskać dokładny pomiar tego, które słowa mają wysoki lub niski efekt zaskoczenia w danym kontekście. Po zebraniu pomiarów efektu zaskoczenia, częstotliwości i gramatycznego akcentowania, będziemy mogli zbadać, jak wpływają one na czas trwania wypowiedzi oraz wymowę.

Our research on Polish is important because it has a specific focus on accentual grammar. Studying Polish will expand our knowledge of how surprisal and frequency affect human speech. In addition, at the end of the project, we will examine whether the listener is able to actually hear the surprisal effect when it is produced by speakers. This research question has not been answered yet.

Nasze badania nad językiem polskim są ważne, ponieważ skupiają się na gramatycznym akcentowaniu. Badania języka polskiego poszerzą naszą wiedzę o tym, jak efekt zaskoczenia i częstotliwość wpływają na ludzką mowę. Ponadto, pod koniec projektu zbadamy, czy słuchacz jest w stanie rzeczywiście usłyszeć efekt zaskoczenia, podczas gdy wytwarzany jest on przez mówców. Na to pytanie badawcze nie ma jeszcze odpowiedzi.

Our team

Nasz skład


Małgorzata Kul

UAM logo Research Gate logo ORCID logo Mail logo

I work at the Faculty of English, Adam Mickiewicz University, Poznań, Poland.

Pracuję na Wydziale Anglistyki (UAM).

My academic background is phonetics and phonology. In particular, my research interests include vowel reduction in English and Polish, consonantal processes of casual speech in American English, corpus phonology, acoustic and perception studies as well as Second Language Acquisition. Currently I am working on yod coalescence in the Buckeye corpus.

Zawodowo zajmuję się językoznawstwem. Moje zainteresowania badawcze obejmują redukcję samogłoskową i spółgłoskową w różnych dialektach języka angielskiego i polskiego, procesy spółgłoskowe w standardowym amerykańskim angielskim, fonologię korpusową, badania akustyczne i percepcyjne oraz nabywanie obcego języka. Obecnie pracuję nad procesem palatalizacji w korpusie Buckeye.

I teach pronunciation (suprasegmentals) and tutor BA and MA projects.

Uczę wymowy (prozodia) oraz promuję prace licencjackie i magisterskie.

In the project, I perform the function of a PI.

W projekcie, pełnię funkcję kierownika.

This means I manage the project whereas Zosia is the "brain" behind it.

Moja rola polega na zarządzaniu projektem, pomysłodawczynią badań jest dr Malisz.

Zofia Malisz

KTH logo Research Gate logo ORCID logo Google Scholar logo Mail logo

Zofia Malisz is a researcher in speech technology at the Royal Institute of Technology, Stockholm and a Senior Speech Scientist at Cerence GmBh.

Zofia Malisz jest badaczem technologii mowy w Królewskim Instytucie Technologii w Sztokholmie oraz starszym specjalistą ds. mowy w Cerence GmBh.

Previously, Zofia has worked in experimental phonetics at Bielefeld University and Saarland University, Germany on topics such as oscillatory approaches to speech rhythm, prosodic variability in the Information Theory framework, multimodal dialogue and gesture studies.

Poprzednio Zofia zajmowała się fonetyką eksperymentalną na Uniwersytecie Bielefeld i Uniwersytecie Saarland w Niemczech, zajmując się między innymi zagadnieniami takimi jak oscylacyjne podejście do rytmu mowy, zmiennością prozodyczną w ramach teorii informacji, dialogiem multimodalnym i badaniem gestów.

Recently, she has worked on speech synthesis - particularly on the improvement of prosodic expressiveness and controllability of DNN-based synthesis.

Ostatnio pracowała nad syntezą mowy - w szczególności nad poprawą ekspresyjności prozodycznej i sterowalności syntezy opartej na DNN.

Jan Foremski

Github logo Personal page logo Mail logo

I am a student of Language, Mind, Technology at the Adam Mickiewicz University.

Jestem studentem Language, Mind, Technology na Uniwersytecie im. Adama Mickiewicza.

My research interests include natural language processing and machine learning. I primarily use Python and C++.

Moje zainteresowania badawcze obejmują przetwarzanie języka naturalnego i uczenie maszynowe. Głównie używam Pythona i C++.

Please visit my Github profile or website for more information.

Zapraszam do odwiedzenia mojego profilu na Githubie lub strony internetowej, aby uzyskać więcej informacji.

My role in the project: researcher.

Moja rola w projekcie: wykonawca.