Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Statisztikai próbák a fordítástudományi kutatásokban

2022

Klaudy K., Robin E., Seidl-Péch O. (szerk.) 2022. Bevezetés a fordítás és a tolmácsolás kutatásmódszertanába I. Általános rész. Budapest: ELTE FTT–MANYE Fordítástudományi Szakosztály. 59–76. Statisztikai próbák a fordítástudományi kutatásokban Dankó Szilvia ELTE BTK Fordítástudományi Doktori Program szilvia.danko@yahoo.com Csizér Kata ELTE BTK Angol-Amerikai Intézet wein.kata@elte.btk.hu Kivonat: A fejezet áttekinti azon általános statisztikai megközelítéseket, amelyekre kvantitatív vagy kevert módszerű – mintavételeken, azaz statisztikai adatgyűjtésen alapuló – kutatásoknál és hipotézisvizsgálatoknál a tudományos megalapozottsághoz szükség van. A fordítástudományban gyakori módszer a statisztikai adatjellemzés, amelynek eszköze a leíró statisztika. Lehetőség van továbbá a minták tesztelésére, ami hipotézisalkotással jár együtt. Ez a következtetéses statisztika. A kutató által felállított hipotézist statisztikai próbákkal kell ellenőrizni, amelyek a változók tulajdonságai közötti eltérést statisztikailag jellemzik: megbízható módon kimutatják, hogy van-e a változók között számottevő (szignifikáns) eltérés. A változók mérési szintje határozza meg, melyik statisztikai próbát érdemes elvégezni, vagy milyen típusú mutatókat lehet használni. Az eredmények helyes értelmezéséhez elengedhetetlen a megfelelő szignifikanciaszint kiválasztása. Röviden bemutatjuk a statisztikai próbák korpuszkutatásban és kérdőívek eredményeinek kiértékelésében való alkalmazhatóságát, majd számba veszünk néhány ismert statisztikai elemzőprogramot. A cikk célja, hogy elméleti hátteret nyújtson a gyakorlathoz. Konkrét példákat, amelyek az ismertetett módszerek alkalmazását illusztrálják, a statisztikai (tan)könyvekben érdemes keresni. Kulcsszavak: nullhipotézis, p-érték, statisztikai elemzőszoftver, statisztikai próba, szignifikanciaszint Hivatkozás: Dankó Sz., Csizér K. 2022. Statisztikai próbák a fordítástudományi kutatásokban. In: Klaudy K., Robin E., Seidl-Péch O. (szerk.) Bevezetés a fordítás és a tolmácsolás kutatásmódszertanába I. Általános rész. Budapest: ELTE FTT–MANYE Fordítástudományi Szakosztály. 59–76. DOI: https://doi.org/10.21862/kutmodszertan1/4 60 Dankó Szilvia, Csizér Kata 1. Bevezetés Ez a fejezet a kutatási szempontok közül a fordítástudományi kutatásoknál hasznosítható statisztikai alapismereteket, a kutatások során alkalmazható statisztikai próbák, elemzések lehetőségeit és elvárásait tekinti át. Az empirikus kutatásokban nem helyettesíthetjük a tudományos elemzést alátámasztás nélküli kijelentésekkel, valamint elengedhetetlen a kapott adatokból statisztikai eszközökkel bizonyított – szignifikáns vagy nem szignifikáns – eredmény megállapítása. Amennyiben a kutatási eredmények nagyobb része mérhető, kvantitatív adat, azokat rendszerezni, elemezni lehet matematikai és statisztikai módszerekkel. A kutatás bizonyítására célszerű olyan matematikai módszereket használni, amelyek tömören, átfogóan fejezik ki a vizsgált jelenségeket, jól áttekinthetőek, a tudományágon belül közérthetőek, illetve alkalmasak lehetnek időbeli vagy térbeli összehasonlításra. A választott téma és a kutatási kérdések jellege meghatározza, milyen módon és mértékben szükséges a statisztikai alátámasztás, és eldönti, mi legyen a vizsgált sokaság és a mintavételi eljárás, milyen ismérvekre terjedjen ki a megfigyelés, sőt ösztönözhet a használható módszerek közötti választásra is. Az általános statisztika az elméleti kérdésekkel és a statisztikai vizsgálatok során alkalmazott módszerekkel általánosságban foglalkozik, de létezik szakstatisztika a társadalmi-gazdasági élet egy-egy területének statisztikai módszerekkel történő vizsgálatára is. A szakmai tárgyak nemzetközi oktatási és kutatási standardoknak megfelelő tanítása elképzelhetetlen módszertudományok, sztochasztikus modellezés nélkül. A társadalomtudományi szakok között akad jónéhány – pl. a pszichológia, szociológia vagy politológia –, ahol egy vagy két féléven keresztül kötelező hallgatni a statisztika tárgyat. A következő néhány oldalon bepillantást nyújtunk ezen tudományág alapjaiba, ugyanakkor mindenki számára feltétlenül ajánljuk, hogy a kutatásához kiválasztott statisztikai próbának részletesen olvasson utána (Hunyadi és Vita 2008), és azt először kisebb mintán próbálja ki. E kötet egyéb tanulmányaiban (Károly 2022, Eszenyi 2022) részletesen szerepelnek az adatgyűjtés kritériumai és módja (kérdőív/interjú/korpusz összeállítása, ellenőrzése és véglegesítése), valamint a megbízhatóság és az érvényesség feltételei. A továbbiakban adottnak tekintjük a szükséges és elégséges adatok1 rendelkezésre állását. A kvantitatív adatokat különböző módon csoportosítva eltérő elméletek igazolási lehetősége nyílik meg a kutató előtt. Az elemzőszoftverekkel lefuttatott statisztikai próbákból statisztikailag bizonyított következtetések vonhatók le. A következőkben az adatoktól függően sorra vesszük a lehetséges elemzési módszereket, amelyek biztosíthatják a kutatási hipotézisek tudományos bizonyítását vagy cáfolatát. 1 Adat: a mérés során megfigyelt dolgokhoz, jelenségekhez vagy emberekhez rendelt szám. Statisztikai próbák a fordítástudományi kutatásokban 61 2. Statisztikai változók és mérési szintek „A statisztika a tömegesen előforduló jelenségekre, folyamatokra vonatkozó információk összegyűjtésének, leírásának, elemzésének, értékelésének és közlésének tudományos módszertana” (Ács és Pintér 2011: 11). A kutatásokban a sokaságból valamilyen szisztematikus módszerrel vett mintán, avagy korlátozott számú elemen figyelünk meg tömegesen előforduló jelenségeket. A statisztikai adatokat valamely ismérv szerint csoportosítjuk, rendszerezzük. A statisztikát hagyományosan két részterületre osztják: leíró és következtetéses statisztikára. A leíró (deskriptív) statisztika a mintát jellemzi, az adatok kvantitatív elemzésével és statisztikai összegzésével foglalkozik (viszonyszám2, átlag3, szóródás4, indexszám5, eloszlások6 jellemzése vagy előrejelzések stb.). A leíró statisztika alkalmazási körébe tartozik pl. a nyelvészeti adatok, korpuszelemzések gyakorisági listáiban a szógyakoriság, kulcsszóelemzés, szótípus/szóalak arányok egyszerű jellemzése. A kérdőívek eredményei szintén jól szemléltethetők ezen statisztikai mérőszámokkal. Statisztikai sorokat többféle szempont alapján állíthatunk fel: pl. gyakorisági sor, idősor (trendtípusok, ingadozások, extrapoláció), mennyiségi vagy területi sor. Ezeket viszonyszámok jellemzik, és szemléltetésük statisztikai táblákkal vagy függvényeken (pl. sűrűségfüggvény, eloszlásfüggvény) alapuló grafikus ábrákkal történhet. A következtetéses statisztika szorosan épít a matematikai statisztikára és a valószínűség-elméletre, foglalkozik az adatok jellemzéséből származó információk alapján hozott döntésekkel, ezért döntéshozó statisztikának is nevezik. Azt vizsgálja, hogy a minták azonos sokaságból (populációból) származnak-e (Kovács 2006). A megfelelő statisztikai próba alkalmazandó két vagy több gyakorisági lista összehasonlításakor, vagy kérdőíves felmérés esetében, amikor több adatsort hasonlítunk össze. A következő statisztikai próbák tartoznak ide: t-próbák, khi-négyzet próba, korreláció, regressziószámítás és varianciaanalízis, amelyek célja az adatsorok közötti (szignifikáns vagy nem szignifikáns) különbözőségek kimutatása. Ezen módszereket szignifikanciavizsgálatként is szokták emlegetni. A kutatásban szereplő adatokat statisztikai módszerekkel elemezhetővé kell tennünk. A statisztikai próbák helyes alkalmazásához tudni kell, milyen statisztikai próbát milyen típusú adatsorral alkalmazhatunk. Először arról kell dönteni, hogy a vizsgált adatok a változók7 melyik csoportjába illenek, és milyen az adott változó A viszonyszám két – valamilyen szempontból összetartozó – adat hányadosa. Az átlag az értékek számtani középarányosa. 4 Szóródásnak nevezzük az adatok egymástól vagy valamely középértéktől való eltérését, különbözőségét. 5 Index: a közvetlenül nem összesíthető, de összetartozó adatok átlagos változását mutató összetett öszszehasonlító viszonyszám. 6 A változók (diszkrét vagy folytonos) eloszlása. Többféle eloszlás (pl. normális) és eloszlásfüggvény van. 7 Változó: a kutatásban szereplő adat bármilyen jellemzője, amely alapján rendezhető (pl. szövegek száma). 2 3 62 Dankó Szilvia, Csizér Kata eloszlása (követi-e a normalitást vagy nem), e szerint kell majd paraméteres8 vagy nemparaméteres statisztikai eljárásokat9 használnunk. Megkülönböztetünk diszkrét vagy folytonos változókat. Diszkrét változónak tekintünk minden olyan adatot, amely nem vehet fel végtelen sok értéket (pl. férfi/nő, beszélt nyelvek száma stb.). Ezeknek az adatoknak/csoportoknak a teljes mintán mérhető gyakorisága vagy eloszlása van. A folytonos változók a diszkrét változókkal szemben nem jellemezhetők egyértelmű határokkal, elméletben végtelen sok értéket vehetnek fel. A folytonos változók a leginkább alkalmasak arra, hogy a klasszikus statisztikai számításokat elvégezzük rajtuk (pl. átlag, medián10 stb.), és a tudományos világban alkalmazott mérési módszereknek is jobban megfelelnek. A változókat bizonyos jellemzők alapján mérési szintekbe11 sorolhatjuk, ami megszabja, milyen statisztikai műveleteket lehet velük végezni, milyen típusú mutatókat vagy melyik statisztikai próbát érdemes kiválasztani. Az osztályozás hierarchikus felépítésű, mivel minden mérési szint rendelkezik minden előző mérési szint tulajdonságával, így pl. az intervallumskála rendelkezik az ordinális és nominális skála tulajdonságaival is. A statisztikában a következő mérési szinteket (skálatípusokat) különböztetik meg: 1. nominális skála (pl. férfi/nő) – diszkrét változók esetén, 2. ordinális skála (pl. iskolai végzettség) – általában diszkrét változók esetén, 3. metrikus skála – folytonos és folytonosnak tekinthető diszkrét változók esetén, amely lehet: a) intervallumskála (nincs abszolút nullpontja, pl. IQ-teszt), b) arányskála (van természetes nullpontja, pl. testmagasság). A nominális és ordinális mérési szintű változók tartoznak a minőségi, az intervallum és az arányskála mérési szintű változók a mennyiségi ismérvek közé. A mérési szintek közül az intervallumskála és az arányskála a legmagasabb mérési szint. Azt nevezzük intervallum- vagy arányskála mérési szintű változónak, amelynek az értékei önmagukban jelentést hordoznak, azokkal matematikai művelet végezhető (pl. életkor). Az arányskála mérési szintű változó leírása során használható mutatók: gyakoriság, középértékek és szóródási12 mérőszámok (pl. szórás, relatív szórás, variancia), valamint az eloszlás görbéjének alakmutatói (pl. ferdeség és csúcsosság). Az intervallum-, illetve az arányskála mérési szintű változók esetében nagyon kevés A paraméteres statisztika a statisztikai következtetések egyik ága, amely ismert eloszlásokon alapuló felbontási kritériumokat használ. 9 A nemparaméteres statisztika a statisztikai következtetések egyik ága, amelynek számításai és eljárásai nem támaszkodnak a valószínűség-eloszlások egy adott paraméteres családjába tartozó adatokra. 10 A medián egy adatsor középső értéke, amelynél az ennél kisebb és nagyobb adatok száma azonos. 11 A mérési szint a változók osztályozása bizonyos jellemzők alapján. 12 Szóródásnak nevezzük az adatok egymástól vagy valamely középértéktől való eltérését, különbözőségét. 8 Statisztikai próbák a fordítástudományi kutatásokban 63 kivétellel mindig ugyanazon statisztikai próbákat, teszteket alkalmazzák a kutatók. Az 1. táblázatban láthatók a mérési szintek jellemzői. 1. táblázat A mérési szintek (skálatípusok) jellemzői A mérési szintek jellemzői Nem metrikus Metrikus Nominális (névleges) Ordinális (sorrendi) Megállapítható, hogy egyes értékek melyik egységhez tartoznak + + + Értékei sorrendbe rendezhetők – + + Értékeivel matematikai művelet végezhető (például átlag), és van mértékegysége – – + A leíró statisztikai elemzés során a nominális mérési szintű változók jellemzően minőségi vagy területi ismérvek. A minőségi ismérv a fordítástudományban lehet például, hogy a vizsgált szövegek milyen nyelven íródtak, a területi ismérv pedig a földrajzi terület vagy ország, ahonnan a szövegek vagy a fordítók származnak. Az ordinális mérési szint rendelkezik mindazon jellemzőkkel, mint a nominális mérési szint, valamint az adatok sorba rendezhetők. Az ordinális mérési szintű változó esetében nemcsak a skálaértékek azonos vagy nem azonos volta, hanem azok sorrendisége is az egységek között fennálló valós viszonyokat írja le. Mind a nominális, mind az ordinális változókat gyakran szokták oszlopdiagrammal és kördiagrammal ábrázolni. A következő statisztikai mutatókat alkalmazzák a leggyakrabban az ilyen mérési szintű változók esetében: középértékek és szóródási mérőszámok, gyakorisági mutatók. Alkalmazhatunk statisztikai próbákat is például khi-négyzet próba13 vagy rangkorreláció14. Amennyiben két változó összefüggését kívánjuk vizsgálni, akkor lehetőség van kapcsolatvizsgálati módszerekkel magyarázni a függő változók viselkedését független változó(k) segítségével. Két változó között a kapcsolat lehet független, amikor X ismérv szerinti hovatartozás ismerete nem ad semmilyen többletinformációt az Y szerinti hovatartozásról. Lehet sztochasztikus, ha az egyik ismérv hatással van a másikra, de nem határozza meg egyértelműen annak értékeit/változatait. Továbbá lehet függvényszerű (determinisztikus), amikor a vizsgált egységek X szerinti hovatartozásának ismeretében egyértelműen megmondható azok Y szerinti hovatartozása is. A sztochasztikus kapcsolat fajtái: asszociáció, vegyes, korreláció és rangkorreláció. A korrelációszámítás a mennyiségi ismérvek közötti kapcsolat szorosságának mérése. A kapcsolat szorosságát zárt intervallumban szokás mérni 0 ≤ mutató ≤ 1, iránya pozitív vagy negatív lehet, amikor a 0 teljes függetlenséget, az 1 függvényszerű (deterKhi-négyzet próba: diszkrét eloszlású változók mérésére alkalmas statisztikai eljárás, mely arra ad választ, hogy a két változó között van-e szignifikáns kapcsolat. 14 A rangkorreláció a valószínűségszámításban a változók közötti kapcsolat/összefüggés erősségét és irányát vizsgálja (ok-okozati összefüggés nélkül). 13 Dankó Szilvia, Csizér Kata 64 minisztikus) kapcsolatot jelent. Az X és Y függvényszerű kapcsolatát regressziószámítással15 lehet jellemezni, vagyis a mennyiségi ismérvek egymásra gyakorolt hatásának számszerűsítésével, e hatások irányának és mértékének megállapításával becsléseket végzünk. Az elemzéseket, értelmezéseket kereszttáblával16, khi-négyzet próbával és a nominális változók közötti kapcsolatokat mérő mutatókkal végezhetjük. A kapcsolatokat vizsgáló statisztikai próbákat összesítve a 2. táblázat szemlélteti. 2. táblázat17 Kapcsolatvizsgálati tábla18 Független változó (ami alapján mérjük a változást) Függő változó (aminek a változását mérjük) Nem metrikus Metrikus Nem metrikus Metrikus Kereszttáblaelemzés Diszkriminanciaelemzés17 (többváltozós függvények) Varianciaelemzés18 Korrelációszámítás és regressziószámítás A fordítástudományban jellemzően előforduló statisztikai cél az adatjellemzés. A legegyszerűbb jellemzés az adatok táblázatba rendezése, amelyek lehetnek egyszerű, csoportosító vagy kombinációs táblák. Statisztikai táblának nevezzük a megfelelő külső formával ellátott statisztikai sorok összefüggő rendszerét. A táblázatkészítés célja, hogy lényeges információkat rendezett és tömör formában mutassunk be. Egy táblázat statisztikai célú elemzésekor meg kell állapítani: (a) milyen sokaságra (populációra) vonunk le következtetéseket a minta alapján, (b) milyen tulajdonságokat és változókat mértek a vizsgálatban, (c) milyen formában tünteti fel a táblázat az adatokat, és (d) milyen összképet lehet kiolvasni a táblázatból. A csoportosított adatokat, eredményeket szemléletes módon az adatok eloszlásának ábrázolásával és az eloszlások numerikus jellemzésével jelenítjük meg. Statisztikai jellemzésre hipotézisvizsgálatoknál és általában véve a tudományos megalapozottsághoz van szükség. Minden hipotézisvizsgálat ugyanazokból a lépésekből áll, az egyes statisztikai próbák csak bizonyos technikai elemeikben különböznek egymástól (Vita 2010). Eltekinteni a statisztikai próbáktól akkor lehet, ha a kutatás teljes mértékben kvalitatív Regressziószámítás (regresszióanalízis) során két vagy több véletlen változó között feltételezett kapcsolatot/összefüggést vizsgáljuk. 16 Kereszttábla: változók közötti kapcsolat (asszociáció) jellemzésére alkalmas adattábla. A mátrixban többnyire két vagy több (nominális vagy ordinális) változó értékeinek együttes eloszlása ábrázolható. 17 Diszkriminanciaelemzés (diszkriminanciaanalízis): olyan adatelemzési módszer, amelyet kategóriába tartozás előrejelzésére lehet használni. Azt vizsgálja, hogy a csoporthoz tartozás mekkora százalékban becsülhető a független változókkal. 18 Varianciaelemzés (varianciaanalízis): számos egyező szórású, normális eloszlású csoport átlagának összevetésére alkalmas statisztikai módszer, melyet angol megnevezésének (analysis of variance) kezdőbetűiből ANOVA-ként is ismernek. 15 Statisztikai próbák a fordítástudományi kutatásokban 65 (például interjú). Rendszerint kutatói elvárás, hogy a kapott számszerű eredményekről megfogalmazzuk, hogy kellően megalapozottak-e (nem a véletlennek köszönhetők), és a táblázatban látható adatok között milyen kapcsolat/összefüggés (például erős vagy gyenge) van, valamint a kapcsolat szignifikáns-e valamely előre meghatározott valószínűségi értéken (p-értéken). 3. Statisztikai próbák és alkalmazhatósági körük Statisztikai próbának vagy statisztikai tesztnek nevezzük azt az eljárást, amelynek a segítségével eldönthetjük, hogy az adott hipotézis elfogadható-e vagy sem, vagyis hogy a kutatási eredmény általánosítható-e a populációra/sokaságra nézve is. A hipotézisvizsgálatok általános célja, hogy a populációból szerzett minták tulajdonságai között különbséget keressenek, majd az eredmény alapján a populáció jellemzőire vonatkozóan valamilyen következtetést levonhassanak. A nullhipotézis alapvetően azt feltételezi, hogy a minták között nincs számottevő (szignifikáns) eltérés. A megfelelő statisztikai próba kiválasztása során figyelembe kell venni, milyen mérési szintűek a változóink, és összetartozó19, páros vagy független-e20 a mintánk. A korábbiak szerint a nominális és ordinális mérési szintű változók tartoznak a minőségi statisztikai próbák típusába, az intervallum- és az arányskála mérési szintű változók a mennyiségi típusba. Ezek alapján a leggyakrabban alkalmazott egyváltozós vagy többváltozós statisztikai próbákat a 3. táblázat tartalmazza. A statisztikai teszteket két nagy csoportba oszthatjuk: parametrikus és nemparametrikus tesztekre, annak függvényében, hogy milyen mintaeloszlást vizsgálunk. A paraméteres próbák alkalmazásának több előfeltétele van, például a mintánk normalitása, illetve a változóink folytonos mivolta. A normális eloszlás becslésére a vizuális ábrázolás (például hisztogrammok), míg tesztelésére statisztikai próbák állnak rendelkezésre. Amennyiben a mintánk nem követi a normális eloszlást, a nemparaméteres próbák alkalmazása lehetséges. A paraméteres próbáknak többnyire (de nem minden esetben) megvan a nemparaméteres párjuk. A kétféle próbatípus közül a paraméteres próbák több előfeltételt igényelnek, ennek fejében viszont erejük nagyobb, mint a hasonló feladatra alkalmazott nemparaméteres próbáké. Az már az adott helyzetben a felhasználó döntése, hogy melyik próbatípushoz fordul (Vita 2010). Összetartozó minta: ugyanazon a skálán mért változók összehasonlítása, változás vagy összetartozó párok vizsgálata, önkontrollos kísérletek. 20 Független minta, ha egymástól függetlenül választunk ki mintákat különböző populációból vagy egy véletlen mintát valamilyen szempont szerint részekre bontunk. 19 Dankó Szilvia, Csizér Kata 66 3. táblázat A leggyakrabban alkalmazott statisztikai próbák A statisztikai próba neve Milyen típusú változók? Hány csoport/ minta? Milyen típusú minta? A statisztikai próba típusa Egyváltozós statisztika Egymintás T-próba Minőségi és mennyiségi Egymintás Függő Parametrikus Egymintás u-próba, z-próba Minőségi és mennyiségi Egymintás Függő Parametrikus Egy szempontos varianciaanalízis (ANOVA) Mennyiségi Kettőnél Több Független Parametrikus Fisher-teszt Minőségi Egymintás Függő Parametrikus Friedman-próba Mennyiségi Kettőnél több Függő/független Nemparametrikus Független T-próba Minőségi és mennyiségi Kétmintás Független Parametrikus Kevert ANOVA Mennyiségi Kettőnél több Függő Parametrikus Khi-négyzet próba Minőségi Egymintás Függő Nemparametrikus Kolmogorov‒ Smirnov-próba Mennyiségi Kétmintás Független Nemparametrikus Kruskal‒Wallispróba Mennyiségi Kettőnél több Függő/független Nemparametrikus Mann‒Whitneypróba Minimum ordinális Kétmintás Függő/független Nemparametrikus Páros T-próba Minőségi és mennyiségi Kétmintás Függő/páros Parametrikus Welch-próba (d-próba) Mennyiségi Kétmintás Független Parametrikus Wilcoxon-próba Minőségi Egymintás Függő Nemparametrikus Többváltozós statisztika Diszkriminancia- Mennyiségi analízis Két vagy több Függő/független Parametrikus és nemparametrikus Lineáris regresszió Mennyiségi Egymintás Függő/független Nemparametrikus Pearson-féle korreláció Mennyiségi Két adatsor Független Parametrikus Spearman-féle korreláció Minimum ordinális Két összefüggő Független Nemparametrikus Statisztikai próbák a fordítástudományi kutatásokban 67 A paraméteres próbastatisztikai eljárások legelterjedtebb példája a t-próba. A t-próba normál eloszlású és kis számú minta (n<30) esetén használható. Típusait tekintve megkülönböztetünk egy-, kétmintás vagy páros (például elő- és utómérés) t-próbát (Tóthné 2011). Az egymintás t-próba azt vizsgálja, hogy a minta átlaga szignifikánsan különbözik-e egy adott értéktől. A t-próba lefuttatása után kapott t-értéket kell összehasonlítani a Student-féle t-eloszlás21 a táblázatában leolvasható t-értékkel a kiválasztható statisztikai biztonsági szinten. A t-értéket a statisztikai könyvekben a Student-féle t-eloszlás valószínűségi szintjeinek táblázata tartalmazza (Falus és Ollé 2006) a minta szabadságfokának22 megfelelő sorokkal és a sokaság százalékos eloszlását (vagy szignifikaciaszintet) jelző oszlopokkal. Az egymintás mellett a kétmintás és páros t-próbák is rendelkezésünkre állnak a kutatásokhoz. A kétmintás t-próba két mintaeloszlás átlagát és szórását vizsgálja, amellyel statisztikailag tudjuk igazolni a különbséget a két minta között. A páros t-próba összetartozó mintákat (például ugyanazt a csoportot különböző időpontokban) hasonlít össze. Csakúgy, mint az egymintás esetében, itt is a t-érték alapján hozunk döntést, amelyet összevetünk az általunk választott szignifikanciaszinttel. A legtöbb statisztikai programban megkapjuk a mintánk t-értékét, amely alapján képesek vagyunk statisztikailag igazolt megállapítást hozni a mintánkról. Ha kettőnél több mintát kell összehasonlítani, akkor az ANOVA23 varianciaanalízis a legjobb módszer. Az egyirányú ANOVA ellenőrzi, hogy van-e szignifikáns különbség három vagy több független csoport átlaga között. Az ANOVA táblázat információt nyújt a csoportok közötti és a csoportokon belüli változásokról. Több típusa létezik a varianciaanalízisnek, annak megfelelően, milyen csoportokat és feltételeket hasonlítunk össze (ismételt mérések esetén kevert ANOVA, többszempontos24 és összetartozó mintás25). A nemparametrikus tesztek nem követelik meg a normalitást, de egy részüknél feltétel, hogy az eloszlásnak bizonyos alakja (például szimmetrikus) legyen. Kevesebb feltételük van, mint a parametrikus teszteknek, és nominális és ordinális változókon is használhatók (Tóthné 2011). Ide sorolható a khi-négyzet próba, amely arra ad választ, hogy a két változó között van-e szignifikáns kapcsolat (például a megfigyelt gyakoriságok szignifikánsan különböznek-e a várható gyakoriságtól). A khinégyzet eljárás feltétele, hogy a táblázat minden cellájában legyen elégséges adat. Ez A Student t-eloszlás egy valószínűségi-eloszlás táblázat, amelyet William Sealy Gosset 1908-ban fejlesztett ki. A táblázat a statisztikai könyvek függelékeiben található meg. (Az eloszlást leíró tanulmányt Gosset Student álnéven publikálta.) 22 A szabadságfok az egymástól függetlenül választható elemek számával egyenlő. Jele: f. 23 ANOVA (analysis of variance): varianciaanalízis vagy varianciaelemzés, olyan statisztikai módszer, mely számos egyező szórású, normális eloszlású csoport átlagának összevetésére alkalmas. 24 Ha két független változónk van, mely a csoportosítás alapját képezi, akkor kétszempontos varianciaanalízisről beszélhetünk. 25 Összetartozó mintás varianciaelemzésről beszélünk, ha egy csoportot vizsgálunk kettőnél több helyzetben. 21 68 Dankó Szilvia, Csizér Kata a módszer alkalmas több adatsor közötti összefüggés elemzésére. A khi-négyzet értéke megbízhatatlanná válik, ha kisebb populációt hasonlítunk sokkal nagyobbhoz, vagy ha a várható gyakoriság ötnél kisebb (ilyenkor például túlértékeli a gyakori elemeket). A Mann–Whitney26 statisztikai módszer a kétmintás t-próba változata arra az esetre, amikor nincs túl sok adat, és az adatok nem normális eloszlásúak, vagy ha a két minta varianciája szignifikánsan eltérő. Léteznek többváltozós statisztikai próbák, amelyekkel azt vizsgálhatjuk, hogy két vagy több változó összefügg-e. Amikor a változóink között asszociációt keresünk, kapcsolatvizsgálati eljárásokhoz folyamodhatunk. Ennek leggyakoribb példája a korreláció, amely két változó lineáris kapcsolatát írja le. Ha változók között oksági viszonyokat is felfedezünk, a korrelációs teszten túl érdemes regressziószámítást végezni. A fordítástudományi kutatásokban is előfordulhatnak egymással összefüggő adatok, például a szövegek hossza és a fordítók életkora/neme/anyanyelve stb. Ilyenkor kell a megfelelő többváltozós teszthez folyamodni. 4. A szignifikanciaszint A statisztikai szignifikancia kulcsszerepet játszik a statisztikai hipotézisvizsgálatokban, mert tulajdonképpen a próbastatisztika eredményének a valószínűségét számszerűsíti. A szignifikancia kifejezés nem a fontosságot jelenti, és nem egyenlő a kutatási, elméleti vagy gyakorlati szignifikanciával. A szignifikanciaszint (jele: α) a kiinduló hipotézis elfogadására vonatkozó döntés helyességét fejezi ki, ami egyúttal a döntéshozatal megbízhatósági szintje. A kutatók saját kutatásuk szignifikanciaszintjét rendszerint előre meghatározzák. Létezik a statisztikai szignifikanciára vonatkozó másik mutatószám, a p-érték, amelyet a számítógépes statisztikai programok a többi eredménnyel párhuzamosan kiszámolnak. A p-érték jelöli az adott tesztstatisztika értékének (például t-próba esetén t-érték) előfordulási valószínűségét. „Az ún. p-érték használata – amit gyakran empirikus szignifikanciaszintnek neveznek – a szignifikanciaszint megválasztását valójában a hipotézisvizsgálat eredményének felhasználójára bízza” (Vita 2010: 1144). A gyakorlatban a kutatók rendszerint elfogadják a p<0,05 kritikus értéket mint konvencionális szignifikanciaszintet. Ez a fordítástudományban is bevett szokás, ahogy a legtöbb tudományterületen, bár vannak olyan tudományágak (például a gyógyszerészet), ahol elterjedt ennél jóval alacsonyabb, például 0,001-es szint is. Ha a próbastatisztika eredménye egyenlő vagy kisebb a kiválasztott szignifikanciaszinthez tartozó statisztikai értéknél, akkor azt mondjuk, hogy az eltérés szignifikáns az előre elfogadott p-értéken (például p<0,05-ös szinten). A statisztikai próba szignifikanciaszintjét az eredménnyel együtt kell megadni, mert 26 A Mann–Whitney-próba a kétmintás t-próba nemparametrikus megfelelője, amelyet nem normális eloszlás, valamint ordinális változók esetén használunk. Azt a nullhipotézist vizsgáljuk, miszerint a két minta ugyanabból a populációból származik. Statisztikai próbák a fordítástudományi kutatásokban 69 lehet, hogy a különbség 0,05-ös szinten szignifikáns, de 0,01-es szinten már nem. A szignifikanciaszint értéke azért fontos, mert ez mutatja meg, hogy az adott eredménynek a felhasználási terület szempontjából van-e fontossága, és elég nagy-e a mért hatásnagyság ahhoz, hogy szakmai szempontból érdemes legyen foglalkozni vele (Bárdits et al. 2016). Ahhoz, hogy egy kutató megállapítsa az eredményeiről, hogy azok statisztikailag szignifikánsak-e, el kell végeznie a statisztikai próbát (számításokat), és a tesztstatisztika eredményét p-értéken kell értelmeznie. Akár volt előre megfogalmazott nullhipotézis, akár nem, a kiszámított eredmény statisztikailag akkor szignifikáns, ha a p-érték kisebb, mint az előre meghatározott szignifikanciaszint p ≤ α. Vagyis, ha az eredmény p-értéke kisebb vagy egyenlő az előre meghatározott szignifikanciaszinttel, akkor a kutató azt a következtetést vonhatja le, hogy a minta alapján kiszámított eredmény az egész sokaságra (populációra) igaz. 5. A statisztikai próbák jelentősége a fordítástudományi kutatásokban Az utóbbi évtizedben megjelent fordítástudományi tanulmányokban a kutatók többféle szignifikanciavizsgálatot alkalmaztak. A nyelvészeti adatok gyakran nem indokolják statisztikai hipotézisek, például nullhipotézis felállítását, és a kutatók maguk sem fejtik ki munkájukban, miért választották éppen azt a statisztikai eljárást (vagy matematikai modellt), amelynek az eredménye végül bekerült a cikkbe. A kutatásokban gyakran fordulnak elő kérdőívek és a korpusznyelvészet megjelenésével korpuszelemzési adatok. Függetlenül az előnyben részesített kutatási formától, a következtetések levonásához elengedhetetlen valamely statisztikai próbával az előre meghatározott szignifikanciaszinten kiértékelni a kapott kvantitatív eredményeket. 5.1. Statisztikai próbák korpuszkutatás esetén A korpusznyelvészetben megoszlanak a nézetek a szignifikanciatesztek használhatóságáról és megbízhatóságáról. Sok nyelvész kiemeli, hogy szükséges kimutatni valamely különbségről vagy hasonlóságról, hogy nem a véletlennek köszönhető, különösen mivel a mintavételi folyamat nem mindig garantálja a reprezentativitást. Ugyanakkor a valószínűségi statisztikai tesztek nem mindig használhatóak megbízhatóan a nyelvészeti adatok mérésére. A legelterjedtebb parametrikus tesztek, amelyeket a társadalomtudományokban használnak, feltételezik, hogy az adatok normális eloszlásúak, ami gyakran nem igaz a nyelvészeti adatokra (Oakes 1998: 11; McEnery és Wilson 1996: 70). Emellett a statisztikai tesztek a nullhipotézisen alapulnak, és feltételezik, hogy a két változó közötti összefüggés véletlenszerű, de a nyelv sohasem véletlenszerű, mert céllal beszélünk vagy írunk, így a nullhipotézis sohasem igaz 70 Dankó Szilvia, Csizér Kata (Kilgarriff 2005). Ennek bizonyítása nagy adatmennyiséggel lehetséges, és szerencsére a nyelvi korpuszok általában nagyon nagy mennyiségű adatot tartalmaznak. Természetesen a megfelelő korpuszok összeállítása kihívást jelent, a többnyelvű korpuszok esetén pedig még nagyobb feladat, mint az egynyelvű korpuszoknál. Bár a szövegek könnyebb hozzáférhetőségével párhuzamosan a vizsgálati korpuszok mérete is egyre nő (lásd pl. Robin et al. 2016), a korpuszok méretéből még nem lehet egyértelműen következtetni a mintavétel pontosságára, vagyis hogy a korpusz mennyire reprezentálja a vizsgálni kívánt nyelvet/nyelvváltozatot. Ezért általános elvárássá vált a korpuszalapú kvantitatív vizsgálatok eredményei tekintetében a statisztikai szignifikancia vizsgálata is (Bisiada 2017; Robin 2018; Seidl-Péch 2020). Ez utóbbi segít annak alátámasztásában, hogy a minta vizsgálata során kapott mérési eredmények nem a véletlen miatt, nem a mintavétel hibájából vagy valamely mérési hibából következnek, hanem valóban jellemzik a vizsgálni kívánt nyelvet/nyelvváltozatot. Ha ugyanis a statisztikai szignifikanciavizsgálatok alapján a lekérdezések során kapott eredmények nem szignifikánsak, akkor ezen eredmények alapján még nem lehet a korpuszban reprezentált nyelvre/nyelvváltozatra egyértelmű következtetéseket levonni (Seidl-Péch 2020). A Genti Egyetem kutatói (De Sutter et al. 2012) szigorúbb fegyelemre intenek a korpusznyelvészeti fordításkutatási módszereket illetően. Kijelentik, hogy a kutatásokban szükséges lenne: 1. pontos áttekintést nyújtani a használt korpuszt alkotó anyagok kiválasztásának, annotálásának és ellenőrzésének módjáról; 2. magyarázatot nyújtani bármilyen felmerülő problémáról, amely az adatok kiválasztása és az annotálás közben felmerült, beleértve az alkalmazott megoldások explicit és motivált leírását; 3. a statisztikai szignifikanciateszteket a részletes kvalitatív elemzések kiegészítéseként, és nem ellenpontjaként kell feltüntetni (De Sutter et al. 2012: 137, a szerzők fordítása)27. Hangsúlyozzák, hogy úgy kellene bemutatni a hipotéziseket, hogy azokat más kutatók is tudják empirikusan tesztelni, értékelni és megismételni. Így a szakirodalomban felmerülő elméleti és módszertani problémák is megoldódnának. A hipotézisek újratesztelésével és korábbi munkák újraértelmezésével megnyílhat az út néhány népszerű, de eddig nem bizonyított állítás újragondolásához, például a fordításra ható eltérő forrásnyelvi és műfaji hatások összefüggéséről. Ez a módszer bátorításul szolgál a kutatók számára, hogy aktívabban együttműködjenek, aminek végeredményeképp a tudományág is jobban fejlődik. Mára már túlhaladott az a korábbi nézőpont, (i) provide a meticulous overview of the corpus materials used and of the exact procedures for selecting, annotating and sifting the data; (ii) comment on any specific problems encountered during data selection and annotation, including explicit and motivated statements as to the solutions being adopted; (iii) include elaborate testing for statistical significance as a complement of, not in opposition to, thorough qualitative analysis. (De Sutter et al. 2012: 137) 27 Statisztikai próbák a fordítástudományi kutatásokban 71 amely szerint a kvantitatív nyelvészeti adatoknál gyakran nincs szükség statisztikai folyamatokra, mert sokszor nem mutatnak többet, mint amit egyszerűen nyers adatösszehasonlítással is megkaphatunk (Stubbs 1995). A korpusz-összeállítást és a statisztikai elemzést jellemző kezdeti hiányosságokat leküzdve a második generációs kutatásokban egyre inkább megtalálhatjuk a következetes módszertani koncepciót, amely a kutatási eredmények megbízhatóságáért is felel (Seidl-Péch 2020). 5.2. Statisztikai próbák kérdőíves kutatás esetén Egy tudományos igényű kérdőív elkészítése komoly szakmai jártasságot igényel (például ellenőrző kérdések, a kérdések rétegezése, logikai kapcsolatok megteremtése). Online rendkívül sok válaszadó elérhető, így kényelmes és gyors módszer, ráadásul a különböző programoknak (kérdőívszerkesztő online szoftver, Excel, IBM SPSS stb.) köszönhetően könnyedén összesíthetők és kiértékelhetők az eredmények. Azonban a legtöbb kutatónak az szokta a legnagyobb kihívást jelenteni, hogy a kapott eredményeket hogyan is szemléltesse úgy, hogy az az elvárásoknak megfelelő, látványos és magas színvonalú legyen. A kérdőíves vizsgálatok jóval nagyobb elemszámot kívánnak meg, mert minél nagyobb mintát vizsgálunk, annál nagyobb lehet az esélye a normalitásnak, és annál nagyobb a próba ereje. Bármilyen is a mérés, lényege, hogy minden esetben szabályszerűen kell a számokat a megfigyelt karakterisztikához vagy eseményekhez kötni. A szabályszerűség mikéntje megszabja a mérés alapjellemzőjét: a mérési skála típusát. Széles körben elterjedt a Likert-skála28, melyet attitűdmérésre29 használnak. Ha döntenünk kell egy kérdőív szerkesztése során, hogy az adott kérdést arányskála vagy nominális, illetve ordinális mérési szintként fogalmazzuk-e meg, akkor tudnunk kell, hogy minél magasabb mérési szintet választunk, annál több információt tudhatunk meg az elemzés során. Tehát a nominális és ordinális mérési szintek helyett célszerű arányskálát választani, ezért törekedjünk az adatok kvantifikálására. Általában ezek a változók folytonos változók, illetve olyan diszkrét változók, amelyek feldolgozás szempontjából folytonosnak tekinthetők. Minden informatikai rendszerrel feldolgozott, de legfőképpen az Excel táblázatkezelő alkalmazással rendszerezett adat statisztikailag könnyen elemezhető. Az elemzés végén emeljük ki azokat az összefüggéseket, amelyek a legszorosabb kapcsolatban állnak a témával, és hozzunk döntést a hipotéziseinkről. A kutatási kérdéseken alapuló hipotézisek megválaszolásakor mindig tegyük egyértelművé, hogy milyen statisztikai módszer eredményei alapján hoztuk meg a döntésünket. A kérdőív kiértékelésének részeként bátran alkalmazzunk ábrákat és diagramokat, hiszen segítségükkel sokkal átláthatóbb lesz az értékelés. Grafikus ábrázolásra leggyakrabban pontdiagramot, vonaldiagramot, hisztogramot, illetve dobozdiagramot (box plotot) szoktak használni. 28 29 A Likert-skála két szélső érték közötti mérési skála (általában 1–5-ig terjedő egyetértési skála). Attidűdmérés: viselkedésanticipáció, mely lehetővé teszi a társadalmi mozgások trendjeinek jóslását. 72 Dankó Szilvia, Csizér Kata 6. Statisztikai elemzőszoftverek A táblázatkezelő programok (például Microsoft Excel) alkalmasak az adatok csoportosítására, rendezésére, ábrák, táblázatok, egyszerű kimutatások, számítások elvégzésére. Többváltozós regresszióelemzéshez, idősorelemzéshez használhatóak ingyenesen letölthető szoftverek (például VassarStats, R vagy gretl program). Nagy számítási igényű statisztikai feladatok elvégzéséhez kiválóan alkalmas az SPSS (Statistical Package for Social Sciences) program, amellyel különböző mérési változók bonyolultabb statisztikai elemzése is elvégezhető. A program használható kérdőív kérdéseire adott válaszok elemzésére, hosszú távú idősorelemzésre, többváltozós regreszszió-, klaszter- és faktorelemzésekre is, barátságos felhasználói felülettel és több „beépített” alapfunkcióval rendelkezik, hátránya viszont, hogy nem ingyenes. A szignifikanciateszteket tetszőleges elemzőszoftverrel el lehet végezni, a legismertebb a fent említett SPSS csomag. Ennél hozzáférhetőbb 2010 óta a Microsoft Excel program felbővített statisztikai adatelemző csomagja. Néhány frissebb kutatásban megjelennek egyéb ingyenes szoftverek vagy intézményeknél kidolgozott egyszerűsített táblák, de a pontos hivatkozások még sokszor hiányoznak. A t-próbák biztosítják a legegyszerűbben elvégezhető statisztikai ellenőrzést. Azt, hogy a kutató a kutatásban mely statisztikai próbát alkalmazza, az adatok alapján saját maga dönti el. A statisztikai számítások futtathatók a 4. táblázatban (a teljesség igénye nélkül) összegyűjtött programokkal. Néhány egyszerűsített egyetemi verzión kívül a helyes felhasználáshoz a program ismerete és némi gyakorlat szükséges. Bármennyire modern is azonban a technika, a felhasznált szoftver nem váltja ki a józan ész alkalmazását és a kritikus gondolkodást. Ha a szerző prekoncepcióval közelít a tárgyhoz, akkor ott is találhat eredményt, összefüggést, ahol nincs. Önmagában egy kiváló illeszkedésű regressziós modell sem ér sokat, ha a vizsgált változók között nincs tényleges, logikai úton is alátámasztható, megmagyarázható oksági kapcsolat. Sok kutató hosszú időt tölt el az adatok számmá alakításával vagy más módon mérhető formába tételével. Ha ez jól sikerül, az természetesen megkönynyítheti az adatok feldolgozását és az elemző munkát, de a kvalitatív információk kvantifikálása általában nem egyértelmű, leegyszerűsítheti az eredményt, és az adatok információgazdagsága is csökkenhet. Statisztikai próbák a fordítástudományi kutatásokban 73 4. táblázat30 Statisztikai programok listája31 Statisztikai elemző program Statisztikai szignifikancia mérése SPSS (IBM) – fizetős több nyelvű VassarStats – ingyenes angol nyelvű R (RStudio) – ingyenes magyar nyelvű RopStat – fizetős magyar nyelvű Mann–Whitney, U-próba30 t-próba (páros, egymintás, kétmintás) khi-négyzet eloszlás valószínűség-becslés (log-likelihood31) Social Science Statistics – ingyenes angol nyelvű Lancester University UCREL – ingyenes angol nyelvű valószínűség-becslés (log-likelihood) khi-négyzet eloszlás Microsoft Windows Excel t-próba (páros, egymintás, kétmintás) khi-négyzet eloszlás gretl – ingyenes, több nyelvű regressziószámítás Amikor a kutatók csak az adatok megtekintése nyomán döntik el, melyek azok a hipotézisek, amelyeket ellenőrizni akarnak – márpedig gyakran ez történik –, azt a statisztikusok szignifikanciavadászatnak nevezik. A modern statisztikai programcsomagok lehetővé is teszik, hogy a változók közötti összes lehetséges kapcsolatot addig vizsgálják a kutatók, amíg valami szignifikánsat nem találnak. Ennek ellenkezője az lehet, ha a kutatók a nem szignifikáns eredményeket automatikusan figyelmen kívül hagyják. Ahogy Ziliak és McCloskey (2008) megfogalmazta, a tudományos következtetések levonásához nem mechanikus procedúrákra, hanem a józan észre, kritikus gondolkodásra és bölcsességre kell bíznunk magunkat. A statisztikai szignifikanciavizsgálatok korlátai között szokás említeni, hogy a közölt eredmények esetleg nem valósak, nem megismételhetők, vagy a gyakorlatban nem hasznosak. Ezt elkerülendő: A fordítástudományban a statisztikai próbák használatát előmozdítandó hasznos lenne, ha a kutatók megadnák az általuk alkalmazott szignifikanciatesztek dokumentált forrását, ahogy a többi kutatási módszer és elmélet pontos leírását is meg szokták adni, amelyeket a munkájukban felhasználnak. A statisztikai próba neve önmagában pontos hivatkozás nélkül azt sugallja, hogy mindez köztudott, ami a bölcsészettudományokban kétségkívül nincs így. (Bisiada 2017: 242, a szerzők fordítása)32 Az U-próba egy statisztikai sokaság (minta) rangsorolása, a két csoport elemeinek a párba állítása. Az U-próba (más néven Z-próba) ha egymintás, akkor rokonítható az egymintás t-próbához, ha kétmintás, akkor a Welch-próbához. 32 ”To promote the use of statistical significance testing in our discipline, it would be useful for scholars to cite the sources where the significance tests they employ are documented, just as it is done with other 30 31 74 Dankó Szilvia, Csizér Kata Statisztikai próbát azért végzünk, hogy a hipotézisünket bizonyítsuk, és matematikailag alátámasztott következtetéseket tudjunk levonni. A szignifikancia vizsgálatának egyik fontos eleme a hatásnagyság33 beemelése a szempontok közé. A nagyobb minta és a magasabb szignifikanciaszint növeli a teszt erejét, illetve minél nagyobb a kimutatni kívánt hatás, annál erősebb a teszt (Cohen 1962). A korpuszkutatásoknál például a Lancesteri Egyetem kutatói a khi-négyzet teszt szignifikanciaszintjét a hatásnagysággal korrigálták az egyetemi honlapra feltöltött elemzőeszközön34, ahol a korpuszelemzéssel kapott normalizált (1 millió szóra vetített) szógyakorisági értéken túl a kutatásban használt korpusz méretét is meg kell adni, és abból kiszámítanak egy másik adatot, az úgynevezett várható szógyakoriságot. Az persze továbbra is a kutató felelőssége, hogy ezeket az adatokat ténylegesen mire és hogyan használja fel. 7. Összefoglalás Az elmúlt egy-két évtizedben a népszerű statisztikai programcsomagoknak köszönhetően a statisztikai próbák egyre elterjedtebbé váltak minden tudományos területen. Tanulmányunkban áttekintést nyújtottunk ezen próbák általános alkalmazásáról és növekvő jelentőségéről a fordításkutatásban. A helyes statisztikai gyakorlat lényeges alapja és alkotóeleme az empirikus kutatásnak. Bármely tanulmányban, amely véletlenszerű mintavételezésen alapul, fontos, hogy a kutatás módszeréhez és az adattípushoz illeszkedő statisztikai mutatókat vagy próbát használjunk. A statisztikai szignifikancia fogalma alapvető fontosságú a hipotézisvizsgálathoz, hiszen a statisztikai szignifikancia felmérése előtt a kutató rendszerint megfogalmaz egy kutatási kérdést és egy hipotézist, amely a kutatást irányítja. A mintát ezután a megfelelően kiválasztott próbastatisztikával tudja vizsgálni. A szignifikancia szintjének meghatározásával és a p-érték tesztelésével a kutató magabiztosan megtarthatja vagy elutasíthatja a hipotézisét. Ne feledjük, hogy a statisztika csak egy eszköz az adatok értékeléséhez, a tudományos eredmény a kapott adatok alapján helyesen levont következtetésekben rejlik. Az elméleti alapokat néhány gyakorlati példán keresztül lehet elmélyíteni, ezáltal a témát is közelebb hozhatjuk magunkhoz. Jó munkát és kitartást kívánunk a folytatáshoz! tools or ideas that they use in their work. Merely stating the name of a statistical test without reference assumes that it is common knowledge, which in many disciplines of the humanities is arguably not the case.” (Bisiada 2017: 242) 33 A hatásnagyság valamely populációra vagy annak egy mintájára vonatkozó két változó kapcsolatának erősségét jellemző mutató. 34 Lásd: http://ucrel.lancs.ac.uk/llwizard.html Statisztikai próbák a fordítástudományi kutatásokban 75 Irodalom Ács P., Pintér J. 2011. Bevezetés a sportstatisztikába. Budapest: Dialóg Campus Kiadó. Bárdits A., Németh R., Terplán Gy. 2016. A nullhipotézis szignifikanciateszt téves gyakorlata. Statisztikai Szemle. 94. évf. 1. sz. 52–75. https://doi.org/10.20311/stat2016.01.hu0052 Bisiada, M. 2017. Universals of editing and translation. In: Hansen-Schirra, S., Czulo, O., Hofmann, S. (eds) Empirical modelling of translation and interpreting. Berlin: Language Science Press. 241–275. https://doi.org/10.5281/zenodo.1090972 Cohen, J. 1962. The statistical power of abnormal-social psychological research. Journal of Abnormal and Social Psychology Vol. 65. 145–153. https://doi.org/10.1037/h0045186 De Sutter, G., Goethals, P., Leuschner T., Vandepitte S. 2012. Towards methodologically more rigorous corpus-based translation studies. Across Languages and Cultures Vol. 3. No. 2. 137–143. https://doi.org/10.1556/Acr.13.2012.2.1 Eszenyi R. 2022. Kérdőívek és interjúk a fordítás és a tolmácsolás kutatásában. In: Klaudy K., Robin E., Seidl-Péch O. (szerk.) Bevezetés a fordítás és a tolmácsolás kutatásmódszertanába I. Általános rész. Budapest: ELTE FTT–MANYE Fordítástudományi Szakosztály. 77–91. https://doi.org/10.21862/kutmodszertan1/5 Falus I., Ollé J. 2008. Az empirikus kutatások gyakorlata. Budapest: Nemzeti Tankönyvkiadó. Hunyadi L, Vita, L. 2008. Statisztika I. Budapest: Aula Kiadó. Károly K. 2022. A nyelvi közvetítés empirikus kutatásának módszerei. In: Klaudy K., Robin E., Seidl-Péch O. (szerk.) Bevezetés a fordítás és a tolmácsolás kutatásmódszertanába I. Általános rész. Budapest: ELTE FTT–MANYE Fordítástudományi Szakosztály. 27–58. https://doi.org/10.21862/kutmodszertan1/3 Kilgarriff, A. 2005. Language is Never, Ever, Ever Random. Corpus Linguistics and Linguistic Theory Vol. 1. No. 2. 263–276. https://doi.org/10.1515/cllt.2005.1.2.263 Kovács P. 2006. Statisztikai alapismeretek. Szeged: SZTE. McEnery, T., Wilson, A. 1996. Corpus Linguistics. Edinburgh: Edinburgh University Press. Oakes, M. P. 1998. Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. https://doi.org/10.1076/jqul.6.3.269.6160 Robin E., Dankó Sz., Götz A., Nagy A. L., Pataky É., Szegh H., Török G., Zolczer P. 2016. Fordítástudomány és korpuszkutatás: bemutatkozik a Pannónia Korpusz. Fordítástudomány 18. évf. 2. szám. 5–26. Robin E. 2018. Fordítási univerzálék és lektorálás. Budapest: Eötvös József Kiadó. http:// www.eltereader.hu/kiadvanyok/robin-edina-forditasi-univerzalek-es-lektoralas Seidl-Péch O. 2020. Korpuszalapú fordítástudomány: lehetőségek és nehézségek. In: Robin E., Seidl-Péch O. (szerk.) 2020. Fókuszban a fordított és a tolmácsolt szöveg: korpuszalapú fordításkutatás Magyarországon. Segédkönyvek a nyelvi közvetítésről I. Budapest: ELTE BTK Fordítástudományi Doktori Program, MANYE Fordítástudományi Szakosztály. 76–91. https://doi.org/10.35924/fordtud.23.2.13 Stubbs, M. 1995. Collocations and semantic profiles: On the cause of the trouble with quantitative studies. Functions of Language Vol. 2. No.1. 23–55. https://doi.org/10.1075/ fol.2.1.03stu Tóthné Parázsó L. 2011. A kutatásmódszertan matematikai alapjai. Eger: Eszterházy Károly Főiskola. 76 Dankó Szilvia, Csizér Kata Vita L. 2010. A statisztikai próbák gondolatvilága. Statisztikai Szemle 89.évf. 10–11.sz. 1130– 1149. Ziliak, S., McCloskey, D. 2008. The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives. Ann Arbor: University of Michigan Press. https://doi. org/10.3998/mpub.186351 Terminusjegyzék alternatív hipotézis: statisztikai fogalom, tudományos vizsgálódásokban használt feltevés/állítás, amely különbözik a nullhipotézistől. A kutató saját feltevése, például a populáció vizsgált paraméterének értéke valamilyen irányban/módon eltér a nullhipotézistől, vagy a két vizsgált változó között van valamilyen összefüggés. hipotézisvizsgálat: statisztikai következtetési eljárás annak ellenőrzésére, hogy a vizsgált populációra vonatkozó feltételezés (hipotézis) az adott minta vagy összegyűjtött adatok alapján elfogadható vagy elvetendő-e. Megerősítő adatelemző eljárás. nullhipotézis: statisztikai fogalom, tudományos vizsgálódásokban használt feltevés/ állítás, mely szerint a populáció vizsgált paraméterének értéke (például arány, átlag, szórás stb.) egyenlő valamilyen feltételezett értékkel; vagy hogy a két vizsgált változó között nincs összefüggés. A hipotézisvizsgálat mindig a nullhipotézis helyességének ellenőrzésére irányul. p-érték: statisztikai fogalom, ez az érték annak a valószínűsége, hogy a megfigyelt tesztstatisztika önmagában véletlenül bekövetkezik, feltételezve, hogy a nullhipotézis igaz. Általában nulla és egy közötti szám. Jele: p. szignifikanciaszint: statisztikai fogalom, a hipotézisvizsgálatokban a kutató által megválasztott számszerűsített érték, amely a teszt általános megbízhatósági szintjéhez kötődik. A szignifikanciaszint a legegyszerűbb értelemben annak a küszöbértéknek a valószínűsége, hogy a nullhipotézist helytelenül elutasítják, ha valóban igaz. Jele: α. statisztikai próba/teszt: mennyiségi természetű elemzés, olyan eljárás, amelynek a segítségével eldönthetjük, hogy az adott hipotézis elfogadható-e vagy sem. tesztstatisztika: a statisztikai teszt mérőszáma.