王均松,錢(qián)家駿,郭亞玲. 翻譯過(guò)程研究中的眼動(dòng)實(shí)驗(yàn)效度:?jiǎn)栴}與對(duì)策[J]. 外國(guó)語(yǔ), 2022, 45(2): 93-101. Junsong WANG,Jiajun QIAN,Yaling GUO. The Validity of Eye-movement Experiments in Translation Process Research: Problems and Solutions[J]. Journal of Foreign Languages, 2022, 45(2): 93-101.
http://jfl.shisu.edu.cn/CN/abstract/abstract624.shtml1 引言
近年來(lái),可重復(fù)性(replicability)不僅成為心理學(xué)研究的熱議問(wèn)題(胡傳鵬等2016),也引起了翻譯學(xué)界的重視(Olalla-Soler 2020)。實(shí)驗(yàn)結(jié)果的可重復(fù)性在一定程度上受實(shí)驗(yàn)研究效度的影響(Porte & McManus 2019)。在實(shí)驗(yàn)心理學(xué)領(lǐng)域,效度是指實(shí)驗(yàn)方法能夠達(dá)到實(shí)驗(yàn)?zāi)康牡某潭,它反映?ldquo;實(shí)驗(yàn)結(jié)論的真實(shí)性程度和有效性程度,是衡量實(shí)驗(yàn)成敗優(yōu)劣的核心指標(biāo)”(李欣、石文典2009)。目前,已有學(xué)者開(kāi)始將眼動(dòng)追蹤技術(shù)運(yùn)用至翻譯過(guò)程研究中,并對(duì)翻譯眼動(dòng)實(shí)驗(yàn)研究中存在的方法論問(wèn)題進(jìn)行探討(Alves et al.2009; O’Brien 2009; 王一方2017),但鮮有學(xué)者針對(duì)翻譯眼動(dòng)實(shí)驗(yàn)的效度(validity)問(wèn)題進(jìn)行批判性反思。鑒于此,本文在文獻(xiàn)調(diào)研的基礎(chǔ)上,結(jié)合我們?cè)趯?shí)驗(yàn)過(guò)程中的發(fā)現(xiàn),圍繞翻譯眼動(dòng)實(shí)驗(yàn)效度的影響因素開(kāi)展研究,以期規(guī)范翻譯眼動(dòng)實(shí)驗(yàn)設(shè)計(jì),提升研究質(zhì)量。
2 實(shí)驗(yàn)效度
實(shí)驗(yàn)效度(validity of experiments)一詞最早由美國(guó)著名心理學(xué)家Campbell于1957年提出,他將實(shí)驗(yàn)效度分為“內(nèi)部效度”(internal validity)和“外部效度”(external validity)兩個(gè)方面。“內(nèi)部效度”指自變量與因變量之間關(guān)系的明確程度,或者說(shuō)實(shí)驗(yàn)中自變量的效應(yīng)能被準(zhǔn)確估計(jì)的程度;而“外部效度”指當(dāng)被試、場(chǎng)景、處理、結(jié)果測(cè)量發(fā)生變化時(shí)推斷因果關(guān)系成立的有效性,即實(shí)驗(yàn)結(jié)果能夠被概括推廣到樣本總體和其他同類(lèi)現(xiàn)象中的程度。Cook & Campbell(1979)對(duì)這一分類(lèi)進(jìn)行了拓展,他們從內(nèi)部效度中分離出“統(tǒng)計(jì)結(jié)論效度”(statistical conclusion validity),從外部效度中分離出“構(gòu)念效度”(construct validity),進(jìn)一步豐富和完善了這一分類(lèi)體系。
自實(shí)驗(yàn)效度的問(wèn)題提出以來(lái),學(xué)者們圍繞實(shí)驗(yàn)效度的影響因素開(kāi)展了一系列研究和探索(Cook & Campbell 1979; Shadish et al.2002)。其中,Shadish et al.(2002)的研究最為系統(tǒng)和全面,他們繼承和發(fā)展了Cook & Campbell(1979)的效度分類(lèi)體系,并提供了一份詳盡的效度威脅(threats to validity)清單。本文在借鑒前人研究的基礎(chǔ)上,針對(duì)翻譯眼動(dòng)實(shí)驗(yàn)的特殊性,構(gòu)建了翻譯眼動(dòng)實(shí)驗(yàn)效度的影響因素框架(見(jiàn)圖 1)。需要指出的是,影響實(shí)驗(yàn)效度的因素紛繁復(fù)雜,限于篇幅,本文只列出了與翻譯眼動(dòng)實(shí)驗(yàn)密切相關(guān)的影響因素。下文將對(duì)這些因素進(jìn)行逐一介紹和分析,并提出針對(duì)性的控制措施與建議。
圖1 翻譯眼動(dòng)實(shí)驗(yàn)效度影響因素
3 翻譯眼動(dòng)實(shí)驗(yàn)效度的影響因素
3.1 內(nèi)部效度影響因素
在實(shí)驗(yàn)研究中,除了研究者設(shè)置的自變量,眾多無(wú)關(guān)變量也會(huì)對(duì)因變量產(chǎn)生影響。對(duì)這些無(wú)關(guān)變量的控制就成為決定實(shí)驗(yàn)內(nèi)部效度的關(guān)鍵?傮w而言,影響翻譯眼動(dòng)實(shí)驗(yàn)內(nèi)部效度的無(wú)關(guān)變量主要來(lái)自以下三方面:
(1) 被試選擇偏差
在翻譯眼動(dòng)實(shí)驗(yàn)中,被試的選擇是影響實(shí)驗(yàn)內(nèi)部效度的一個(gè)重要因素。除了語(yǔ)言水平和翻譯能力,被試的一些固有的和習(xí)得的差異都可能會(huì)對(duì)研究結(jié)果產(chǎn)生一定的影響。一方面,由于眼動(dòng)實(shí)驗(yàn)的特殊性,被試的某些生理特征對(duì)于實(shí)驗(yàn)結(jié)果會(huì)產(chǎn)生較大的影響。比如,被試睫毛膏(mascara)、眼瞼下垂(droopy eyelids)都會(huì)影響眼動(dòng)數(shù)據(jù)的收集和數(shù)據(jù)質(zhì)量(Holmqvist et al.2011: 177)。另一方面,被試的盲打能力也是影響實(shí)驗(yàn)內(nèi)部效度的潛在因素。理論上來(lái)講,翻譯過(guò)程研究選取的被試都應(yīng)具有良好的盲打能力,但實(shí)際上被試之間的盲打能力很難達(dá)到完全一致(Hvelplund 2011: 72)。如果被試盲打能力較差,他們?cè)诜g過(guò)程中就會(huì)時(shí)不時(shí)地將目光轉(zhuǎn)向鍵盤(pán),這不僅會(huì)降低翻譯速度,而且會(huì)影響眼動(dòng)數(shù)據(jù)采集,影響數(shù)據(jù)質(zhì)量。此外,工作記憶容量也是影響實(shí)驗(yàn)結(jié)果的一個(gè)重要因素(Vieira 2014)。在篩選被試的過(guò)程中,如果不對(duì)這些因素進(jìn)行控制,那么有可能會(huì)出現(xiàn)選擇性偏差,導(dǎo)致被試的個(gè)體因素與自變量效應(yīng)發(fā)生混淆,降低實(shí)驗(yàn)的內(nèi)部效度。
(2) 文本熟悉度與翻譯難度
在翻譯眼動(dòng)實(shí)驗(yàn)中,實(shí)驗(yàn)材料的選擇是影響實(shí)驗(yàn)內(nèi)部效度的一個(gè)潛在變量。在選取實(shí)驗(yàn)文本時(shí),研究者應(yīng)首先考慮被試對(duì)文本類(lèi)型和主題的熟悉度,盡量選擇被試都不熟悉的話(huà)題,從而減少因話(huà)題熟悉程度不同所造成的實(shí)驗(yàn)結(jié)果偏差。除了文本熟悉度,文本材料的翻譯難度也是影響實(shí)驗(yàn)結(jié)果的一個(gè)重要因素。在被試內(nèi)設(shè)計(jì)實(shí)驗(yàn)中,研究者往往通過(guò)操縱各種自變量(如時(shí)間限制、翻譯模式、翻譯方向等)來(lái)比較被試在完成翻譯任務(wù)時(shí)的表現(xiàn)。此類(lèi)實(shí)驗(yàn)的前提條件是所有任務(wù)的材料難度基本保持一致,除非文本的翻譯難度本身就是實(shí)驗(yàn)的自變量。如果實(shí)驗(yàn)文本的翻譯難度不具有可比性,那么就很難確定眼動(dòng)指標(biāo)的變化是由實(shí)驗(yàn)設(shè)計(jì)的自變量還是由實(shí)驗(yàn)材料的不同難度所引發(fā)。目前,測(cè)量翻譯難度的客觀(guān)指標(biāo)主要是基于源語(yǔ)文本的可讀性指標(biāo),但這一指標(biāo)與翻譯難度之間的相關(guān)系數(shù)較低(Sun & Shreve 2014: 112)。因此,確定源語(yǔ)文本的熟悉度與翻譯難度也是研究者必須面臨的挑戰(zhàn)之一。
(3) 順序效應(yīng)與疲勞效應(yīng)
在重復(fù)測(cè)量的實(shí)驗(yàn)中,任務(wù)的先后順序?qū)?shí)驗(yàn)結(jié)果的影響尤其值得重視。如果研究者沒(méi)有對(duì)任務(wù)順序進(jìn)行事先設(shè)計(jì),所有的被試都采取同樣的任務(wù)順序,那么就可能產(chǎn)生順序效應(yīng)和疲勞效應(yīng)。一方面,首先完成的翻譯任務(wù)不可避免地會(huì)對(duì)后續(xù)開(kāi)展的任務(wù)產(chǎn)生影響,使得后續(xù)任務(wù)的加工和處理相對(duì)容易。多項(xiàng)研究結(jié)果表明,實(shí)驗(yàn)任務(wù)的順序會(huì)對(duì)翻譯任務(wù)的持續(xù)時(shí)間產(chǎn)生系統(tǒng)性影響,大多數(shù)參與者在執(zhí)行第一項(xiàng)翻譯任務(wù)時(shí)會(huì)花費(fèi)更多的時(shí)間(Alves et al.2009;馮佳2018)。另一方面,由于翻譯是一項(xiàng)高強(qiáng)度的腦力活動(dòng),再加上眼動(dòng)實(shí)驗(yàn)過(guò)程中活動(dòng)受限,因此如果眼動(dòng)實(shí)驗(yàn)的任務(wù)量大、持續(xù)時(shí)間較長(zhǎng),被試很容易出現(xiàn)疲勞效應(yīng),從而影響他們?cè)谕瓿珊罄m(xù)翻譯任務(wù)時(shí)的表現(xiàn)。
3.2 統(tǒng)計(jì)結(jié)論效度影響因素
統(tǒng)計(jì)結(jié)論效度與內(nèi)部效度密切相關(guān),它主要關(guān)注因統(tǒng)計(jì)方法適切性引起的結(jié)論有效性程度。在數(shù)據(jù)統(tǒng)計(jì)和分析過(guò)程中,測(cè)量誤差、異常值處理、違反統(tǒng)計(jì)條件等都會(huì)對(duì)實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)論效度造成較大的影響。
(1) 測(cè)量誤差
在評(píng)估眼動(dòng)實(shí)驗(yàn)的測(cè)量誤差時(shí),兩個(gè)重要參數(shù)是空間準(zhǔn)確度(spatial accuracy)和采樣率(sampling rate)。空間準(zhǔn)確度是指視線(xiàn)的實(shí)際落點(diǎn)與眼動(dòng)儀采集到的位置之間的平均誤差。在翻譯眼動(dòng)實(shí)驗(yàn)中,實(shí)驗(yàn)材料通常是文本而非單句,而為了提高生態(tài)效度,研究者往往會(huì)選擇遙測(cè)式眼動(dòng)儀。由于被試可以自由移動(dòng)身體和頭部,因此很容易產(chǎn)生測(cè)量誤差,即注視點(diǎn)很有可能偏離既定的興趣區(qū),落到相鄰的詞、句上,導(dǎo)致系統(tǒng)誤差(systematic errors)。雖然Translog-II采用了注視點(diǎn)和注視詞匹配的算法(Gaze-to-Word Mapping, GWM)來(lái)減少系統(tǒng)誤差,但翻譯眼動(dòng)實(shí)驗(yàn)中的系統(tǒng)誤差仍然普遍存在(Carl 2013)。如圖 2所示,被試注視原文第一行的注視點(diǎn)被錯(cuò)誤地匹配到了原文第二行,如果研究者想考察原文第一行某一個(gè)興趣區(qū)的譯文質(zhì)量和該興趣區(qū)對(duì)應(yīng)的認(rèn)知努力之間的關(guān)系,那眼動(dòng)數(shù)據(jù)的系統(tǒng)誤差勢(shì)必會(huì)影響這兩個(gè)變量之間的關(guān)系。而采樣率是指眼動(dòng)傳感器每秒采集眼球圖像的次數(shù)。一般而言,眼動(dòng)儀的采樣率越高,采集的眼動(dòng)數(shù)據(jù)越豐富,數(shù)據(jù)的精度也會(huì)越高;而眼動(dòng)儀的采樣率越低,越容易忽略?xún)蓚(gè)采樣點(diǎn)之間的眼動(dòng)細(xì)節(jié)特征,尤其是微眼跳或其他微小的注視細(xì)節(jié)。雖然在翻譯眼動(dòng)實(shí)驗(yàn)中,眼動(dòng)儀的采樣率沒(méi)有統(tǒng)一要求,但有一點(diǎn)可以肯定,即采樣率如果低于150Hz則會(huì)影響統(tǒng)計(jì)的效應(yīng)量(effect size)(Holmqvist et al.2011: 30)。
圖2 Translog-II中眼動(dòng)數(shù)據(jù)的系統(tǒng)誤差(Carl 2013)
(2) 異常值處理
根據(jù)Baayen(2008: 27)的定義,異常值(outliers)是指所有數(shù)據(jù)中異常偏大或偏小的數(shù)據(jù)點(diǎn)(data points)。目前在翻譯過(guò)程研究中,還沒(méi)有統(tǒng)一的眼動(dòng)數(shù)據(jù)異常值處理標(biāo)準(zhǔn),剔除異常值很大程度上取決于研究者的個(gè)人經(jīng)驗(yàn)。在翻譯眼動(dòng)實(shí)驗(yàn)過(guò)程中,可能會(huì)出現(xiàn)由于被試沒(méi)有看眼動(dòng)儀屏幕或身體移動(dòng)范圍過(guò)大導(dǎo)致無(wú)效數(shù)據(jù)比例較高,或觀(guān)測(cè)值異常偏小。不同研究者對(duì)于屏幕注視時(shí)間(Gaze Time on the Screen, GTS)所設(shè)定的最低閾值(threshold)有較大的差異,有的研究者將最低標(biāo)準(zhǔn)定為70%(O’Brien 2009: 257),有的研究者將最低標(biāo)準(zhǔn)定為40%(盧植、孫娟2018),還有一些研究者則剔除落在樣本均值左側(cè)1個(gè)標(biāo)準(zhǔn)差以外的數(shù)據(jù)(Hvelplund 2011: 104)。在剔除過(guò)短注視點(diǎn)的標(biāo)準(zhǔn)上,研究者們的做法也不盡相同,一些研究將最短注視時(shí)長(zhǎng)(minimum fixation duration)的標(biāo)準(zhǔn)定為100毫秒(如歐盟EYE-to-IT項(xiàng)目;Hvelplund 2011: 110),而使用Translog-II收集到的眼動(dòng)數(shù)據(jù),進(jìn)行在線(xiàn)或離線(xiàn)注視點(diǎn)與詞匹配的過(guò)程中,則自動(dòng)剔除70毫秒以下的注視點(diǎn)(轉(zhuǎn)引自馮佳2018: 105)。在剔除異常偏大數(shù)據(jù)點(diǎn)方面,有的研究者采用模型診斷(model criticism)的方法(Baayen 2008: 188),剔除標(biāo)準(zhǔn)化殘差的絕對(duì)值超過(guò)2.5倍標(biāo)準(zhǔn)差的數(shù)據(jù)點(diǎn)(Vieira 2014);而有的研究者則基于箱線(xiàn)圖(box plot)在擬合模型前便剔除異常偏大的數(shù)據(jù)點(diǎn)(Sun et al.2020: 141-142)。異常值處理方法的不同不僅會(huì)影響實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果,而且會(huì)造成研究結(jié)果間可比性不強(qiáng)。
(3) 違反統(tǒng)計(jì)條件
除了測(cè)量誤差和異常值處理方式,統(tǒng)計(jì)方法的選擇也會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大的影響。在認(rèn)知心理學(xué)實(shí)驗(yàn)中,析因設(shè)計(jì)(factorial design)和方差分析(ANOVAs)是最常用的統(tǒng)計(jì)分析方法和手段。但是,上述方法的前提條件是實(shí)驗(yàn)中的無(wú)關(guān)變量可以得到嚴(yán)格的控制,因而較適用于嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)。而翻譯過(guò)程研究往往采取準(zhǔn)實(shí)驗(yàn)設(shè)計(jì),為了盡可能提高生態(tài)效度,眼動(dòng)實(shí)驗(yàn)往往在較為自然的情境下開(kāi)展,這使得研究者很難對(duì)實(shí)驗(yàn)中相關(guān)變量進(jìn)行嚴(yán)格的控制。如果不考慮無(wú)關(guān)變量的干擾,直接采取析因設(shè)計(jì)和方差分析,那么就很難排除實(shí)驗(yàn)結(jié)果的顯著差異是由無(wú)關(guān)變量(如被試的個(gè)體差異、實(shí)驗(yàn)材料的翻譯難度等)引起的可能性。另外,翻譯眼動(dòng)實(shí)驗(yàn)通常會(huì)面臨數(shù)據(jù)丟失的情況(如被試看鍵盤(pán),導(dǎo)致注視屏幕時(shí)間偏低),出現(xiàn)許多缺失數(shù)據(jù)(missing data)。對(duì)于不平衡的實(shí)驗(yàn)數(shù)據(jù),如果只使用方差分析,那么可能會(huì)影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性(Baayen 2008: 265)。
3.3 外部效度影響因素
外部效度主要反映實(shí)驗(yàn)結(jié)果的代表性和適用性,翻譯眼動(dòng)實(shí)驗(yàn)外部效度的影響因素包括以下三方面:
(1) 被試數(shù)量有限①
被試數(shù)量太少是目前眼動(dòng)研究存在的普遍性問(wèn)題。一般而言,在量化研究中,被試人數(shù)越多,樣本量越大,研究結(jié)論就越具有代表性和適用性。但是,在翻譯過(guò)程研究中,眼動(dòng)實(shí)驗(yàn)的被試人數(shù)普遍較少。其主要原因在于,在實(shí)驗(yàn)材料或興趣區(qū)數(shù)量本身就相對(duì)較大的情況下,每增加一名被試都會(huì)產(chǎn)生大量眼動(dòng)數(shù)據(jù),而且與眼動(dòng)追蹤結(jié)合使用的其他記錄方法(如鍵盤(pán)記錄)也會(huì)產(chǎn)生大量行為數(shù)據(jù)。繁重的數(shù)據(jù)處理和分析任務(wù)使得研究者不得不盡可能減少參與實(shí)驗(yàn)的被試人數(shù)。然而,用較少的被試數(shù)量完成大量實(shí)驗(yàn)材料得出的結(jié)論并不等同于使用大量被試完成少量實(shí)驗(yàn)材料得出的結(jié)論,因?yàn)榍罢叩慕Y(jié)論傾向于推廣至實(shí)驗(yàn)材料總體,而后者的結(jié)論更傾向于推廣至被試的總體(Balling & Hvelplund 2015: 173)。近年來(lái),翻譯眼動(dòng)實(shí)驗(yàn)的被試對(duì)象數(shù)量有所增多(如馮佳2018),但是總體仍然偏少, 如Vieira(2017)的研究?jī)H有19名被試參與了眼動(dòng)實(shí)驗(yàn),這在一定程度上影響了實(shí)驗(yàn)結(jié)論的外部效度。
(2) 實(shí)驗(yàn)情境人為性
由于種種條件的限制,翻譯眼動(dòng)實(shí)驗(yàn)中的實(shí)驗(yàn)材料和任務(wù)要求往往與真實(shí)情境下的翻譯活動(dòng)并不一致。一方面,在翻譯眼動(dòng)實(shí)驗(yàn)中,由于種種限制,源語(yǔ)文本材料的篇幅都過(guò)短(英語(yǔ)源文本通常少于200詞)。然而,翻譯篇幅如此短小的文本在翻譯活動(dòng)中并不常見(jiàn)。尤其在職業(yè)翻譯領(lǐng)域,職業(yè)譯者往往以項(xiàng)目形式開(kāi)展翻譯活動(dòng),翻譯文本的篇幅往往在數(shù)萬(wàn)甚至幾十萬(wàn)字/詞以上,需要花費(fèi)幾天甚至是數(shù)周的時(shí)間才能夠完成。因此,這種基于簡(jiǎn)短或節(jié)略文本得出的實(shí)驗(yàn)結(jié)論很難推廣到實(shí)驗(yàn)以外的大多數(shù)情境(O’Brien 2009: 261-262)。另一方面,為避免外部資源使用對(duì)眼動(dòng)數(shù)據(jù)收集和分析的干擾,眼動(dòng)實(shí)驗(yàn)一般不允許被試使用詞典、語(yǔ)料庫(kù)、網(wǎng)絡(luò)搜索引擎等外部資源。然而,除非在進(jìn)行測(cè)試的情況下,很少有譯者會(huì)在沒(méi)有任何外部資源輔助的條件下開(kāi)展翻譯。Hvelplund(2017)的研究發(fā)現(xiàn)在線(xiàn)資源查詢(xún)行為在整個(gè)翻譯過(guò)程中的占比高達(dá)25%?梢(jiàn),盡管從簡(jiǎn)化眼動(dòng)數(shù)據(jù)收集和分析的角度來(lái)看,“不使用外部資源”的要求具有一定的合理性,但從這種“純凈”數(shù)據(jù)記錄中得出的發(fā)現(xiàn)和結(jié)論的代表性和適用性有待商榷。
(3) 實(shí)驗(yàn)處理的變異
在實(shí)驗(yàn)研究中,研究者們可能會(huì)采取相同的實(shí)驗(yàn)處理,但是同一種實(shí)驗(yàn)處理可能會(huì)存在不同的水平或條件上的變異(treatment variation),這種變異不僅會(huì)影響實(shí)驗(yàn)結(jié)果,而且會(huì)影響實(shí)驗(yàn)結(jié)論的推廣性。同樣的情形也存在翻譯眼動(dòng)實(shí)驗(yàn)研究中。比如,在考察機(jī)器翻譯譯后編輯認(rèn)知努力的研究中,有的研究者要求被試進(jìn)行完全譯后編輯(full post-editing),盡可能多地使用機(jī)器翻譯的初始譯文,避免偏好性修改(preferential changes)(如Carl et al.2015);而有的研究者雖然也要求被試做完全譯后編輯,但并沒(méi)有告知被試要避免偏好性修改(如Vardaro et al.2019)。雖然都是進(jìn)行完全譯后編輯,但是由于具體要求有所不同,因而調(diào)查得出的眼動(dòng)數(shù)據(jù)也存在一定的差異。因此,研究者必須根據(jù)特定的實(shí)驗(yàn)條件做出有限推論,否則就可能出現(xiàn)過(guò)度概括實(shí)驗(yàn)結(jié)論的現(xiàn)象。
3.4 構(gòu)念效度影響因素
構(gòu)念效度主要涉及操作性定義和構(gòu)念之間的匹配程度,翻譯眼動(dòng)實(shí)驗(yàn)構(gòu)念效度的影響因素主要體現(xiàn)在以下兩方面:
(1) 被試界定過(guò)寬或過(guò)窄
在翻譯眼動(dòng)實(shí)驗(yàn)中,研究者經(jīng)常會(huì)招募不同經(jīng)驗(yàn)水平的被試(如翻譯新手、職業(yè)譯者、半職業(yè)譯者)進(jìn)行對(duì)比研究。但是,目前學(xué)界對(duì)譯者的身份界定缺乏統(tǒng)一標(biāo)準(zhǔn),加之譯者這一概念本身也具有模糊性,這使得研究者們只能根據(jù)各自的標(biāo)準(zhǔn)進(jìn)行界定,可能出現(xiàn)被試代表性過(guò)寬或過(guò)窄的現(xiàn)象。比如,職業(yè)譯者可能是一個(gè)具有十年全職翻譯經(jīng)驗(yàn)的自由譯者,也可能是一個(gè)剛到翻譯公司工作不滿(mǎn)一年的畢業(yè)生,雖然二者都可以被稱(chēng)為職業(yè)譯者,但是他們無(wú)論是在能力還是經(jīng)驗(yàn)方面都相差甚遠(yuǎn)(O’Brien 2009: 254)。再如,在界定半職業(yè)譯者時(shí),有的研究者提供的操作性定義為“接受過(guò)職業(yè)化的翻譯訓(xùn)練,且臨近畢業(yè)的碩士生”(Krings 2001: 2);而有的研究者界定較為寬泛,即“必須有3年以上的業(yè)余翻譯經(jīng)驗(yàn),但不具備全職翻譯經(jīng)驗(yàn)”,因此一些畢業(yè)之后從事兼職翻譯的被試也歸為半職業(yè)譯者(鄭冰寒2012: 135)。一般而言,如果被試的操作性定義過(guò)窄,解釋的范圍就越小,普遍性也就越。欢绻僮餍远x過(guò)寬,失之籠統(tǒng),則研究結(jié)果易流于偏狹。
(2) 測(cè)量指標(biāo)的有效性
在翻譯過(guò)程研究中,測(cè)量認(rèn)知努力的常見(jiàn)指標(biāo)包括注視時(shí)長(zhǎng)、注視次數(shù)和瞳擴(kuò)值等(劉艷梅等2013)。然而,大多數(shù)眼動(dòng)指標(biāo)只能反映認(rèn)知活動(dòng)的某個(gè)側(cè)面,而且指標(biāo)變化受一系列因素的影響,僅憑某一類(lèi)指標(biāo)對(duì)譯者的認(rèn)知努力大小進(jìn)行推論具有一定的風(fēng)險(xiǎn)性。比如,Hvelplund(2011: 221-224)曾嘗試驗(yàn)證譯者分配在平行加工過(guò)程中的認(rèn)知資源是所有加工類(lèi)型中最少的這一假設(shè),雖然注意單位時(shí)長(zhǎng)(AU duration)這一指標(biāo)結(jié)果與假設(shè)一致,但總注意時(shí)長(zhǎng)(TA duration)并不完全支持上述假設(shè)。又如,在英譯漢過(guò)程中譯者的認(rèn)知資源分配模式研究中,王一方、鄭冰寒(2020)發(fā)現(xiàn),就目的語(yǔ)處理的認(rèn)知注意力所占比例方面,眼-鍵指標(biāo)與被試的主觀(guān)反省數(shù)據(jù)的發(fā)現(xiàn)相反。其中一個(gè)可能的原因是在英譯漢過(guò)程中,被試在中文輸入框中選詞的眼動(dòng)數(shù)據(jù)也被認(rèn)為是目的語(yǔ)處理過(guò)程中的認(rèn)知加工。因此,僅僅根據(jù)單一種類(lèi)眼動(dòng)指標(biāo)或僅用眼動(dòng)指標(biāo)推測(cè)譯者的認(rèn)知努力有可能會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)論不可靠。
4 翻譯眼動(dòng)實(shí)驗(yàn)效度的控制
提高實(shí)驗(yàn)效度的目的是確保研究結(jié)論的準(zhǔn)確性和有效性,因而在實(shí)驗(yàn)設(shè)計(jì)和實(shí)施時(shí)要盡可能控制威脅實(shí)驗(yàn)效度的各種因素。本文在前人研究的基礎(chǔ)上,結(jié)合我們所做的系列翻譯眼動(dòng)實(shí)驗(yàn),建議從以下幾方面采取措施:
(1) 規(guī)范實(shí)驗(yàn)設(shè)計(jì),嚴(yán)格控制無(wú)關(guān)變量,提高實(shí)驗(yàn)內(nèi)部效度。
要提高眼動(dòng)實(shí)驗(yàn)內(nèi)部效度,關(guān)鍵的問(wèn)題在于控制無(wú)關(guān)變量,盡量排除某些伴隨著自變量變化的無(wú)關(guān)變量的混淆。在翻譯眼動(dòng)實(shí)驗(yàn)設(shè)計(jì)時(shí),研究者可以預(yù)先將可能影響實(shí)驗(yàn)結(jié)果的變量排除于實(shí)驗(yàn)條件之外,盡量避免或控制這些潛在的威脅。首先,嚴(yán)格篩選實(shí)驗(yàn)對(duì)象,確保被試眼部生理結(jié)構(gòu)和矯正視力正常,不會(huì)影響數(shù)據(jù)的收集。同時(shí),根據(jù)實(shí)驗(yàn)設(shè)計(jì),盡可能使被試在除自變量以外的其他變量保持相等或接近。比如,通過(guò)問(wèn)卷或測(cè)試調(diào)查被試的專(zhuān)業(yè)背景、翻譯經(jīng)驗(yàn)、語(yǔ)言水平、盲打能力、工作記憶容量等,并根據(jù)調(diào)查結(jié)果對(duì)被試進(jìn)行篩選和分組。其次,在選取實(shí)驗(yàn)材料時(shí),為了防止由于翻譯難度不同而造成與自變量效應(yīng)發(fā)生混淆,研究者要考察被試對(duì)源語(yǔ)文本類(lèi)型和主題的熟悉度,確保不同任務(wù)材料在難度上具有可比性。在操縱翻譯難度這一變量時(shí),既可以采取客觀(guān)指標(biāo)(如可讀性公式、詞頻、非字面意義表達(dá)的數(shù)量),也可以邀請(qǐng)專(zhuān)家對(duì)翻譯難度進(jìn)行主觀(guān)評(píng)分。再次,在重復(fù)測(cè)量的實(shí)驗(yàn)設(shè)計(jì)中,研究者可采取抵消平衡法(counter-balancing methods),如拉丁方設(shè)計(jì)(Latin square design),以減少潛在的順序效應(yīng)和疲勞效應(yīng)。
(2) 擴(kuò)大被試數(shù)量,減少實(shí)驗(yàn)人為因素,提升研究結(jié)論的推廣性。
目前,翻譯眼動(dòng)實(shí)驗(yàn)的被試數(shù)量普遍較少,在一定程度上限制了實(shí)驗(yàn)結(jié)論的推廣性。為了克服這一弊端,研究者可通過(guò)計(jì)算統(tǒng)計(jì)效力來(lái)確定實(shí)驗(yàn)的樣本量(胡傳鵬等2016),也可以利用現(xiàn)有翻譯眼動(dòng)實(shí)驗(yàn)數(shù)據(jù)庫(kù)進(jìn)行研究。在這方面,Michael Carl與Arnt Lykke Jakobsen的做法值得借鑒,該團(tuán)隊(duì)開(kāi)發(fā)的“翻譯過(guò)程研究數(shù)據(jù)庫(kù)”(簡(jiǎn)稱(chēng)CRITT TPR-DB)收集了大量的翻譯過(guò)程行為數(shù)據(jù),并采用了統(tǒng)一標(biāo)準(zhǔn)進(jìn)行加工和標(biāo)注,這使得研究者不僅可以對(duì)同一實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行不同層次和維度的分析,還可在不同語(yǔ)言對(duì)間進(jìn)行對(duì)比研究。但需要注意的是,被試數(shù)量不是越多越好,因?yàn)闃颖玖窟^(guò)大會(huì)使一些細(xì)小的效應(yīng)也變得顯著,導(dǎo)致出現(xiàn)一類(lèi)錯(cuò)誤(Type I error)(Holmqvist et al.2011: 86)。另外,為了提高實(shí)驗(yàn)的外部效度,后續(xù)研究在開(kāi)展翻譯眼動(dòng)實(shí)驗(yàn)時(shí)應(yīng)盡量減少人為因素,使實(shí)驗(yàn)情景接近于自然。首先,選取實(shí)驗(yàn)材料時(shí)要遵循“真實(shí)性”和“完整性”的原則,盡量避免刪減或修改。其次,為了保證翻譯過(guò)程在真實(shí)、自然的情境下進(jìn)行,主試應(yīng)允許被試使用各種在線(xiàn)資源。在這方面,研究者可以參照Cui & Zheng(2021)的做法將屏幕分為兩個(gè)區(qū)域,其中左側(cè)區(qū)域供原文呈現(xiàn)和譯文輸入,右側(cè)區(qū)域設(shè)置為瀏覽器界面供譯者查詢(xún)檢索。最后,盡量選用對(duì)翻譯活動(dòng)干擾較小的遙測(cè)式眼動(dòng)儀進(jìn)行數(shù)據(jù)采集,同時(shí)在實(shí)驗(yàn)過(guò)程中,主試要與被試保持一定的距離,盡量減少提醒的次數(shù),避免出現(xiàn)“霍桑效應(yīng)”(Hawthorne effect)。
(3) 提高眼動(dòng)數(shù)據(jù)質(zhì)量,合理利用統(tǒng)計(jì)分析手段,確保統(tǒng)計(jì)效度。
眼動(dòng)實(shí)驗(yàn)結(jié)束后,研究者可以通過(guò)數(shù)據(jù)篩選和統(tǒng)計(jì)建模等手段來(lái)排除無(wú)關(guān)變量的干擾,提高統(tǒng)計(jì)效度。一方面,在收集眼動(dòng)數(shù)據(jù)之后,研究者首先需要對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行篩選,以避免數(shù)據(jù)質(zhì)量不佳而影響實(shí)驗(yàn)結(jié)果。翻譯過(guò)程研究通常會(huì)采用平均注視時(shí)長(zhǎng)(Mean Fixation Duration, MFD)、屏幕注視時(shí)間(Gaze Time on the Screen, GTS)和凝視/注視比(Gaze Sample to Fixation Percentage, GFP)等指標(biāo)來(lái)衡量眼動(dòng)數(shù)據(jù)的質(zhì)量,但這些指標(biāo)僅僅能滿(mǎn)足興趣區(qū)為原文區(qū)或譯文區(qū)的情況。如果興趣區(qū)在句子或句子以下層面,那么就有必要對(duì)注視點(diǎn)偏移現(xiàn)象進(jìn)行核查和修正,并根據(jù)回放的掃視路徑(scanpath)剔除精確度較差的眼動(dòng)數(shù)據(jù)(Holmqvist et al.2011: 34)。另一方面,實(shí)驗(yàn)結(jié)束后,研究者還可以運(yùn)用統(tǒng)計(jì)分析手段對(duì)影響實(shí)驗(yàn)結(jié)果的無(wú)關(guān)變量進(jìn)行控制。近年來(lái),越來(lái)越多的研究者開(kāi)始在翻譯眼動(dòng)實(shí)驗(yàn)研究中采用混合效應(yīng)模型進(jìn)行統(tǒng)計(jì)分析(Balling & Hvelplund 2015)。相比于方差分析,混合效應(yīng)模型更適合于準(zhǔn)實(shí)驗(yàn)研究,其優(yōu)勢(shì)在于既可以考察自變量引起的固定效應(yīng)(fixed effects),也可以考察被試和實(shí)驗(yàn)材料的隨機(jī)效應(yīng)(random effects)。通過(guò)建立混合效應(yīng)模型,研究者也可以將那些預(yù)計(jì)可能對(duì)實(shí)驗(yàn)結(jié)果有影響而又難以嚴(yán)格控制的因素作為協(xié)變量(如任務(wù)順序)納入到統(tǒng)計(jì)模型中(吳詩(shī)玉2020)。
(4) 準(zhǔn)確界定實(shí)驗(yàn)變量,靈活選擇測(cè)量指標(biāo),確保實(shí)驗(yàn)操作與理論構(gòu)念的一致性。
在翻譯眼動(dòng)實(shí)驗(yàn)研究中,被試的代表性和測(cè)量指標(biāo)的有效性是影響構(gòu)念效度的關(guān)鍵因素。一方面,鑒于目前學(xué)界對(duì)于譯者身份缺乏統(tǒng)一的界定標(biāo)準(zhǔn),研究者需要在研究設(shè)計(jì)中對(duì)被試做出準(zhǔn)確、具體的操作性定義。如果采用“職業(yè)譯者”“半職業(yè)譯者”“翻譯新手”等術(shù)語(yǔ)或標(biāo)簽,界定時(shí)需要參考前期研究中的標(biāo)準(zhǔn),并提供具體的量化指標(biāo)或條件,如翻譯年限、周/日翻譯量、翻譯質(zhì)量反饋、全職還是兼職等。然而,關(guān)于職業(yè)化(professionalism),目前學(xué)界仍缺乏一套科學(xué)的量化指標(biāo)(Nitzke 2019: 268)。另一方面,在測(cè)量指標(biāo)的選擇上,研究者需首先明確不同眼動(dòng)指標(biāo)反映認(rèn)知努力的有效性和局限性,避免使用單一眼動(dòng)指標(biāo)(尤其是不穩(wěn)定的瞳擴(kuò)值)進(jìn)行推論。為了得到比較可靠的研究結(jié)果,研究者可以考察多項(xiàng)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行多元互證,同時(shí)還可以結(jié)合被試譯后即時(shí)回溯報(bào)告來(lái)進(jìn)行檢驗(yàn),從而確保眼動(dòng)數(shù)據(jù)可以恰當(dāng)?shù)胤从逞芯繕?gòu)念。
5 結(jié)語(yǔ)
近年來(lái),隨著翻譯眼動(dòng)實(shí)驗(yàn)研究的迅速發(fā)展,實(shí)驗(yàn)效度的重要性也日益凸顯。本文重點(diǎn)探討了影響翻譯眼動(dòng)實(shí)驗(yàn)效度的各種潛在因素,并嘗試提出了一些應(yīng)對(duì)措施和建議。但是,這還只是一個(gè)初步的策略系統(tǒng),有待進(jìn)一步豐富和完善。例如,若主試允許被試使用外部資源,那被試分配在原文區(qū)和譯文區(qū)的注意資源總量與不允許被試使用外部資源的情況是否有顯著差異?實(shí)驗(yàn)效度的影響因素十分復(fù)雜,一些因素在前文中雖未提及,但也有可能對(duì)實(shí)驗(yàn)效度造成潛在的威脅。例如,從認(rèn)知工效學(xué)角度來(lái)看,原文區(qū)和譯文區(qū)的不同布局模式(即以上下布局和左右平行布局)是否會(huì)對(duì)眼動(dòng)數(shù)據(jù)產(chǎn)生影響?另外,在選取因變量進(jìn)行統(tǒng)計(jì)建模時(shí),原文區(qū)或譯文區(qū)注視時(shí)長(zhǎng)和注視次數(shù)的相對(duì)值(即占總興趣區(qū)的比例)與絕對(duì)值之間對(duì)實(shí)驗(yàn)結(jié)論的影響有何差異,還有待進(jìn)一步探索(馮佳2018)。這些問(wèn)題與實(shí)驗(yàn)效度密切相關(guān),建議后續(xù)研究針對(duì)上述問(wèn)題開(kāi)展實(shí)證研究,從而推動(dòng)翻譯眼動(dòng)實(shí)驗(yàn)的不斷成熟和發(fā)展。
① “被試數(shù)量有限”也可以歸為統(tǒng)計(jì)結(jié)論效度影響因素,而此處主要關(guān)心的是翻譯眼動(dòng)實(shí)驗(yàn)的結(jié)果是否可推廣至被試總體。
6 參考文獻(xiàn)
略。