网络环境下任务型语言测试效度的实证研究

发布时间：2023-07-15 18:12:02 | 来源：网友投稿

��zoޛ�)j馔�I-w�!�!��i��G�_w]4מ��m5�Mtӝ��N?��ӕ��ӟ��}��d�z��|��ӽ��ݴ�ʹ�O�_�m4�ky 报告、西方文化讲座及报告、各种实用实验表格编制、英语辩论、模拟英汉或汉英同声传译活动等等）。针对这些教学模式和学习方式的检查，我们采用了新型网络型任务测试的方法，以进一步完善大学英语教学的形成性评估模式。我们设计了一系列任务型测试试题，在网络环境下对学生进行测试，并在我校分级班A、B级中进行了为时两年的研究。我们对网络环境下的任务型测试是否能保持较高的语言测试效度以及能否在模拟的语言环境中检测学生的真实语言能力进行了检测分析，并对测试结果的评分效度的相关指标解释是否合理进行了理论分析。

2 研究设计

2.1研究对象

我们选取了本校本科生段大学英语B级班中的学生126名，为使样本具有广泛代表性，我们主要选取了经管、人文、土木、电气等专业的学生，文理科学生比例各占一半。对所有学生都进行了问卷调查，采取现场发放现场回收的方式。

2.2研究工具

研究工具为调查问卷、任务型测试试卷和访谈。

访谈采取小规模形式进行，我们随机挑选了10名学生，与3位参与制定任务型测试的教师分别进行访谈。

调查问卷主要调查师生对任务型测试的看法，以及测试试卷的表面效度问题。调查问卷设计主要借鉴了韩宝成（2005）一文中所涉及的信息理解型任务、互动反馈型任务调查、阐述发起型任务调查等项目。

测试采用自编的任务型测试试题以检查教学效果。五位具有丰富大学英语教学经验的教师依照任务型测试的要求编制试题，统一试卷的难度和题量，主要测试学生的听力理解和翻译能力（Task 1）——要求学生在教室做英汉或汉英口译，利用蓝鸽语音系统进行录音，考试结束后直接拷贝学生的录音进行评阅；学生的阅读能力（Task 2）——要求学生根据所阅读的文章，完成一定的阅读理解任务；任务型写作能力（Task3）——要求学生先阅读一篇300字的英语短文，用50个左右英语单词概括文章大意，并就短文话题发表150字左右的个人观点。

2.3数据的搜集与整理

由于调查问卷与试卷都是在体验学习中心进行的，采用当场发放当场回收的形式，回收率达到100%，调查问卷与试卷回收后，运用统计软件SPSS13.0进行数据分析，对基本数据描述、试题内部各题目间的相关系数做了详细的统计分析。目的是检查网络环境下的测试效度是否具有统计学意义，并将统计结果与CET4进行相关性分析。

3 结果与分析

3.1基于理论的效度检测

在分析基于理论的效度时，采用了定性的专家判断法（邀请专家座谈对任务型试题进行判断与分析），内省与反省（introspection/retrospection）法（通过访谈与调查问卷的方式进行分析），因此试题的编制综合考虑了测试的各个环节，例如阅读理解部分主要考查了学生的阅读理解能力，测试学生理解上下文的逻辑关系，根据文中的事实信息进行判断，理解作者的观点和意图等等。问卷调查结果显示，79%的受试者认为任务型测试跟传统的纸质的非任务型测试相比，更具实用性和真实性，更能测试学生的真实英语应用能力。而访谈结果表明，测试专家一致认为，网络环境下的任务性测试能够有效地检测学生的认知水平与英语的实际运用能力。总体上看来，87%的学生都认为任务型测试对教学与学习起到了积极作用，7l%的学生认为这种任务型测试可以有效拓展学生视野，有利于学生对实际语言运用能力的培养，反拨效果好。

3.2评分效度

在探讨任务型测试的评分效度时，我们重点分析了内部一致性以及平行试题信度问题。主要采用先测试，后用统计软件SPSS13.0分析处理测试结果的方式。表1是经过任务型测试后，对其考试结果进行的内部一致性的相关数据分析结果。

表1取值是将任务型测试的结果（Taskl，Task2，Task3）输入统计软件SPSS13.0后，通过相关系数运算得到的结果。至于一套试卷各大题之间的相关系数，学术界多取0.4为实质性或非实质性相关的临界值。表1的数据中，总分与其他各项之间的相关为0.417**，0.430**，0.681**，均在0.01的层次上大于0.4，各因子均达到40%以上的贡献率，因此可以推断试卷的评分效度符合要求。在随后进行的KMO与巴特利检验中，发现KMO值=0.774>0.5，说明因子分析的效度处于有效范围（详见表2）。

评分效度除了测试试题内部的一致性之外，我们还考虑了试卷的重测信度或者分半信度问题。仍然采用SPSS13.0做进一步的数据分析，得出网络环境下任务型测试的分半信度（见表3）。算法与同质性信度的计算方法相类似，根据表3中的数据，我们可以得知，Guttman的分半信度值为0.9407，Sperman-Brown的分半信度值为0.9629。在最后一行，SPSS13.0还给出了分半后的两个部分不同的Cranbach Alpha同质性信度，分别为Alpha=0.3918，Standardized item alpha=0.6372。说明本次测试试题的信度处于可接受范围，但没有达到0.7以上的高信度区域。

以上对任务型测试的相关系数分析以及分半信度分析结果表明，任务型测试在网络环境下同样具有较好的评分效度。

3.3效标关联效度

尽管上述方法在语言测试中被广泛应用于验证考试效度，但是一些专家认为该方法存在严重的局限性（Bachman，1990；李筱菊，1997等）。首先，作为标准的考试本身的效度证据是建立在与其他考试相关的基础上，即第一考试的效度靠第二考试去验证，第二考试效度由第三考试来说明，由此形成循环论证：“如果没有独立证据证明某标准考试测量了同性质的目标能力，那么就无法将与该标准考试的相关看做效度证据”（Bachman，1990：249）。收集效标关联效度的相关证据最常用的方法是检验考核同一目标能力的不同测量之间的相关性，通常是考察需要验证效度的测量与可作为参照标准的测量之间的相关性。这需要注意两个问题：“第一，作为外在标准的考试，必须是效度已经确立的考试；第二，作为外在标准的考试，和需要验证效度的考试，所考的必须是同一性质的目标能力”（李筱菊，1997：537）。

因此，在探讨任务型测试的效度时，有必要将任务型测试与CET4做比较。由于CET4的效度已经被学界所接受，将任务型测试与CET4相比较，可以进一步搜集其效标关联效度方面的相关证据。根据相关分析的原理和效标关联效度的定义，再次用相关分析来分析任务型测试成绩与CET4测试成绩的相关性以体现其效标关联效度（见表4）。

从表4中可以看出，本例中Cronbach阿尔法系数为0.797，表明效标关联效度达到较高标准，具有显著性统计学意义，说明TBLA（任务型测试）与CET4（全国大学英语四级考试）相关性较高，属于可靠范围，任务型测试表现出与CET4较高的一致性，这与前面的预设是一致的，当然，这种新题型测试效度值仍需多次实验以及更大规模的实验来验证。

本研究同时也考虑了采用后果效度来做进一步检测的问题，但是由于后果效度是Weir（2005）提出的最后一个层面的效度概念，很多学者对应不应该将后果效度列为效度的一种证据仍然存在争议，故最后放弃了这种方法。

4 结论

网络环境下任务型测试的研究，主要是依赖计算机处理结果的便利条件进行的，同时这种任务性测试可采用客观题型与主观题型相结合的办法，可以达到相对理想的考试信度。任务型测试最大的特点就是贴近生活，与传统的英语测试相比，真实性更强，不仅能考查学习者使用语言的能力，还可以考查学生其他方面的知识掌握情况，如专业知识、文化知识等，能够有效地将语言测试任务与实际语言运用结合起来。

本研究通过问卷与测试的方式，对126名非英语专业本科生和5位教师组成的测试小组进行调查与分析，从各方面收集证据来验证任务型测试的效度，结果表明，这种将真实的语言使用任务改造的语言测试，其语言测试效度与CET4无显著性差异；试题内部一致性以及平行试题信度也处于可信赖范围；就基于理论效度而言，任务型测试中所体现的认知策略与所指定分析标准相关的分数等级之间有显著关联，任务型测试中的听说读写各方面的分数与实际场景中的相关应用也具有很高的相关性。这说明基于理论的效度与分数方面所表现出来的结果具有内在相关性。

受条件限制，虽然这种类型的任务型测试可以保持较高的效度，具有实际的可行性，但仍存在一定的不足：如评分尺度难以把握、任务难度的设置很难处理主观题型多，改卷难度大等，这些问题有待于进一步研究。

推荐访问:语言实证研究环境测试网络

上一篇：税改背景下的《税法》课程教学模式评估方法的改进
下一篇：重症医学专业对住院医师规范化培训的教学方法分析

本文标题：网络环境下任务型语言测试效度的实证研究
链接地址：http://www.ylwt22.com/dangtuangongzuo/2023/0715/275124.html

版权声明：
1.十号范文网的资料来自互联网以及用户的投稿，用于非商业性学习目的免费阅览。
2.《网络环境下任务型语言测试效度的实证研究》一文的著作权归原作者所有，仅供学习参考，转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益，请联系我们，我们将会及时删除。

网络环境下任务型语言测试效度的实证研究

本栏目阅读排行

栏目最新