Technical
Data
测试有效性
项目开发
无论对英语国家的本地人士、还是对于那些精通英语的非本地人士而言,由PhonePassTM
SET测试系统给出的测试内容都是简单的、能随口回答出来的。该项目内容被设计为可覆盖广泛的技能等级和技能侧重面,所获得的回答可被用于自动化分析,从而产生出对流利程度、听力、词汇、发音及口头阅读等语言能力的准确评定。
为了确保会话的内容具有足够的代表性,测试的开发者着重注意了测试材料中的词汇与实际的英语会话相一致,为此在本系统的设计过程中采用了540位北美人士自然的实际对话。会话样本的采集兼顾了地理分布和性别比例的因素,涵盖了大量的话题,并代表了每一种主要的美国方言。测试项目中的每一个单词都在上述的实际对话中至少出现四次。为了保证测试材料也适用于经过英式英语训练的受测试者,这些项目由两位英国的语言学家进行了评估,保证其能与英国和澳大利亚的口语习惯相一致。为了确保内容的公正性和无偏见,我们还请了一个由语言专家组成的独立委员会来对PhonePassTM
SET测试材料作了评估。测试项目的语音提示是由受过教育的北美本地人士的不同语音样本来念出的。
规范性
PhonePassTM SET-10的原型版本经过了一系列的有效性研究,有多达4000多名本地与非本地的说英语人士参与其中。
本地的标准测试人群包括376位受过教育的成年人,他们代表了美国人口的大致地理分布状况,年龄从18岁到50岁,男女比例为60对40,其中有18%是非洲裔的美国人。
非英语国家的标准测试人群(NNG)有514位,包括以40种不同的语言为母语的人士,而他们是从3500多位接受PhonePassTM
SET测试的非英语国家人士中挑选出来的。非英语国家标准测试人群的母语分布情况与托福考试相类似,有阿拉伯人、中国人、西班牙人、中国人、法国人、韩国人、意大利人和泰国人。他们之中的每一个族群都超过了15人,年龄在17-79岁之间,男女比例为50对50。
有效性
在PhonePassTM SET-10的开发过程中,人工评级师已经为几百个不同的受测试者评定了26,000多个分数。由评级师对各个小类的答案所做的人工评分结果表明,由不同的评级师给出的有关流利程度、发音和会话技巧的评定分数,相对而言比较一致,其相关性系数在0.82到0.86之间。而依据受测试者对开放式提问所做的回答得出的整体评价,其可靠性高达0.93。

人工评分与SET-10评分的相关度
有遍布北美、欧洲和亚洲的多家学术机构和商业组织参与了本系统的开发和有效性测试。
- 意大利博格尼亚大学
- 加州加拿大学院
- 荷兰全国教育测评研究院(CITO)
- 纽约城市大学
- Lackland空军基地防卫语言学院英语中心
- 得克萨斯州德勤顾问咨询公司
- 东密执安大学
- 科罗拉多州玻尔德财经学院
- 华盛顿英孚国际语言学校
- 加州Los Altos Hill福得学院
- 中国国际商务交流协会(IIBC)
- 印地安纳州大学
- 衣阿华州立大学
- 纽约门罗社区学院
- 加州Monterey国际问题研究所
- 纽约大学美国语言学院
- 奥克拉荷马州立大学
- 加州圣迪各Point Loma Nazarene学院英语系
- 旧金山州立大学美国语言学院
- 中国扎幌国际大学
- 加州Orkland Sierra航空研究所
- 斯坦福大学语言系
- 夏洛特北卡罗来纳大学国际项目部
- 俄亥俄州Findley大学
- 宾夕法尼亚大学英语语言部
- 南密西西比大学
SET-10与其它外语考试的相关对比
相比SET 10和其它著名外语考试之间平衡管理的相关数据,该测试系统的有效性又一次得到了证实与肯定。
测试名称 |
SET-10于其它测试相关对比度 |
| 托福考试 |
0.75 |
托福阅读
|
0.64 |
| TOEIC听力 |
0.71 |
| 托福听力 |
0.79 |
| 新托福听力 |
0.78 |
| TSE口语测试 |
0.88 |
信托福会话 |
0.84 |
| 欧洲语文测试协会1 |
0.84 |
| 欧洲语文测试协会2 |
0.94 |
| 欧洲语文测试协会3 |
0.88 |
| ILR会话 |
0.75 |
TSE |
SET-10 |
| 25 |
20-25 |
| 30 |
26-35 |
| 35 |
36-45 |
| 40 |
46-55 |
| 45 |
56-64 |
| 50 |
65-74 |
| 55 |
75-80 |
|
SET-10和TSE测试成绩对应 |
参考资料
Bernstein, J., De Jong, J.H.A.L., Pisoni,
D., & Townshend, B. (2000):关于口语能力自动打分的两次实验,摘自:P.
Delcloque (Ed.)
InSTIL2000语言讲座:学习过程的语音合成技术(pp. 57-61),苏格兰阿伯泰邓迪大学,2000年8月
Bull, M., & Aylett, M. (1998):在一组基于目的的对话中关于时间安排转折的分析,摘自:R.
H., Mannell & J. Robert-Ribes (Eds.),
口语信息处理第五次国际大会的会议纪要;Canberra:澳大利亚语言科技协会
Carroll, J.B. (1961):外国学生英语能力测试的基本考虑。测试地点:华盛顿特区,应用语言学中心
Carroll, J.B. (1986):第二语言,摘自:R.F. Dillon,
& R.J. Sternberg (Eds.),认知与教学,佛罗里达Orlando学术出版社
欧洲理事会(2001): 语言参考的欧洲通用框架-学习、教学与评估,剑桥,剑桥出大学出版社
Cutler, A(2003):词汇的获得,摘自:L. Nadel (Ed.),
认知科学年鉴第二卷,癫痫症-心理意象与哲学问题(858-864页),伦敦,
自然出版社
Enright, M.K., Bridgeman, B., & Cline,
F. (2002年4月):新托福测试设计的原型制定,资料呈报给路易斯安那州纽奥良教育监测全
国理事会的年度会议
Godfrey, J.J., & Holliman, E. (1997):交换台1,版本2,宾州大学语言学数据协会LDC目录号:LDC97S62
http://www.ldc.upenn.edu
Jescheniak, J.D., Hahne, A., & Schriefers,
H.J. (2003):话语准备中的心理词汇信息流-情景脑力潜能的证据;认知性脑力研究15
(3), 261-276
Levelt, W. J. M. (1989):会话-从意向到达意,马萨诸塞州剑桥,麻省理工学院出版社
Levelt, W. J. M. (2001):口语单词的产生-一个词汇获得的理论,
PNAS, 98 (23), 13464-13471
Miller, G.A., & Isard, S. (1963):语言规则的某些知觉性结果,
口语学习及口语表现杂志2, 217-228.
Lennon, P. (1990):将英语作为外语的流利性研究, 语言学习杂志40,
387-412.
|