Company dynamics

大学老师能发现AI作业吗?Chat-GPT最新研究来了!

自从Chat-GPT面世以来,其在学术界的表现、在高等教育领域的应用以及作为AI产生的道德难题一直是学者讨论的焦点。近几个月,又有很多新的研究结果被发表。这些研究聚焦于如何在高等教育领域内更好地使用Chat-GPT,Chat-GPT如何更好地赋能高校教师工作以及在它在高等教育领域的一些优异表现。

以下是近期Chat-GPT在高等教育领域相关研究的详细介绍。

1、使用Chat-GPT进行学生文本响应的增强以进行自动批改

Cochran、Cohn、Rouet和Hastings(2023)研究了Chat-GPT通过模拟和增加学生的答题结果来帮助老师更好地使用自动批改方面的作用。作者在文中分析了,在师生比较高的环境中,老师对学生给予及时反馈的必要性,以及在这个环节中自动批改的重要性。他们解决了由于师生比较高,所以当学生作业样本数据不足时,用于训练AI模型的数据稀缺性难题,并提出了使用文本增强技术来增强模型性能的建议,最终促进了更可靠的学生答案批改模型迭代。

2、AI、NLP和大型语言模型在高等教育和研究中的新兴角色

Alqahtani等人(2023)对AI、NLP和大型语言模型(如Chat-GPT)进行了全面的介绍,强调了它们在教育和研究中的转变潜力。作者强调了这些技术的关键应用,包括教育支持、个性化指导和数据分析,同时也承认了与其实施相关的伦理考虑。

作者在文中还详细分析了Chat-GPT在高等教育领域的几个重要作用:

(1)通过个性化学习改变教育

人工智能可以通过分析学生表现和行为的数据、识别学生可能遇到困难的领域并提供个性化的改进建议,帮助学生提供独特的教育支持和个性化学习方案。此外,人工智能还可以考虑每个学生的学习风格、兴趣和目标,帮助制定个性化的学习计划,从而保持学生的积极性和参与度,从而取得更好的学业成绩。

(2)利用人工智能改变分级格局

近年来,利用人工智能和自然语言处理技术进行自动化评分和评估的研究显着增长。一种应用是自动论文评分 (AEG),它使用机器学习算法来评估对开放式问题的书面回答。人工智能和自然语言处理的另一个教育应用是自动简答评分(ASAG),学生提交之后,由机器学习算法评估简答题的书面回答。

(3)加强课程设计,帮助学生在就业市场取得成功

人工智能技术具有促进课程开发并同时满足就业市场需求的潜力。人工智能驱动的职业指导和工作选择可以帮助学生识别自己的优势、兴趣和才能,引导他们走向更远的职业道路。

(4)人工智能心理健康帮助

人工智能工具可以通过分析学生的沟通模式,来检测学生是否有被情绪困扰的迹象,帮助及早识别学生的心理健康问题。

3、GPT-4在高等教育宏观经济学领域内评分的稳定性研究

Hackl等人(2023)研究调查了GPT-4在多次迭代、不同时间跨度和不同内容风格变化下生成的反馈评分的一致性。该模型评估了高等教育(HE)宏观经济学领域任务响应的内容和风格,并通过统计分析了解反应者之间的可靠性、迭代之间的评分一致性以及内容和风格评分之间的相关性。

研究中一个显著的发现是GPT-4表现出极高的可靠性,不同时间跨度下的Intraclass Correlation Coefficients(ICC)介于0.94到0.99之间,这表明该模型在清晰提示下能够稳定生成评分。此外,研究结果显示内容和风格评分之间存在高度相关性,相关系数为0.87,突显了该模型在区分内容和风格评分方面的高效能力。

一个特别引人注目的观察是,当应用不合适的风格内容时,内容评分保持不变,而风格评分下降。这表明大型语言模型(LLM)在评估过程中有效地区分了这两个评估标准。

4、未来的教学和评估:高等教育和AI

Lacey和Smith(2023)深入探讨了AI在教育中的颠覆作用,特别是生成式大型语言模型(如Chat-GPT),以及其在教学和学习中的应用。他们首先讨论了自从Chat-GPT 3.5以来迅速出现的AI进展,以及其整合到教育中的各种应用。他们提出,人工智能可以极大地提高学生的写作效率和词汇处理效率,在Chat-GPT的影响下,老师需要向学生教授更多的写作技巧,AI不会让坏的写作者变好,但是可以让好的写作者变得更好。文中还提出了Chat-GPT影响下的学生考核建议,他们认为学生需要的不是公式化的学术论文,而是更开放的、更适合个人的论文。他们建议将评估调整为批判性和反思性的自我表达,重点是分析和评论原始材料。他们还该论文呼吁在高等教育中对AI的负责和持续评估。

5、医学教育中的人工智能:ChatGPT、Bing和德国医学生的对比分析

Roos等人(2023)评估和比较了非英语考试中人工智能语言模型的表现。他们研究了2022年德国医学国家考试中3个大语言模型(LLMs),即GPT-4、Bing和GPT-3.5-Turbo的表现,并将它们的表现与医学生进行比较,还评估了这些模型相对于学生的相对实力。结果表明GPT-4的整体表现最佳,正确回答了88.1%的问题,紧随其后的是Bing(86.0%)和GPT-3.5-Turbo(65.7%)。学生的平均正确答题率为74.6%。在两次考试中,无论是GPT-4还是Bing都明显优于学生。研究显示出了LLMs在进一步发展和融入教育和临床领域方面有着广阔的前景。

6、有效但不太可靠?辨别Chat-GPT在高等教育中的潜力

González-Geraldo和López(2023)的研究关注了生成式AI,特别是Chat-GPT,在大学教师的评估实践中的影响。他们进行了实验,被试来自为即将成为教师的群体和未来的教育工作者。被试要求评价实验者提供的一些对教育的定义,这些定义有不同的复杂程度和精确度(从八岁儿童到正式教授),以及不同的来源(真人和Chat-GPT的模拟)。此外,被试还在实验中被告知定义中存在人工智能提供的答案,并需要分辨出哪些定义来自于人工智能。实验结果显示被试对教育定义的评价没有因为来源是人或者Chat-GPT产生显著差异,也没有因为来源是人工智能而有较低的认同度,作者在文章中强调了AI在高等教育中的颠覆潜力。

7、人工智能聊天机器人对大学教师评估实践影响的探索性研究

Farazouli等人(2023)设计实验研究了AI聊天机器人如何影响大学教师对学生的作业评估。来自人文社会科学四个不同部门的大学教师(n=24)参与了受图灵测试启发的实验,他们对学生和ChatGPT编写的家庭考试问题的回答进行了盲评。实验结果表明,Chat-GPT得到的分数在37.5 - 85.7%之间,只有少数不及格;被怀疑使用AI的范围在14-23%之间。实验结果还发现大学教师在对学生撰写的文本进行评分时更加挑剔。

8、对高等教育机构中Chat-GPT潜在应用的全面考察

Tajik和Tajik(2023)从不同利益相关者的角度考察了Chat-GPT的潜在能力,并提供了可行的建议供未来研究参考。

文中提到,GPT 在教育领域有许多潜在的新应用,包括(1)通过自动化任务减轻教师的工作量,如编写教案、设计课堂大纲、创建测验/测试问题、对学生成绩进行评分、设计评分标准以及为学习活动提供指导等等。(2)此外,缺乏经验的教师也可以从 GPT 相关培训工具中获益,它可以减轻新教师的时间压力,并提供与目标相一致的示例和深度策略,例如GPTTeach 。(3)GPT 可以支持教育工作者根据学生的需求和兴趣来撰写和更新学习目标,从而帮助学生保持在学习环境中的参与度。在 GPT 的帮助下,教师可以对学生的书面作业提供及时、持续的反馈,促进形成性评价。在教学中,GPT 可以根据每个学生的能力和潜力提供个性化的学习活动,让教育者更好地满足学生的个人需求。(4)此外,人工智能生成的文本还能帮助教育工作者更有效地与家长和管理者沟通。并且,GPT 还能为使用者生成报告,总结学生的表现,使管理者和老师们能够积极主动地为学生提供支持。

参考文献:

[1] Cochran, K., Cohn, C., Rouet, J. F., & Hastings, P. (2023, June). Improving Automated Evaluation of Student Text Responses Using GPT-3.5 for Text Data Augmentation. In International Conference on Artificial Intelligence in Education (pp. 217-228). Cham: Springer Nature Switzerland.

[2] Alqahtani, T., Badreldin, H. A., Alrashed, M., Alshaya, A. I., Alghamdi, S. S., bin Saleh, K., ... & Albekairy, A. M. (2023). The emergent role of artificial intelligence, natural learning processing, and large language models in higher education and research. Research in Social and Administrative Pharmacy.

[3] Hackl, V., Müller, A. E., Granitzer, M., & Sailer, M. (2023). Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings. arXiv preprint arXiv:2308.02575.

[4] Lacey, M. M., & Smith, D. P. (2023). Teaching and assessment of the future today: higher education and AI. Microbiology Australia, 44(3), 124-126.

[5] Roos, J., Kasapovic, A., Jansen, T., & Kaczmarczyk, R. (2023). Artificial Intelligence in Medical Education: Comparative Analysis of ChatGPT, Bing, and Medical Students in Germany. JMIR Medical Education, 9(1), e46482.

[6] González-Geraldo, J. L., & López, L. O. Valid But Not (Too) Reliable? Discriminating The Potential Of Chatgpt Within Higher Education.

[7] Farazouli, A., Cerratto-Pargman, T., Bolander-Laksov, K., & McGrath, C. (2023). Hello GPT! Goodbye home examination? An exploratory study of AI chatbots' impact on university teachers’ assessment practices. Assessment & Evaluation in Higher Education, 1-13.

[8] Tajik, E., & Tajik, F. (2023). A comprehensive Examination of the potential application of Chat GPT in Higher Education Institutions. TechRxiv. Preprint, 1-10.


平台注册入口