下学期伊始，用AI选个课先

知行编程网 2022-03-11 13:00 知行编程网 | 隐藏边栏 | 抢沙发 | 1 0

文章评分 0 次，平均分 0.0 ：

来自｜arXiv

作者｜Weijie Jiang、Zachary A. Pardos、Qiang Wei

编译｜机器之心、深度学习这件小事

除了搜索社交网络、聆听学长和老师的教诲，我们在选课时还能参考些什么呢？清华大学和 UC Berkeley 的研究者们最近提交的研究已经用上了人工智能中的循环神经网络，并取得了不错的结果。

在该研究中，人们使用了美国 2008 年秋-2017 年春季学期各个专业本科和研究生阶段 16 万学生，共计 480 万次课程的注册信息训练了一个 AI 模型，其课程推荐的成绩通过率很高，甚至能让生物学课程拿 A 的几率达到 75%。再也不用担心选错课了？让我们看看这是怎么做到的。

想要顺利获得大学文凭并非一件易事。你需要做出很多具有挑战性的决定，例如应该报考哪个专业、选修哪些课程以及应该选择哪种难度级别的课程。做出这些决定需要对风险和回报进行权衡，从而加大了学生们想要最大限度完成多目标的难度，也增加了他们想要规避的风险（例如，在保持高 GPA 的同时，选择有利于日后找工作的挑战性课程）。

当我们拥有了充足的关于学生注册信息、成绩以及专业方面的历史数据后，自然而然地就会想到：机器学习的分析方法能否从这些记录中提取出一些有助于学生实现他们目标的东西呢？在清华大学和 UC Berkeley 最新的论文中，研究人员基于高等教育中关于预测和推荐的发现和方法，提出了一种基于目标的课程推荐方法。

随着学生们对数据科学等多种学科的兴趣日益浓厚，为提升学生选课的公平性和包容性而提供适当的「智能化倾斜」的重要性也随之增加。这意味着为来自不同学科背景的学生提供通往成功的途径。研究人员着眼于这个特定的目标：即根据一个人已有的课程经历，为感兴趣的目标课程找到合适的先导课程。

由于种种原因，大学目前提供的先导课程的信息可能未必十分理想：（1）先到课程信息可能不是最新更新的。（2）这些信息可能不全面，忽视了将来自不同系的课程组合在一起后可以覆盖要求的先导课程的可能性。（3）他们不考虑每个学生已经学会了哪些知识，因此如果不强制执行，会经常被学生所忽视。（4）这些信息可能包括经常超过选课容纳人数上限的课程，学生可能是因为别无选择才选了这些课程作为替代方案。

看起来的确是人们在大学选课的时候会遇到的问题，基于此，研究人员提出的方法解决了这四个潜在的问题，特别是通过根据学生已经学会的知识的模型对先导课程提出了一些修改的建议。

针对一个学生已学课程的历史和任意目标课程，向他/她推荐一套合适的课程，无疑是一个棘手的问题。授课教师往往是在他们的学科领域具有深厚知识的专家。非教职的学术顾问对课程有很广泛的了解，但却并没有那么深入，而且与在校生的数量相比，这两种资源在高等教育中都是稀缺的。机器学习模型可以根据从大数据中学习到的表征的广度和深度进行扩展并获益，但缺乏轻松地根据观测结果梳理出相关和因果关系之间差异的能力。

在论文中，作者试图探究：「如果给定足够的约束条件，人工智能模型中提取出合理的建议」。对此，研究人员选择了三种预测验证方法（成绩预测、先导课程预测以及课程选择预测），目的是综合这三种验证信息观察这种方法是否能在公开环境下进行测试。

由于循环神经网络（RNN）具有鲁棒的表示能力和时序建模能力，研究者们选择它作为扩展到这一基于目标的推荐任务的框架。尽管 RNN 以前被应用于基于协同过滤原则的推荐系统，但它们并没有在任何领域被重新用于做出更有针对性的基于个性化目标的推荐。因此，对基于目标任务的 RNN 在分类上的的验证和应用是这项工作的一个新贡献。

基于目标的推荐方法

首先，研究人员提出了几个假设：学生对于课程内容有一个「最近发展区」，我们向学生推荐的课程范围应该限于他们预期能够成功完成的课程。这就需要训练一个预测课程成绩的模型，类似于应用于教辅系统的深度知识追踪神经框架。第二个假设是，这种课程表现模型能够推断出必要的信息，这些信息可以被用来推荐预期的目标课程的先导课程。为了验证这个假设，研究使用了大学现有的先导课程列表，并测试成绩预测模型推断这些现有依赖的能力。最后，我们假设，那些在目标课程中取得成功的学生应该更多地遵循我们的模型所产生的推荐结果，而不是那些成绩不佳的学生。而这个假设还要在满足第三个验证的情况下才成立：在下学期开设一门历史上难度较大的课程之前，需要先预测前一学期的课程注册人数。

举例而言，相关关系与因果关系不同的一个例子是：选修了一门难度较大课程的学生可能会在随后的学期中取得优秀的表现，这可能不是因为这些难度较大的课程本身具有为后续课程打下基础的预备价值，而是因为这些自行选择课程的学生往往本身就成绩优异。我们承认数据中存在这种容易混淆的现象，但相信通过这种验证，再加上第一个假设，即不向不太可能通过考试的学生推荐课程，应该可以缓解这种担忧。

此外，我们根据课程编号所示的三个划分级别（即低年级、高年级和研究生)，将推荐结果限制在不高于目标课程级别的课程。我们还将推荐结果限制在包含先导课程的院系，而非目标课程所在部门的其他课程。我们假设，这些约束可以减少由于数据中的混淆现象而导致做出严重错误推荐的可能性。

传统的循环神经网络（RNN）已经被一些研究人员用于预测序列中的下一个动作。这相当于一种「大多数像你一样的人跟着你也做了 X」的协同推荐。然而，当我们考虑到学生选择课程的不同意图时，学生的目标又往往可能与大多数人的目标不一致。一个简单的解决办法是只使用实现了预定目标的学生的数据进行训练；然而，这种方法却并不理想，因为它会消除可以学习到更健壮的领域表征的数据点。这也是不可取的，因为它将需要训练数以千计的独立模型，以满足我们寻找任意目标课程的先导课程的任务需求。

图 1：模型 1——朴素的课程成绩预测模型

图 2：模型 2——将前一学期的课程成绩和本学期课程注册情况相结合作为隐含层的输入的课程成绩预测模型

图 3：模型 3—将上学期课程成绩、上学期报考的专业、本学期课程注册情况相结合作为输出层的直接输入的课程成绩预测模型

数据集

该研究使用了从加州大学伯克利分校收集到的数据集，其中包含了 2008 年秋季至 2017 年春季的匿名处理后的学生课程注册人数。数据集包含 164,196 名学生（包括本科生和研究生）每学期、总计 480 万人次的课程注册信息。课程注册意味着该学生在学期结束时仍在处于该课程的在读状态。学生们在活跃学期的课程负荷中位数为 4。数据集中共包含 10,430 门特色课程，其中 9,714 门特色初级讲座课程，这些课程来自 124 个系的 197 门学科，分布于 6 所学院的 17 个不同的学部。在本文的所有分析中，作者们只考虑了初级课程（讲座）和在 10 年期间内至少有 20 人注册的课程。

表 1：数据集中学生注册信息的示例

表 2：学生课程成绩预测模型的评价结果

图 7：基于目标的推荐系统的模型评价结果（成绩阈值：A）

图 8：基于目标的推荐系统的模型评价结果（成绩阈值：B）

由于这是一个因果推理问题，而且我们只能通过观测数据来训练模型，所以我们使用这三个来源来验证一个根据预测成绩训练的模型，以帮助评估模型在现实世界中的表现是否合理。等级为 B 的目标阈值模型在成绩预测任务中的得分略高于对比基线，在二分类任务中的准确率达到了 88%，而阈值为 A 的模型的准确率得分较低，为 75%，但明显优于表现较差的准确率为 50% 的多数类别的对比基线。

论文：Goal-based Course Recommendation

论文地址：https://arxiv.org/abs/1812.10078

摘要：随着学生们对跨学科学术兴趣的增加和学术咨询资源的不足，探索数据辅助的方法从而指导学生做出决策的重要性达到了前所未有的高度。我们的工作建立在快速发展的高等教育中的预测和推荐问题的前人的研究成果和方法的基础上，开发出了一种新型的基于循环神经网络的推荐系统，针对我们对学生的先验知识背景和最近发展区的估计，为他们感兴趣的目标课程提供选择先导课程的建议。我们使用成绩预测和恢复大学给出的先导关系的能力的测试来验证模型。在第三个验证中，我们在选修一门具有史无前例的难度的课程前一学期，为学生提供了完全个性化的推荐，并观察了与我们可能的建议之间的微分重叠。虽然不能证明因果上的有效性，但这三个对基于目标的推荐模型性能的评价结果为本工作建立了信心，使我们更接近于在公开环境下部署这种个性化的课程预备功能。

当然，对于大学生来说，一个人的奋斗还要考虑不同的目标尺度。研究人员表示，未来他们可能会在 RNN 模型中加入对于职业规划等「长远目标」的评估，并考虑其他可能的数据来帮助学生进行选课决策。

— 完 —

为您推荐

一份上千赞的《算法》讲义，我收藏了你随意

「别人家的程序员」变量起名

一文简述深度学习优化方法——梯度下降

这本《可视化统计概率入门书》，有点意思

目标检测 vs 目标跟踪

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利