KT-Overview

考虑到在线学习系统中的学习互动序列，KT旨在监测学生在学习过程中不断发展的知识状态，并预测他们在未来练习中的表现。测量的知识状态可以进一步应用于学生的个性化学习方案，以最大限度地提高他们的学习效率。

最近的一些工作直接将KT任务视为学生的成绩预测，而没有考虑学生的知识状态。我们同意，预测学生的表现是非常重要的，因为它现在是评估KT模型所追踪的知识状态质量的最佳方式。然而，我们必须指出，KT更注重学生的知识状态，特别是他们的可解释性和理性，这与学生对基于KT的给定结论的接受程度有关。

三类基本KT模型

贝叶斯模型

贝叶斯模型假定学习过程遵守马尔可夫过程。
这个过程允许根据学生观察到的表现来估计他们的潜在知识状态。

BKT

这里无阴影的节点代表不可观察的潜在知识状态，而阴影的节点代表学生的可观察答案。

BKT是隐马尔可夫模型（HMM）的一个独特实例。

HMM中有两种类型的参数：过渡概率和发射概率。

在BKT中，过渡概率由两个学习参数定义：

1）P(T)，从未学习的状态过渡到学习状态的概率；

2）P(F)，忘记以前掌握的知识的概率。

此外，发射概率是由两个性能参数决定的：

1）P(G)–尽管不熟练，但学生猜对的概率；

2）P(S)–尽管熟练，但学生犯错的概率。

此外，P(L0)代表最初的掌握概率。BKT在一个双状态的学生建模框架内运作：知识要么被学习，要么未被学习，然后是经过知识处理的知识。根据对学生学习互动的观察，利用以下公式来估计知识状态和正确答案的概率：

其中P(Ln)是在第n次学习互动中掌握一个KC的概率，P(Cn+1)是在下一次学习互动中正确答案的概率。P(L n)是下述两个概率的总和：1）KC已经被掌握的概率；2）知识状态转换为被掌握状态的概率。
后验概率P(L n|Answer)的估计方法如下：

DBKT

动态BKT独立地对每个KC的参数进行建模，为每个KC采用一个特定的模型

然而，KCs并不是完全独立的，而是分层的和密切相关的。DBKT用动态贝叶斯网络来表示KC内部的层次和关系。这种方法在一个单一的模型中共同考虑不同的KC。在DBKT中，学生的知识掌握由二元潜变量表示，这些潜变量是根据他们的学习互动来估计的。与BKT不同，DBKT考虑到了各种KC之间的依赖关系。例如，如果KC 1和KC 2是掌握KC 3的先决条件，学生对KC 3的掌握取决于他们对KC 1和KC 2的掌握。让H表示未观察到的变量，即缺乏学生的答案和二元掌握的变量。假设学生在时间步骤t 1正确回答了与KC 1相关的练习，即a 1,1 =1。那么，观察到的变量是a m = a 1,1，而未观察到的变量是h m = {KC 1,1, KC 2,1, KC 3,1,a 2,1,a 3,1}。DBKT的目标是找到使联合概率p(a m,h m|θ)最大化的参数θ。对数似然也可以用对数线性模型来表述：

Logistic模型

Logistic模型表示学生正确回答练习的概率，是学生和KC参数的Logistic函数。他们首先在学生的学习互动中使用不同的因素来计算学生和KC参数的估计值，然后利用逻辑函数将这种估计值转化为对掌握概率的预测。在随后的章节中，我们将介绍以下三种类型的逻辑模型。1）LFA；2）PFA；3）知识追踪机（KTM）。

LFA模型

考虑了以下学习因素：
1）初始知识状态。参数α估计每个学生的初始知识状态。
2）KCs的简易性。参数β反映了不同KCs的简易性。
3）KCs的学习率。参数γ表示KCs的学习率。

PFA模型

可以被看作是LFA模型的扩展，对学生的表现特别敏感。与LFA模型相比，PFA考虑了以下不同的因素：

1）以前的失败。参数f是学生的KC的先前失败。
2）以前的成功。参数s代表学生的KC的先前成功。
3）KCs的简易性。参数β意味着不同KCs的简易性，这与LFA模型中的情况相同。

标准的PFA模型采取以下形式：

其中μ和ν是s和f的系数，分别表示成功和失败的学习率。

KT机

KTM模型采用了因子化机（FMs），将Logistic模型推广到更高维度。调频最初是作为一个通用的预测器被引入的，能够处理任何实值的特征向量，使模型能够使用因子化参数表示变量之间的所有相互作用。调频器提供了一种将有关练习或学生的侧面信息编码到模型中的方法。下图说明了KTM的例子。

它根据事件中涉及的所有特征的稀疏权重集来模拟学生的知识掌握情况。设L为特征的数量；这里，特征可以与学生、练习、KC或任何其他侧面信息有关。学习互动由长度为L的稀疏向量l来编码。当特征i参与互动时，l i > 0，正确答案的概率p(θ)由以下公式决定

深度学习模型

认知过程可以受到宏观和微观层面各种因素的影响，因此贝叶斯模型或逻辑模型很难充分捕捉到高复杂度的认知过程。而深度学习具有实现非线性和特征提取的强大能力，很适合对复杂的学习过程进行建模，特别是当有大量的学习交互数据可用时。近年来，许多关于深度学习KT模型的研究工作已经被提出，我们将从以下四个子类别引入深度学习模型。

1）DKT；
2）记忆感知的KT；
3）AKT；
4）GKT。

DKT

DKT是引入深度学习来完成KT任务的开创性方法。DKT采用RNNs来处理随时间变化的学习互动的输入序列，保持一个隐含着序列中所有过去元素历史信息的隐藏状态。这个隐藏状态是根据以前的知识状态和现在的输入学习互动而演变的。DKT提供了知识状态的高维和连续表示，使其能够更有效地模拟复杂的学习过程。通常，RNNs的变体，即长短时记忆（LSTM）网络，在实现DKT的过程中更经常使用，通过考虑遗忘来进一步加强。

下图说明了DKT的过程。

在DKT中，练习是由其包含的KC表示的。对于具有不同数量KC的数据集，DKT应用两种不同的方法来转换学生的学习互动X = {(e 1,a 1), (e 2,a 2), …, (e t,a t), …, (eN ,a N )}变成一串固定长度的输入向量。更具体地说，对于具有少量独特KC的数据集，x t∈{0，1}2K被设定为独热嵌入，其中x k t=1，如果KC k 练习的答案a t是正确的，或者x (k+K) t =1，如果答案不正确。对于具有大量独特KC的数据集，单热嵌入被认为过于稀疏。因此，DKT将每个输入向量x t分配给一个相应的随机向量，然后使用嵌入式学习序列作为RNN的输入。然后将线性映射和激活函数应用于输出的隐藏状态，得到学生的知识状态。

这里tanh是激活函数，W hs 是输入权重，W hh 是递归权重，W yh 是读出权重，b h和b y是偏置项。尽管与贝叶斯和逻辑模型相比表现出卓越的性能，但DKT有几个固有的缺点。例如，缺乏可解释性是一个重要的缺点。要理解隐藏状态如何代表学生的知识状态是很有挑战性的，模型不能明确地从隐藏状态中确定学生的知识掌握情况。然而，尽管有这些缺点，DKT仍然是一种有前途的KT模式

Memory-Aware KT

为了提高DKT的可解释性，内存感知的KT引入了一个外部内存模块，该模块旨在存储和更新学生相应的知识掌握情况。最有代表性的例子是用于KT的动态键值记忆网络（DKVMNs）。DKVMN强调了学生在各种知识类别上的具体知识状态。它初始化了一个静态矩阵，被称为存储潜在KC的关键矩阵和一个动态矩阵，被称为值矩阵，通过随时间变化的读写操作来存储和更新相应KC的掌握情况。如图所示：

首先定义一个嵌入矩阵，以获得练习的嵌入向量k t。然后通过取练习嵌入k t和关键向量Mk之间的内积得到相关权重w t，然后是softmax激活：

其中，相关权重w t代表练习和所有潜在KC之间的相关性。在读操作中，DKVMN根据学生的知识掌握情况来预测学生的表现。具体来说，DKVMN参照价值矩阵中所有记忆向量的加权和，用相关权重读取学生掌握练习r t的情况。然后，读取的内容和输入的练习嵌入被串联在一起，并传递给全连接层，产生一个摘要向量f t，其中包含学生的知识掌握情况和练习的先前难度。此外，学生的表现可以通过应用另一个具有sigmoid激活函数的全连接层来预测总结的向量。

其中W f和W p是权重，b f和b p是偏置项。在写操作中，在回答完一个练习后，DKVMN根据学生的表现更新他们的知识掌握情况（即价值矩阵）。具体来说，学习互动（e t,a t）首先被嵌入一个嵌入矩阵B，以获得学生的知识增长v t。然后， DKVMN 从 v t 中计算出一个擦除向量 erase t ，并参照擦除向量和相关权重 w t 决定擦除以前的记忆。擦除后，新的记忆向量由新的知识状态和添加向量add t更新，形成一个擦除-跟随-添加机制，允许在学习过程中遗忘和加强知识掌握。

W e和W d是权重，b e和b d是偏置项，DKVMN未能捕捉到学习过程中的长期依赖关系。因此，又提出了一个顺序KVMN（SKVMN），以结合DKT递归建模能力和DKVMN记忆能力的优势。在SKVMN中，一个被称为Hop-LSTM的改良LSTM被用来根据潜在KC的相关性在LSTM单元之间跳跃，这直接捕捉到了长期的依赖关系。在写作过程中，SKVMN允许计算一个新练习的知识增长，考虑到当前的知识状态，从而产生更合理的结果。

Attentive KT

在深度学习的发展中，Transformer最初被提出用于神经机器翻译，它放弃了递归，仅仅依靠自我注意机制来捕捉序列中的全局依赖关系。Transformer已被证明在特征提取和依赖性捕捉方面表现出色，同时保持高计算效率。一些基于Transformer的代表性预训练模型，如BERT和GPT，在各种自然语言处理任务上获得了最先进的结果。PandeyandKarypis提出了一个用于KT的自我注意模型（SAKT），它直接应用Transformer来捕捉学生之间的长期依赖关系。此外，引入了一个自适应的稀疏自我注意网络来生成缺失的特征，并同时产生对学生表现的细粒度预测。Zhu等人采用了多头ProbSparse自我注意机制来减轻时间的复杂性，并有效地捕捉学生之间的长期依赖关系。

然而，KT任务的复杂性往往限制了上述简单Transformer应用的性能。Choi等人引入了一种名为分离式自注意神经KT（SAINT）的新方法，以加强自注意计算对KT的适应性。具体来说，SAINT采用了一个编码器与解码器的结构，练习和答案嵌入分别由自我注意层进行编码和解码。输入的分离使得SAINT可以多次堆叠自我注意层，从而捕捉到学生互动中的复杂关系。随后，Shin等人介绍了SAINT+模型，该模型将两个时间特征整合到SAINT中：即回答每个练习所需的时间和连续学习互动的间隔时间。SAINT和SAINT+在学生成绩预测任务上的表现都超过了SAKT模型。此外，Ghosh等人观察到SAKT在实验中并没有超过DKT和DKVMN。与SAINT和SAINT+不同，它们提出了一个上下文感知的AKT模型。这个模型将自我注意机制与心理测量模型相结合，创造了一个更有效的系统。AKT由四个模块组成。

这里c c t ∈RD是这个练习的KC的嵌入，d c t ∈R D是一个向量，总结了练习中与相关KC的变化，μ e t ∈RD是一个标量的难度参数，控制这个练习偏离相关KC的程度。练习题答案元组（e t,a t）同样使用标量难度参数对每一对进行扩展。

其中q (c t ,a t ) ∈RD是KC-答案嵌入，f (c t ,a t ) ∈RD是变化向量。通过上述嵌入，被标记为相同KC的练习被确定为密切相关，同时保留了重要的个体特征。然后，在练习编码器中，输入是练习嵌入{e 1, …, e t}，输出是一串上下文感知练习嵌入{ ̃ e 1, …, ̃ e t}。AKT设计了一个单调的注意力机制来完成上述程序。

AKT中提出的新型单调注意机制是基于这样的假设：学习过程是时间性的，学生的知识会随着时间的推移而衰减。因此，原始Transformer中利用的缩放内积注意机制不适合KT任务。AKT使用指数衰减和上下文感知的相对距离测量来计算注意力权重。最后，AKT在预测学生未来答案方面取得了出色的表现，同时也证明了由于心理测量模型的结合而产生的可解释性。值得注意的是，，在整个学习过程中，AKT模型从学生连续、重复的互动中明显受益。去除数据集中这些重复的交互作用导致AKT的性能下降，使其接近DKVMN的性能。此外，根据Yin等人的研究结果，现有的AKT模型主要是追踪学习者的学习活动模式，而不是其不断发展的知识状态。因此，他们开发了Transformer模型以促进稳定的知识状态估计和追踪，而不是仅仅关注下一个性能预测。

Graph-Based KT

图神经网络是为处理复杂的图相关数据而设计的。图代表了一种数据结构，它对一组对象（节点）和它们的关系（边）进行建模。从数据结构的角度来看，KCs内有一个自然存在的图结构。因此，将KC的图结构作为额外的信息纳入到KT任务中应该是有益的。Nakagawa等人提出了GKT，它将KC的潜在图结构概念化为一个图G =( V,E)，其中节点V = {v 1,v 2,…,vN }代表KC的集合，边E⊆V×V代表这些KC的关系；此外，ht = {ht i∈ V }代表学生在时间t回答练习后的时间知识状态。GKT的结构如下图所示：

它由以下三部分组成：1）聚合；2）更新；3）预测。在聚合模块中，GKT聚合了被回答的KC i的时间知识状态和嵌入它邻近的KC j。

其中 at 代表在时间步骤 t 回答正确或错误的练习， E s 是学习互动的嵌入矩阵， E e 是 KC 的嵌入矩阵， k 代表 E e 的第 k 行。在更新模块中，GKT根据聚合的特征和知识图谱结构更新时间性知识状态，具体如下：

其中f self是多层感知器，G ea是DKVMN中使用的相同的逐一擦除机制，Ggru是门控递归单元（GRU）门。此外，f neighbor定义了基于知识图谱结构的信息传播到邻近节点。在预测模块中，GKT根据更新的时间知识状态预测学生在下一个时间步骤的表现。

其中W k是权重参数，b k是偏置项。除了通过图神经网络对KC中的图结构进行建模外，Lu等人还对KC中的图结构进行了建模，提出在概念图中对教育关系和拓扑结构进行建模，其目的是作为构建KT模型的数学约束。

Variants of KT Models

上述基本的KT模型虽然简单明了，但在现实世界的学习场景中可能会降低性能。因此，在更严格的假设下提出了许多变体，反映了现实世界场景中更全面的学习过程。因此，我们将目前基本的KT模型的变体分为以下四类进行分类和回顾：

1）学习前的个体化建模

提出了BKT的两个简单变体，分别对学生进行了个性化的初始掌握概率和从未学习的状态过渡到学习状态的概率。具体来说，增加一个学生节点来个性化每个学生的初始掌握概率。学生节点为每个学生分配一个个性化的初始掌握概率。设计了一个条件概率表来确定学生节点的值。同样地，如果改变学生节点与后续知识节点的连接，过渡概率参数也可以被个性化。在这种情况下，学生节点给每个学生提供个性化的过渡参数。此外，在BKT中，BKT的其他一些变体选择同时对所有四个BKT参数进行个体化。Lee和Brunskill提出，当应用于智能辅导系统时，个性化的BKT模型可以对学生的学习效果产生良好的改善，使20%的学生达到掌握程度所需的问题量减少约一半。

另一种对个体化进行建模的手段是聚类，它考虑了不同群体中更广泛的学生。通过将学生聚类为不同的组，我们可以训练不同的KT模型并对测试数据进行预测。然后，聚类的数量根据学生群体的不同而变化，预测过程反复进行。最后，我们可以得到一组不同的预测结果。此外，有两种常见的方法用于结合这些预测。
1）统一平均法，即简单地对预测进行平均；
2）加权平均法，即通过加权平均法将模型结合起来。
为了实现聚类，K-means是一种基本的聚类算法，它随机初始化一组聚类中心点，这些中心点是用欧氏距离识别的。另一种流行的聚类算法是频谱聚类，它将数据表示为一个无向图，并分析从数据点的成对相似性得到的图拉普拉斯的频谱。最近，一些新的聚类算法被提出，包括离散非负谱聚类和聚类不确定数据。

2）在学习过程中纳入参与

学生的参与被定义为学生自己致力于直接促进预期结果的教育性活动的努力质量。这个定义突出了学生参与和学习过程之间的紧密联系。一般来说，更高的参与度会导致知识收益的提高。因此，在学习过程中考虑学生的参与有可能改善KT结果。在本节中，我们将介绍一些将学生参与度纳入KT模型的变体。学生的参与度很难被直接测量。在实践中，一些在线学习系统已经利用传感器数据来测量学生的参与度。例如，廉价的便携式脑电图（EEG）设备可以帮助检测学习中的各种学生心理状态，这可以被看作是学生参与的反映提出了两种方法，结合EEG测量的心理状态来提高BKT的性能。具体来说，第一个是在BKT中插入一个一维二元EEG测量，形成EEG-BKT结构，通过在知识节点和答案节点之间增加一个二元变量节点E来扩展BKT。

然而，在大多数情况下，很难收集每个学生的传感器数据。因此，Schultz和Arroyo提出了知识和情感追踪（KAT），对知识和参与进行并行建模。KAT是一个无传感器的模型，不依赖于任何传感器数据。在这个模型中，知识和参与都被假定为对学生的成绩有直接影响。KAT考虑了三种脱离行为：快速猜测（学生很快就做了一次尝试），底层提示（使用了所有可用的提示），以及多次尝试（做了三次以上的练习）。这三种行为被归类为 “游戏 “行为，以预测学生在每次学习互动中的知识和参与度。KAT模型的一个变种不是假设知识和参与对学生的知识状态有同等的影响，而是定义了知识和参与之间的联系，并相应地认为学生的知识状态会影响他们的参与。

例如，学生更有可能脱离他们不熟悉的知识。此外，Schultz和Arroyo没有明确地对学生的参与度进行建模，而是进一步提出了知识追踪与行为（KTB）模型，它只有一个潜在的知识节点，作为知识和参与度的组合。KTB假设为对知识状态的贝叶斯估计需要通过学生的参与和表现来推断。Mongkhonvanit等人提出在DKT的输入中加入在大规模开放在线课程（MOOCs）上观看视频过程中的五个特征。这些特征从各个方面反映了学生的参与度，包括播放速度、视频是否暂停、快速转发或重写，以及视频是否完成。

例如，如果一个学生以更快的播放速度观看视频，他/她很可能不耐烦，没有心思。这个模型包含了另外两个特征：提交练习时是否选择了答案，以及练习是否是单元测验的一部分，这两个特征被放在一起考虑。实验结果表明，DKT可以通过纳入上述二进制的参与协变量实现更好的性能。

3）考虑学习后的遗忘

在现实世界的场景中，在学习的同时，遗忘是不可避免的。Ebbinghaus遗忘曲线理论表明，学生的知识水平会因为遗忘而下降。最近，Huang等人提出了 “知识熟练程度追踪 “的概念，这是一个可以动态地捕捉学生对知识概念熟练程度随时间变化的模型。这个模型以一种可解释的方式有效地跟踪这些变化。因此，假设学生的知识状态将随着时间的推移保持不变是不成立的。然而，基本的KT模型，如BKT，往往忽略了遗忘。在下文中，我们将介绍一些基本KT模型的变体，这些模型试图在学习更精确的知识状态后考虑遗忘。Qiu等人发现，当学生从以前的回答中经过一天或更多的时间时，BKT一直高估了学生答案的准确性。其根本原因是，BKT假设，无论过了多少时间，学生的表现都会保持不变。

为了考虑学生的成绩是如何随着时间的推移而下降的，他们提出了一个BKT-forget模型，该模型假设学生可能会忘记他们所学的信息。在BKT-forget模型中，增加了一个时间节点来指定哪些参数应该受到新日的影响，新的日节点被固定为先验概率0.2。它还引入了参数来表示新一天的遗忘率，并表示同一天的遗忘率。然而，尽管BKT-forget确实考虑了学生成绩的下降，但它只能模拟在几天的时间范围内发生的遗忘。为了模拟知识随着时间的推移不断衰减，Nedungadi和Remya[89]将遗忘纳入BKT，基于所学知识随时间呈指数衰减的假设。因此，指数衰减函数被用来更新知识掌握程度。他们进一步假设，如果学生在30天内不练习知识概念，遗忘的机会会增加。此外，Khajahetal介绍了一种计算i的数量的方法。

为了考虑遗忘问题，Pelánek在θ中加入了一个时间效应函数f，即用p(θ+ f (t))代替p(θ)，其中t是最后一次学习互动的时间（秒），f是时间效应函数。为了表示复杂的遗忘行为，DKT-forget模型[94]在DKT中引入了遗忘，它考虑了以下三种与遗忘有关的侧面信息：
1）重复时间间隙，代表当前交互和上一次交互之间的间隔时间，具有相同的KC；
2）序列时间间隙，代表当前交互和上一次交互之间的间隔时间；
3）过去的试验计数，代表学生在具有相同KC的练习中尝试的次数。
所有这三个特征都是以对数2为尺度离散的。这些侧面信息作为额外的信息被串联起来，并表示为一个多热向量c t，它与学习互动的嵌入向量v t整合在一起，如下所示

其中θin是输入积分函数。综合输入vc t和之前的知识状态h t−1通过RNNs，更新h t。下一个时间步骤c t+1的额外信息也与更新的h。

Wang等人提出了一种新型的霍克斯KT模型，该模型引入了霍克斯过程来适应性地模拟时间交叉效应。霍克斯过程在模拟时间上的连续事件方面表现良好，因为它通过强度函数控制相应的时间趋势。HawkesKT中的强度函数被设计用来描述以前的学习互动的累积效应，以及它们随时间的演变。在HawkesKT中，时间上的交叉效应和它们在历史学习互动之间的演变方式结合起来，形成了一个动态的学习过程。

4）利用跨学习的侧面信息。

大多数KT模型主要依靠练习和学生的反应来评估学生的知识状态。这些模型已经产生了令人印象深刻的结果，并在在线学习系统中得到了有效的实施。尽管如此，在整个学习过程中，还有其他各种类型的侧面信息可以被用来增强这些模型。在本节中，我们将介绍几个变体，旨在利用这种跨学习的多样化侧面信息。就学生的第一反应时间而言，较短的初始反应时间可能表明熟练程度高或 “游戏 “行为，而较长的初始反应时间可能表明思考谨慎或缺乏注意力。由于初始响应时间和知识状态之间的联系可能会受到复杂因素的影响，Wang和Heffernan提出将连续的第一响应时间离散为四类（即极短、极短、极长和极长），以消除不必要的信息并简化潜在的复杂可能性。然后，他们建立了一个一比四的参数表，其中每一列代表前一个练习的初始反应时间的类别，而相关值代表正确答案的概率。

关于导师的干预，Beck等人提出了贝叶斯评价和评估模型，该模型同时评估了学生的知识状态和评价了导师干预的持久影响。更具体地说，它在BKT中增加了一个可观察的二元干预节点：真表示导师干预发生在相应的互动中，而假表示相反。干预节点和知识节点之间的联系表明导师干预对学生知识状态的潜在影响。干预节点与所有四个BKT参数相连。因此，为了纳入导师干预，总共有八个参数需要学习。减少参数数量的一个可能的方法是选择只将干预节点与学习率参数联系起来。同样，Lin和Chi开发了干预-BKT模型，该模型将两种类型的干预纳入BKT，并区分了它们的不同效果：诱导和告诉。干预和表现节点之间的关系代表教学干预对学生表现的影响，而干预和知识节点之间的关系代表教学干预对学生理解知识状态的影响。因此，在每次学习互动中，虽然当前的知识状态是以之前的知识状态和当前的干预为条件的，但学生的表现却取决于当前的知识状态和当前的干预。

双向LSTM，它从前向和后向捕捉单词序列以学习语义单词表示。元素最大集合操作被用来将单词的上下文表征合并到一个全局嵌入中。最后，EKT可以借助于每个练习的语义表示来更新学生的知识状态。为了实现更可行的侧面信息整合，Loh[108]提出了一个带有决策树的DKT，它利用分类和回归树（CART）的优势来预处理异质的输入特征[109]。具体来说，CART被用来自动划分特征空间，并输出学生是否能正确回答一个练习。预测的响应和真实的响应被编码成一个四b的二进制代码；例如，如果预测的响应和真实的响应都是正确的，那么代码就是1010。然后，这个二进制代码与练习的原始单次编码相连接，作为DKT的新输入来训练相应的模型。

Jung等人提出，学生的语言能力可以作为补充信息来改进现有的KT模型。学生的语言能力是通过Elo评级分数和时间窗口特征提取的。然后，语言能力信息被证明可以有效地促进几个KT模型，包括DKT、DKVMN和SAKT。此外，在语言能力信息的帮助下，KT任务中的冷启动问题也得到了缓解。Liu等人[111]探讨了通过辅助学习任务向原始KT模型添加侧面信息。他们特别引入了两个任务。

1）预测问题的KCs；

2）预测个性化的先验知识。

通过对这些任务的训练，KT可以加强对问题和KC之间内在关系的理解，同时明确地捕捉到学生层面的变化。在解决编程问题时，我们可以记录学生提交的完整代码，这可以用来分析他们的编程能力。Kasurinen和Nikula收集了学生的编程数据并分析了他们的个性化编程偏好。研究开始时，对学生的错误进行了统计分析，然后对学生从他们的代码提交中得出的编程结构进行了检查，最后用BKT来衡量学生的编程能力。Wang等人将学生提交的代码转化为嵌入式向量，并将其应用于DKT，以模拟学生的精细编程知识状态。Zhu等人注意到，一个单一的编程问题通常涉及多个KC，因此他们建议从学生那里学习关于编程问题的有用信息。

Application

尽管KT是一个新兴的研究领域，但它已经被应用于各种场景中。在下文中，我们将首先调查KT模型在两个典型教育场景中的应用：学习资源推荐和适应性学习。然后，我们将讨论KT在学生学习之外的更广泛的应用。

1、学习资源推荐：

传统上，每个学生的学习资源是以两种方式之一选择的。第一种是要求教师手动选择合适的资源，与学生的知识水平相匹配。然而，这种方法需要大量的时间和精力，而且不同的教师可能有不同的偏好。第二种允许学生自己自由选择资源进行学习。然而，这可能会导致学生选择太容易或太难的材料，对他们的学习没有好处[115]，导致学习效率低。近年来，智能辅导系统的盛行和KT方法的发展使得基于人工设计的算法向每个学生自动推荐适当的练习成为可能。

练习是最常见的学习资源学习。鉴于推断出的知识状态，一个常见的策略是选择下一个练习，以最好地推进学生的知识习得。Desmarais和Baker提出了原始BKT模型的两个扩展，分别考虑了练习困难和学生的多重尝试行为。这两个扩展被整合到一个BKT序列算法中，根据学生的知识状态向他们推荐练习。具体来说，BKT-序列首先确定每个练习的预测分数范围。然后，它为学生应该达到的每项练习计算一个预期分数，这取决于他们当前的知识状态（例如，较低的知识状态将导致较高的预期分数）。最后，该算法以最接近预期分数的预测分数返回练习。 因此，随着特定KC的知识状态的增长，更难的练习将被推荐，因为更难的练习与较低的预测分数有关。实验结果表明，与使用传统方法的学生相比，使用BKT序列算法的学生能够解决更困难的练习，获得更高的成绩，并在系统中花费更多时间。此外，学生们还表示，BKT-序列算法的效率更高。Wan等人扩展了DKVMN模型，以包括练习的类型和难度。然后，这个模型被用来评估学生的知识状态，并随后在小型私人在线课程中为每个学生推荐个性化的练习。他们进行了一项随机对照试验，表明所提出的个性化运动推荐可以提高学生的学习效率。

在推荐学习资源时，现有解决方案的主要目的是选择一个简单的策略，将非掌握的练习分配给学生。虽然合理，但它也过于宽泛，无法有效地推进学习。Huang等人[118]相应地提出了三个更有利和具体的目标：审查和探索，难度的平稳性，以及学生的参与。更详细地说，审查和探索都考虑了既要增强学生对非掌握的概念的审查，又要保留某些探索新知识的机会，难度级别的平稳性表明，随着学生逐渐学习新知识，几个连续练习的难度级别应该在很小的范围内变化，最后，学生的参与认为，为了促进学生在学习过程中的热情，推荐的练习应该与他们的偏好一致。为了支持具有上述三个特定领域目标的在线智能教育，他们开发了一个更合理的多目标深度强化学习（DRE）框架DRE提出了三个相应的新的奖励函数来捕捉和量化上述三个目标的效果。这个DRE框架是一个统一的平台，旨在优化多个学习目标，必要时也可以纳入更合理的目标。实验结果表明，DRE可以有效地从学生的学习记录中学习，以优化多个目标并自适应地推荐合适的练习。

2、适应性学习：

自适应学习，与学习资源建议不同，它超越了单纯的资源提供。它不仅集中在选择合适的学习材料上，而且还设计了有效的学习策略和动态学习途径。这些都是基于学习规则和学生不断发展的知识状态的结构。具体来说，适应性学习广义上是指 “一个学习过程，在这个过程中，所教的内容或这些内容的呈现方式会根据学生个人的反应而改变或 “适应，并根据学生个人的能力或偏好动态地调整教学水平或类型 [119]。第一个将KT应用于适应性学习的尝试是ACT编程指导器[9]，其中要求学生编写简短的程序，并利用BKT来估计他们不断发展的知识状态。这个导师可以根据每个学生估计的知识状态–直到学生掌握–每个规则，向他们展示一个个性化的练习序列。近年来，MOOCs已经成为一种新兴的学习方式，特别是在高等教育中。Pardos等人[11]在edX平台上适应BKT。研究对象是一个为期14周的在线课程，包括每周的视频讲座和相应的讲座问题。

应用BKT来增强学生在本课程中学习。为了使BKT更好地适应学习平台，原来的BKT在几个方面进行了修改。首先，由于缺乏标记的KC，问题将直接被视为KC，而问题将被视为属于KC的练习。第二，为了捕捉每次尝试中不同程度的学生知识习得，修改后的模型对不同的尝试次数分配了不同的猜测和滑移参数。最后，为了处理系统中的多种途径问题，反映出对学习的影响可能来自各种资源，他们将资源对学习的影响框定为信用/责备推理问题。

一般来说，学生的认知结构包括学生的知识水平和学习项目的知识结构（例如，一位数的加法是两位数加法的前提知识）。因此，自适应学习应该与学生的知识水平和潜在的知识结构保持一致。然而，现有的适应性学习方法往往分别关注学生的知识水平（即在特定KT模型的帮助下）或学习项目的知识结构。为了充分利用认知结构进行适应性学习，Liu等人将适应性学习引入了认知结构。提出了一个用于自适应学习的认知结构增强框架（CSEAL）。CSEAL将自适应学习概念化为一个马尔可夫决策过程。它首先利用DKT来追踪学生在每个学习步骤中不断变化的知识状态。随后，作者设计了一种基于知识结构的导航算法，以确保自适应学习中的学习路径是合乎逻辑和合理的，这也减少了决策过程中的搜索空间。最后，CSEAL利用演员批评算法来动态地确定下一步应该学习什么。

3、更广泛的应用

上述两类应用在学生学习中最常用于KT。此外，KT方法可以扩展到任何需要持续评估用户能力或状态的系统中使用。我们将在本节中介绍KT的一些更广泛的应用。在游戏系统中，追踪学生的知识状态的范式也可以用于玩家建模。在这里，玩家建模，也就是研究游戏中玩家的计算模型，旨在捕捉人类玩家的行为特征和认知特征。例如，Fisch等人揭示了儿童在玩网络游戏的过程中从事越来越复杂的数学思维的循环。Kantharaju等人提出了一种在平行编程教育游戏中追踪玩家知识的方法，它能够测量当前玩家在玩教育游戏所需的不同技能方面的实时状态，这些技能只基于游戏中的玩家活动。Long和Aleven进行了一个课堂实验，将一个用于方程求解的商业游戏，即DragonBox，与一个基于研究的智能辅导系统，即Lynnette进行比较。