AKT-note
论文标题:Context-Aware Attentive Knowledge Tracing 作者与发表日期: Ghosh, Aritra and Heffernan, Neil and Lan, Andrew S. 期刊或会议名称:KDD ‘20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining Virtual Event CA USA July 6 - 10, 2020 链接:https://arxiv.org/abs/2007.12324 DOI: 10.1145/3394486.3403282 摘要: 知识追踪 (KT) 是指根据学习者过去在教育应用程序中的表现来预测未来学习者的表现的问题。使用基于灵活深度神经网络的模型的 KT 的最新发展在这项任务中表现出色。然而,这些模型的可解释性通常有限,因此不足以进行个性化学习,这需要使用可解释的反馈和可操作的建议来帮助学习者获得更好的学习成果。在本文中,我们提出了注意力知识追踪...
note10-8
AI2000讲座观看笔记(十分简略地记一些内容和观点) 视频指路b站: 【孙爱欣教授: 推荐系统研究现状的理解|AI...
SAKT-note
Abstract本文开发了一种方法,从学生过去的活动中识别出与给定 knowledge concept (KC) 相关的 KC,并根据它选择的相对较少的 KC 来预测他/她的掌握程度。由于预测是基于相对较少的过去活动进行的,因此它比基于 RNN 的方法更好地处理数据稀疏性问题。为了确定 KC 之间的相关性,我们提出了一种基于自我注意的方法,即自我关注知识追踪 (SAKT)。 Introduction 左子图显示了学生尝试的练习顺序,右子图显示了每个练习所属的知识概念。 知识追踪 (KT) 被认为是一项重要的任务,被定义为根据学生过去的学习活动追踪学生的知识状态的任务,该知识状态代表他/她对 KC 的掌握水平。KT 任务可以正式化为监督序列学习任务 - 给定学生过去的运动互动 X = (x1, x2, . . . , xt),预测他/她下一次互动的某个方面 xt+1。在问答平台上,交互表示为 xt = (et, rt),其中 et 是学生尝试时间戳 t 的练习,rt...
论文阅读笔记920
论文标题:基于静态与动态学习需求感知的知识点推荐方法 作者与发表日期: 周洋涛,李青山,褚华,李佳楠,高明彪,卫彪彪.基于静态与动态学习需求感知的知识点推荐方法.软件学报,2024,35(9):4425-4447 期刊或会议名称:软件学报 链接:https://www.jos.org.cn/jos/article/abstract/6962?st=article_issue DOI: 10.13328/j.cnki.jos.006962 摘要: 随着互联网信息技术的高速发展, 线上学习资源的爆炸式增长引起了“信息过载”与“学习迷航”问题. 在缺乏专家指导的场景中, 用户难以明确自己的学习需求并从海量的学习资源中选择合适的内容进行学习. 教育领域推荐方法能够基于用户的历史学习行为提供学习资源的个性化推荐, 因此该方法近年来受到大量研究人员的广泛关注. 然而, 现有的教育领域推荐方法在学习需求感知时忽略了对知识点之间复杂关系的建模, 同时缺乏考虑用户学习需求的动态性变化, 导致推荐的学习资源不够精准. 针对上述问题,...
D2L笔记-多层感知机
感知机 我们可以通过在网络中加入一个或多个隐藏层来克服线性模型的限制, 使其能处理更普遍的函数关系类型。 要做到这一点,最简单的方法是将许多全连接层堆叠在一起。 每一层都输出到上面的层,直到生成最后的输出。 我们可以把前L−1层看作表示,把最后一层看作线性预测器。 这种架构通常称为多层感知机(multilayer perceptron),通常缩写为MLP。 这个多层感知机有4个输入,3个输出,其隐藏层包含5个隐藏单元。 输入层不涉及任何计算,因此使用此网络产生输出只需要实现隐藏层和输出层的计算。 因此,这个多层感知机中的层数为2。 注意,这两个层都是全连接的。 每个输入都会影响隐藏层中的每个神经元, 而隐藏层中的每个神经元又会影响输出层中的每个神经元。 我们通过矩阵X∈Rn×d 来表示n个样本的小批量, 其中每个样本具有d个输入特征。 对于具有h个隐藏单元的单隐藏层多层感知机, 用H∈Rn×h表示隐藏层的输出, 称为隐藏表示。 在数学或代码中,H也被称为隐藏层变量 或隐藏变量。 因为隐藏层和输出层都是全连接的, 所以我们有隐藏层权重W(1)∈Rd×h...
D2L笔记-线性神经网络
线性回归损失函数 在我们开始考虑如何用模型拟合(fit)数据之前,我们需要确定一个拟合程度的度量。 损失函数(loss function)能够量化目标的实际值与预测值之间的差距。 通常我们会选择非负数作为损失,且数值越小表示损失越小,完美预测时的损失为0。 回归问题中最常用的损失函数是平方误差函数。 当样本i的预测值为y^(i),其相应的真实标签为y(i)时, 平方误差可以定义为以下公式: X是训练数据,y是预测结果,w是参数,b是偏差 但是,由于平方误差函数中的二次方项, 估计值y^(i)和观测值y(i)之间较大的差异将导致更大的损失。 为了度量模型在整个数据集上的质量,我们需计算在训练集n个样本上的损失均值(也等价于求和)。 线性回归刚好是一个简单的优化问题,它的解可以用一个公式简单表达出来, 这类解叫作解析解(analytical solution)。 首先,我们将偏置b合并到参数w中,合并方法是在包含所有参数的矩阵中附加一列。 我们的预测问题是最小化‖y−Xw‖2。 这在损失平面上只有一个临界点,这个临界点对应于整个区域的损失极小点。...
D2L笔记-微积分部分
在深度学习中,我们“训练”模型,不断更新它们,使它们在看到越来越多的数据时变得越来越好。 通常情况下,变得更好意味着最小化一个损失函数(loss function), 即一个衡量“模型有多糟糕”这个问题的分数。 最终,我们真正关心的是生成一个模型,它能够在从未见过的数据上表现良好。 但“训练”模型只能将模型与我们实际能看到的数据相拟合。 因此,我们可以将拟合模型的任务分解为两个关键问题: 优化(optimization):用模型拟合观测数据的过程; 泛化(generalization):数学原理和实践者的智慧,能够指导我们生成出有效性超出用于训练的数据集本身的模型。 导数和微分在深度学习中,我们通常选择对于模型参数可微的损失函数。 简而言之,对于每个参数, 如果我们把这个参数增加或减少一个无穷小的量,可以知道损失会以多快的速度增加或减少,假设我们有一个函数f:R→R,其输入和输出都是标量。...
特征工程入门学习记录
用于存放入门学习的一些笔记,有很多处是搬运参考文章内容,主要目的仅是便于记录学习过程和方便回顾查看。 ……………………………………………………………………………………………………….. …………………………………………………………………………………………………………………………………………………………………………………………………………………. 1.特征预处理1.1缺失值处理 实际上我们收集到的很多数据是存在缺失值的,比如某个视频缺少总时长,对于用户属性数据来说,很多用户可能也不会填写完备的信息。一般缺失值可以用均值、中位数、众数等填充,或者直接将缺失值当做一个特定的值来对待。还可以利用一些复杂的插值方法,如样条插值等来填充缺失值。 1.2归一化 不同特征之间由于量纲不一样,数值可能相差很大,直接将这些差别极大的特征灌入模型,会导致数值小的特征根本不起作用,一般我们要对数值特征进行归一化处理,常用的归一化方法有min-max归一化、分位数归一化、正态分布归一化、行归一化等。 ...