童程童美少儿编程教育是一所注重经济实惠、透明宣传、师资专业、环境创新和多地校区设置的学府。学费灵活,一年10000-25000元,平均每堂课200-300元,为家庭提供经济实惠的编程教育。通过网上公示机构信息,透明化宣传,构建了学校与家长之间的信任基础。师资团队经验丰富,致力培养学生的创新思维和问题解决能力。学校教室设计充满创意,提供积极向上的学习氛围,激发学生的无限创意。多地校区设置,方便学生就近学习,贴近家庭生活。提供多样化教学项目,适应不同学生的需求,以学生成绩和学习效果为导向,不断优化教学模式。积极收集学员家长的反馈,确保学费调整灵活应对不同家庭的需求。这些努力让童程童美少儿编程教育赢得了学员家长的高度评价和信赖。
为了获得这个问题的粗略答案,我们从 Manifold 市场收集了 5000 个问题,这些问题在 GPT-4 当前的知识截止日期(2022 年 1 月 1 日)后得到解决。我们将每个问题的文本以及以下说明提供给 GPT-4:
您是一位超级预测,熟悉泰洛克和其他人的工作。对于以下 json 块中的每个问题,预测该问题得到解决的概率。
您还必须确定问题的类别。一些例子包括:体育、美国政治、科学等。使用 make_predictions 函数来记录您的决定。在所有情况下,您必须给出 0 到 1 之间的概率估计。如果由于某种原因您无法回答,请选择基本费率,但返回 0 到 1 之间的数字。
回想起来,也许我们已经过滤了这些。许多问题对于我们的目的来说有点愚蠢,尽管它们通常被分类为“测试”、“未分类”或“个人”。
衡量你是否擅长预测事物的一种方法是检查你的校准:当你说某件事有 30% 的概率时,它实际上有 30% 的时间发生吗?
要检查这一点,您需要做出大量预测。然后你将所有 30% 的预测放在一起,看看其中有多少发生了。
从较高层面来看,这意味着 GPT-4 过于自信。当它说某件事发生的可能性只有 20% 时,实际上发生的概率约为 35-40%。当它说某件事有 80% 的可能性发生时,它只发生大约 60-75% 的时间。
我们可以为 16 个类别中的每一个类别绘制相同的图。(请记住,这些类别是由 GPT-4 决定的,尽管从抽查来看,它们看起来很准确。)由于不清楚的原因,GPT-4 对于体育问题进行了良好的校准,但对于“个人”问题进行了可怕的校准:
所有线条看起来都有点嘈杂,因为总共有 20 × 4 × 4 = 320 个 bin,而总共只有 5000 个观测值。
假设你和我正在预测一枚公平的硬币翻转时正面朝上的结果。我总是预测 50%,而你总是预测 0% 或 100%,而且你总是对的。然后我们就都完美地校准了。但显然你的预测更好,因为你的预测更有信心。
处理这个问题的典型方法是平方误差,或“Brier 分数”。为了计算这个结果,如果事情发生了,则实际结果为 1,如果没有发生,则实际结果为 0。然后取概率与实际结果之间的平均平方差。例如:
以下是每个类别的平均分数(越低越好):
或者,如果您愿意,您可以分解 Brier 分数。有多种方法可以做到这一点,但我较喜欢的是Brier = Calibration + Refinement。非正式地说,校准是上面的绿线与黑色虚线的接近程度,而细化是您的自信程度。(两者越小越好。)
政治问题的布赖尔分数比科学问题的分数更高。但这是因为它不擅长科学,还是仅仅因为科学问题很难?
有一种方法可以进一步分解 Brier 分数。您可以将分辨率分解为细化 = 不确定性 - 分辨率。粗略地说, 不确定性是“问题有多难”,而分辨率是“考虑到校准和不确定性后,你的信心有多大”。
以下是不同类别的不确定性:
这是每个类别的校准和分辨率的散点图:(由于分辨率越高越好,所以现在左上角包含更好的预测。)
总体而言,这种进一步分解并没有太大变化。这表明 GPT-4 确实更擅长对政治进行预测,而不是对科学或技术进行预测,即使考虑到问题的难度也是如此。
PS:不同Brier 分数分解的相对优点在这篇文章的制作过程中引起了惊人的内部冲突。我不知道我会对平凡的技术选择有如此强烈的感受。我想我现在有了一个令人兴奋的新敌人类别。