松易涅
Published on 2025-02-22 / 6 Visits
0
0

信息备忘录V11

本期信息

截取时段:25/02/12-18

关键词:梁建章,人口学,大学,教育回报率,精英教育,人际交往,特权,家庭关系,婚姻,deepseek,思维链,AI,蒋能杰,弱势群体,独立制片人,纪录片,独立电影,网盘导演,电影行业


信息流

【携程梁建章在TOP刊发文了, 为啥在教育回报极低的今天你也必须给我上大学?】

(梁建章,人口学,大学,教育回报率)https://mp.weixin.qq.com/s/upcy9SCpFftjmhPz-lEPPw

模拟Simulation更直观:如果单纯扩招大学生(供给冲击),所有学历群体的工资都会下跌,这与现实不符。只有当技能需求同步提升(需求冲击),才能复现"新人跌、老人涨"的真实趋势。这说明大学扩招本质是对产业升级的主动适应,不能简单贴上"教育过剩"标签。因此,人力资本投资要看长期价值,不能因短期市场波动否定教育投入。发展中国家即便加速扩招,也难以在短期内复制发达国家数十年积累的经验型人才储备。就像酿酒需要时间,经验积累的"陈化过程"无法速成,这提醒咱们的政策制定者要用更耐心的眼光看待人才培养。

【中国教育明明和欧美精英教育一样卷, 为什么很少有人去抨击欧美的精英教育?】

(精英教育,人际交往,特权)https://www.zhihu.com/question/3291267744/answer/91515820151

人类这种裸猿,是极度社会化的动物,会不自觉地从周围人那里吸收价值观、思想、技能和欲望。那些最终成就非凡的人,他们在成长的关键时期,往往都是被一群同样非凡的成年人所环绕。……这些父母都极力营造了一个丰富的知识环境。

【广西“吃猫逼婚”事件,背后最残酷的真相是什么?】

(家庭关系,婚姻)https://mp.weixin.qq.com/s/lLDpb4DvVv9YtNEi0X4J_A

这是服从性测试。就是为了让孩子听话而已。杀了你最在乎的东西,你若不吭声,不反抗,那好,从此你就被他们狠狠拿捏。而若是你反抗,你愤怒,你挣扎,那你就是不孝,就是不顾念亲情。在很多细节上,长辈一定要在晚辈面前展示绝对的权威,于是,他们不断地试探。最终,他们收获了一个唯命是从的孩子,他们的目的就达到了。

【万字赏析DeepSeek创造之美:DeepSeek R1是怎样炼成的?】

(deepseek,思维链,AI)https://mp.weixin.qq.com/s/Pbha8I1-j174ra9uWXG32Q

Peak 曾经给我说过一个直击本质的观点。大家知道,语言模型的本质是激活一个庞大的神经网络矩阵。当输入一个 token 时,它能够激活矩阵中的某些部分,但这种激活是有限的。当输入更多的 token 时,能够激活的部分也更多,信息量随之增加。因此,更多的 token 意味着模型能够得到足够信息,从而做出更为精准的决策。

模型需要更多 token 来「思考」,这也促使我们提出了推理模型(Reasoning Model)的概念。

什么是推理模型?比如,我们可以用一个例子来说明。假设我们问一个问题:「从望京西到西直门坐地铁需要几站?」一个「直接回答型」的模型可能会像下图左边直接回答:「九站」。

而推理模型则会做出右边的回答。它首先会考虑多种换乘路线,接着比较各路线的换乘站数,最后综合得出最佳方案。推理模型不仅仅给出答案,它还会展示其思维过程。

……

首先,文章提到 9 月 12 日 o1 发布,举世震惊,随后团队注意到 long CoT 极为有效。他们意识到必须投入 long CoT,否则就会被甩在后面。因此,他们开始思考如何从 OpenAI 的工作中获取灵感,并在研究过程中发现了两个关键视频。

这两个 OpenAI 发布的视频并不是 9 月份的分享,而是更早的演讲——由 Noam Brown 和 Hyung Wong Chung 主讲。这两个视频直到 o1 发布时才被公开,让他们去想:为什么选择这个时间点放出这些视频?一定与 o1 训练有某种关系。

当时我看到这个分析,心想:「这思考角度太牛了。」 于是,他们深入研究这两个视频,首先在 Noam 的视频中发现了一张关键的 slide,提到了 AlphaGo 及其后续版本 AlphaGo Zero。大家都知道,AlphaGo Zero 是一个完全基于强化学习(RL)的版本,而这张 slide 强调了 Test-Time Search。

许多人认为 Noam 强调这部分是为了讲解 AlphaGo 的 MCTS,即蒙特卡罗树搜索——同时探索多条路径,评估得分,最终找到最优解。但 Kimi 团队有一个非共识的判断:他们认为 Noam 其实是在强调 MCTS 中的 S,即 Search 本身,而非具体的 MCTS。这一认知带来了他们的第一个关键想法:让模型自行搜索!让模型自己学会探索不同路径,而不是人为限定其思考方式。

这让他们联想到 Richard Sutton 著名的演讲《The Bitter Lesson》。

第二个视频的内容同样至关重要。他们总结出一个核心观点:「Don’t teach, incentivize.」也就是说,不要去「教」模型,而是要「激励」它自主探索。

在许多实验中,模型的结构约束越少(less structure),当计算资源增加时,最终性能的上限就越高。反之,如果在早期给模型加入过多结构约束,它的最终表现可能会受到限制,失去了更多自主探索的可能性。

他们进一步思考:为什么这个同学特别强调 structure?什么是 structure?当时我读这个特别爽,是因为我好像在看 Kimi 这个同学的脑内对话。

MCTS 是 structure,A* 算法也是。这些都在限制模型的自由思考能力。他们认为,OpenAI 发布的 PM-800K 训练方式也存在类似的问题——它通过一个成型的推理数据集,告诉模型在不同情况下应该如何思考。这实际上是人为设定了一种思维路径,限制了模型自身的探索能力。

最终得出结论:o1 没有限制模型如何思考。这一点特别特别重要。Kimi 团队因此决定不采用 MCTS。

……

基于这个模型,他们采用了纯强化学习进行训练,但过程本身极为简单。他们训练时使用了一个固定的模板。

现在大家对 AI 产品应该比较熟悉,可以将其理解为 system prompt。具体来说,该 system prompt 设定为「这是一个用户和 assistant 之间的对话」,用户提问后 assistant 进行解答。但是该 assistant 需要先「在脑海中思考推理过程」,然后再给出最终答案。此外,assistant 还必须将推理过程标注在 think 标签内,而答案则放在 answer 标签内。

……

R1 Zero 路走对了,但接下来 DeepSeek 团队发现了 R1 Zero 的一些问题。首先,可读性较差。第二是经常出现语言混杂的问题,类似于上海外企白领的说话方式:「Maria,今天这个 schedule 有些满」。

这个问题不仅仅出现在 R1 Zero,大多数推理模型都会有这种语言混杂的问题。

就像最近有一个梗,不知道大家有没有看到。国外有些网友截图了那个 o3 的思考过程,发现当 o3 用英文问问题时,在用中文推理。虽然我们知道这个现象背后的真实情况,但很多国外网友还是截图并 @Sam Altman,问你们是不是在蒸馏 DeepSeek R1。天道轮回。

其这背后的原因很简单。就是模型自己在探索时,对模型来说,无论是中文还是英文,都只是一个 token。它自己在思考时,按照 token 来处理问题,而不在乎人类是否能读懂。这其实是一个语言混合的问题。

笔记

训练AI的思维链,即是在一定程度上复现人类的逻辑推理模式。

【我们出圈了?豆瓣知名“网盘导演”拍了部无法公映,但阅读量10万+的片】

(蒋能杰,弱势群体,独立制片人,纪录片)https://zhuanlan.zhihu.com/p/358299999

2016年,我有幸入选“银杏伙伴”。我们有一个银杏海外考察项目,有一位伙伴叫冯璐,她是做关注心智障碍群体服务的,很巧,我们俩都参加了日本和澳洲的考察学习。我们一起去参观学习那边残障机构,还有感受那边的服务,城市建设对残障人士的照顾,深刻体会到他们对弱势群体的关照,特别是日本。当然,对待弱者的态度,是一个国家文明的标志。

【网盘上的导演:“让我走一走电影这条路”】

(独立电影,网盘导演,电影行业)https://m.thepaper.cn/baijiahao_7555277

承嘉斌向南方周末记者坦承,国内独立导演正陷入一个不良的闭环:由于缺乏资金难以拍出高品质的作品,又因为不愿意妥协而习惯性选择拍摄偏向自我表达的作品,最后往往效果不佳。“独立导演大部分拍的都是作者电影(注:泛指具有明显个人风格特征的影片),他们拍自己的生活,沉浸在某种比较兴奋的状态中,但这会导致他们没法考虑观众的感受。”

王思的电影获得过南亚两个电影节的奖项,也入围过英国和意大利的几个小电影节。他在参加某电影节时,看了很多国家的片子,感觉“世界电影正在往小里发展”——有人拍大海上的一块石头;还有人就拍一个人走路,走了整整三个小时……

王思曾在B站上用自己的视频做过测试,一天剪几个视频,放在几个不同的频道,发现网友喜欢的还是娱乐内容。他感到失望,“那些火的视频都是通过贬低自我价值实现的”。


想法

为何关注706青年空间:消失的附近与公共生活

有朋友先后问过我,为何关注“706青年空间”、“1200BookShop”这类实体存在。有四个原因:充实私人生活的空缺;结识更多的人;接触更多视野外的信息;寻找失去的“附近”与公共生活。

动机源自个人生活的无聊。以家为中心、方圆5公里内,惊讶地发现找不到有趣的公共活动及场所,绝大部分都私有化、私密化了,比如KTV、网吧、桌球。

20~30岁之间的“青年”是很矛盾的群体,处于中间态,既延续青少年的活力、青涩与迷茫,又染上了成人社会的忧郁与不安;暂且无法融入中年人群体,又无法退回以学生为主的小孩子们的社会;在宰制个体的家庭生活中部分地解脱,但又受个人生活“空虚寂寞冷”的困扰。可以认为,青年是人生中躁动不安的过渡阶段。

朋友给我推荐了一本书《科学与尊严》,巧的是,我在zlibrary搜到了肖索未著的《欲望与尊严:转型期中国的阶层、性别与亲密关系》,序言提及:「不管怎样,21世纪以来,风险社会带给现代人的不确定性和不安全感与日俱增,并日益渗透在人们对于家庭这一古老制度左顾右盼的纠结态度中。尤其对于处在所谓“压缩的现代性”中的东亚社会来说,一方面在老龄化和少子化的不可逆转的趋势下家庭已经变得分崩离析,另一方面国家与个体对于家庭的依赖感似乎有增无减。在这种状态下,关于现代核心家庭的神话在应对变动的社会方面似乎显得力不从心,而游离于家庭与社会之间的个体空举着自主的旗号,却面临着不知将自己安顿于何处的无家可归感。」

这段话点醒我:青年,既无家可归,又夹在私人生活和公共生活,渴望与他人、与社会对话,渴望有个“家”。

每个社会的公共生活,都是“私密”、“半公共”、“全公共”三种场所及活动的共同构成的。然而,商业地租上涨、互联网社交扩张、当局严防聚众集会的组合拳,使得大部分实体空间被资本收入囊中,成为消费主义的陷阱——商业街、商超、游乐设施等消费场所兴起。于是乎,我尴尬地发现,能够线下约人齐聚一堂聊聊天的活动,大多都成为了消费场景,比如吃饭、唱K、喝酒、上网。否则就约出来逛街、逛公园、逛展览、逛博物馆……

在实体空间上,项飚说的“附近”消失了,就连一个个“附近”所承托的公共生活也失去踪影。

大大小小的“706空间”解决了线下活动场所的“半公共半私密”需求。线上的信息媒体与社交平台,无不受监控,受规制,讨论公共议题往往难以取得成效:要么大家主动回避公共议题,不敢谈;要么“说多了”,被平台方或社群管理方请走。线上不敢谈、不能谈的话题,线下可以大大方方谈,甚至可以面红耳赤地谈。转战线下,新的问题出现了:我们缺乏满足“半公共半私密”性质的场所——公园、图书馆等属于公共场所,不受控制,毫无隐私;而谁敢请不太熟的网友、陌生人直接到自己家做客?假设你要举办一场公开活动,那么只能寻求“706空间”这类半商业化甚至全商业化(如广州“木鸡茶社”)运作的实体场所的支持了。

中产阶级与世界政治经济格局

「我们知道世界政治经济版图在过去几十年发生了深刻的变化,中国有些学者讨论“东升西降”,也有人提出不同看法。从数据来看,确实发生了东升西降。比如美国今天与1960年代相比,GDP实际上下降了50%,而中国则从一个比较弱的发展中国家变成了世界第二大经济体。如果将东升西降放在整个亚洲跟传统意义上的北美或欧洲相比,就更明显了。根据世界银行的研究,到2030年,世界最大的五个中产阶级国家有四个在亚洲,包括中国、印度、日本、印度尼西亚,唯一不在亚洲的就是美国。这也说明,整个世界的政治经济版图,尤其是经济版图,发生了根本性变化。」(https://www.hnzk.gov.cn/zhikuyanjiu/19024.html)

消费权力和技术权力是当下最主要的两个权力。谁拥有消费能力的较大规模人口市场,谁掌握消费权力。谁控制高技术产业链关键环节,谁就掌握技术权力。这两个权力都会更替易主。

根据中产阶级群体分布,汉语、日语、印度语、印度尼西亚语将(已)是除英语外的次要工具性语言。非洲尚处起步,预计我40岁往后才可以享受中非交往红利;其中各国语言混杂,部分沿用法语,故也可考虑学法语。历史一再证明,政治组织度是人类社会最强大的力量,卢旺达未来可期;刚果(金)或陷入长期混乱。

当中国和印度尼西亚发展起来,意味着东亚、东南亚也跟随发展,中东相对稳定,亚洲(中华文化圈)将真正成为欧洲和美洲外的另一极。这时候就是“东升西降”的标志。


Comment