> 自媒体 > (AI)人工智能 > Karpathy开源nanochat!100元4小时,复刻ChatGPT全流程
Karpathy开源nanochat!100元4小时,复刻ChatGPT全流程
来源:笔杆先生
2025-10-17 10:09:04
147
管理

要理解这事儿有多颠覆,得先说说Karpathy这个人,在AI圈,他属于那种“祖师爷级”的存在。

本科读的计算机、物理双学位,硕士研究机器人学习,博士阶段师从AI大牛李飞飞,还成了斯坦福首个深度学习课程的主讲老师。

早年是OpenAI的创始成员,后来被马斯克挖去特斯拉,一手搭起了Autopilot的AI架构,直接向马斯克汇报。

他的论文引用量快6.3万次,随便一个项目都能让整个圈子跟着动起来,但这人最特别的地方,不是身居高位搞大项目,而是总想着把复杂的AI技术“拆碎了喂给普通人”。

前两年他搞的nanoGPT,用极简代码把Transformer架构讲得明明白白,让无数想入门AI的人第一次看懂了大模型的“大脑”是怎么造的。

而这次的nanochat,直接把门槛又降了一个维度——如果说nanoGPT是教你做“零件”,那nanochat就是给你一套完整的“组装说明书”,能直接造出能干活的产品。

很多人不知道,训练一个像ChatGPT这样的对话模型,本来是个极其繁琐的“系统工程”。

得先找海量数据喂给模型打基础(预训练),再教它听懂人类指令(SFT),接着根据人类偏好优化回答(RL微调),最后还得做个网页界面让普通人能用。

最让人吃惊的还是成本和效率,Karpathy自己测过,在8XH100的GPU节点上跑4小时,总成本才92.4美元,剩下的7.6美元还能买个冰淇淋犒劳自己。

就这点投入,训练出的模型已经能写故事、编诗歌、回答基础问题了,要是愿意加到1000美元,训练41.6小时,模型立马“进化”——能解简单的数学题、写基础代码,说话也更连贯,核心指标直接超过当年的GPT-2。

有人可能觉得“小模型肯定不行”,但数据不会说谎,训练24小时的模型,计算量只有GPT-3的千分之一(大概和GPT-3Small125M相当),但在考察综合知识的MMLU测试里能拿40多分,常识推理题ARC-Easy能冲70多分,数学题GSM8K也能得20分。

要知道,这些指标以前都是大公司花几百万美元训练的模型才有的成绩,现在零头都不到就能实现。

这背后其实藏着Karpathy的“小心思”:他想打破大公司对AI技术的垄断,这些年我们总听说“AI民主化”,但真要落地太难了——大模型训练成本动辄上亿,代码要么闭源要么晦涩难懂,小团队和个人根本没机会参与。

而nanochat相当于把“AI实验室”搬到了普通人的电脑上,学生做研究不用再愁没有实验平台,小公司搞开发不用被大模型的API费用卡脖子,甚至爱好者都能改改代码,训练个专属自己的AI。

这种“开源共享”的理念,其实贯穿了他整个职业生涯,从斯坦福教书时把课程免费开放,到离职特斯拉后做教育视频、搞llama2.c项目,再到现在的nanochat,他一直在做“拆墙”的人。

把AI从高不可攀的神坛拉下来,变成能被触摸、被修改、被学习的工具,就像他自己说的,目标是做一个“连贯、极简、可读”的基线系统,让后人能站在这个肩膀上往前走。

可能有人会问,这东西对普通人有啥用?现在看来,至少有三个方向特别有价值。

对学生来说,以前学大模型只能背理论,现在能亲手调参数、看训练过程,知识一下就变“活”了。

对小团队来说,不用从零造轮子,拿nanochat改改就能做垂直领域的AI应用,比如专业领域的问答机器人。

对整个行业来说,这会变成一个全新的“实验场”,就像当年的nanoGPT成了研究基线一样,以后新的训练算法、数据处理方法,都能在nanochat上快速验证。

当然,现在的nanochat还不是“完美产品”,强化学习模块还在完善中,4小时的基础模型跟GPT-4比肯定差远了,复杂的逻辑推理和专业知识问答还得靠大模型。

但这恰恰是它的价值所在——它从来不是要取代商用大模型,而是要给想进入AI领域的人搭个梯子。

就像当年的个人电脑,一开始性能不如大型机,但正是它让普通人能接触到计算,才有了后来的互联网革命。

从当年写nanoGPT教大家造“AI大脑”,到现在用nanochat教大家做“完整AI产品”,Karpathy其实完成了一个闭环。

他用8000行代码证明了:AI技术从来不该是少数人的秘密,而是能被大众掌握的工具。

这种把复杂技术“平民化”的努力,比任何炫技的大模型都更有长远价值,现在再打开nanochat的GitHub页面,星标数早就远超当初的4.2k了。

评论区里全是来自世界各地的开发者,有人说终于能给学生开实践课了,有人说小团队的AI项目有救了,还有人已经开始分享自己修改后的版本。

看着这些反馈,你会明白Karpathy的“疯狂之作”之所以能火,不是因为技术多炫酷,而是因为它戳中了整个行业的痛点——AI的未来,从来不是少数巨头的游戏,而是所有人都能参与的创造。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
《飞驰人生》片尾为何谢王思聪?不止借车库,千万跑车全是真家伙..
提起《飞驰人生》,不少人都记得片尾字幕里王思聪的名字,却鲜少有人知道..
中国古代的顶级“超跑”,如今全球仅剩六千匹!汗血宝马是啥样?..
在历史的长河中,骏马总是与英雄、战争和传奇紧密相连,而对于我们中国人..
法拉利296 Challenge Stradale路试曝光:赛道版公路跑车即将到来..
【网通社快报】法拉利被拍到正在测试一款重度伪装的原型车,外观酷似赛道..
10款你应该现在就入手的跑车,趁它们还没成为经典款!..
整备质量马力扭矩布局2195磅138马力126磅英尺中置引擎,后轮驱动MR-S 是..
消息称保时捷下月推911 GT3 Cabriolet敞篷跑车:折叠软顶..
IT之家 2 月 24 日消息,汽车媒体 thesupercarblog 于 2 月 22 日发布博..
新能源汽车出海2.0:从“卖车”到“建生态”
文 | 惊蛰研究所,作者|芒种2007年,华语女子团体S.H.E的一首《中国话》..
汽车能“乘火车”返乡了!订单火爆→
今年春运,“12306托运汽车订单火爆”的话题冲上热搜。汽车“坐”着火车..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
极目新闻记者 黄忠 陈倩 杨绍杭 王俐燃 刘中灿像车,又像飞机,能垂直起..
紧急召回!近30万辆汽车,吉林车主快自查!
国家市场监督管理总局网站2月9日发布上海蔚来汽车有限公司的汽车召回信息..
关于作者
搞印刷的黄先..(普通会员)
文章
1937
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索