用户注册 登录
珍珠湾全球网 返回首页

岳东晓 -- 珍珠湾全球网 ... https://ydx.zzwave.com [收藏] [复制] [分享] [RSS] 岳东晓 -- 珍珠湾全球网

日志

中国促进AI民主化

热度 2已有 246 次阅读2025-1-23 02:29 |个人分类:科普|系统分类:科技

中国促进AI民主化:OpenAI 目前发布最强大的模型是 o1, 每月定额使用,月费 200美金,还有个额度更高的,月费两千美金。现在 DeepSeek 开源了其6700亿参数的 DeepSeek -R1,智力性能全面达到或超过 OpenAI-o1,完全免费。但这6700亿参数对于个人来说,目前还是稍微多了点。我之前也只能测试基于 Qwen 的 32b 模型,它经过长考基本正确地解决了一个可能大多数大学生不会做的中学物理题,具体思维过程参见前面的博文。看来现在的模型其实真是学了知识,让它多思考就行了。那么 DeepSeek-R1 6700亿大模型真实水平如何呢?这位AI博主用8块 AMD 显卡组合运行了这个 DeepSeek-R1 开源模型,结果确实惊人,它一次性就写出了俄罗斯方块程序,解决各种复杂问题不在话下。这意味着什么?高级人工智力资源被少数寡头掌控的时代被 DeepSeek 彻底终结了。你多买几块显卡,自己在家里就可以运行顶级水平的人工智能。那些看 OpenAI 脸色的AI应用厂家也突然挺起了胸膛,它们完全可以自己搭建一个 AI 供应站,不再依赖人工智能提供商,可能还能节省大量费用。这个AI民主化对产业经济的影响不可估量,其社会影响同样深远。OpenAI-o1 是博士水平,而且是各行各业的全能博士,DeepSeek-R1 也就是如此。这意味着智商平等的时代将要来临 --- 就像阿法狗让人类围棋水平无论段位高低都处于同一娱乐层次。

#人工智能#

中国AI对AI产业链的冲击分析:DeepSeek-R1 对NVIDIA等公司来说意味着什么?DeepSeek 仅用2000张H800,五百多万美元成本就训练出了顶级的AI。马斯克囤积了十万张性能高得多的N卡,花几十亿美金拼算力却没有弄出什么花样。古人云,斗智而不斗力是真理,DeepSeek的各种算法设计创新,而且公开了其算法甚至代码,则完全打破了 AI 行业的格局。任何新来的AI公司都会采用 DeepSeek 的算法进行模型训练,甚至还会在其基础上进一步优化,而不是走拼算力的老路。人们突然发现,其实不需要这么的训练的算力,更多是需要已有模型的运用算力--所谓推理力。从投资角度,看好低功耗推理算力提供商与高带宽内存提供商。

DeepSeek-R1 32B 开源模型本地解题过程:DeepSeek 这次确实震撼了AI界。不仅开源了 6700亿参数,比肩 OpenAi-o1 的模型,还顺手把之前其他公司开源的一些小模型进行了思考训练的微调。下载这些模型到本地运行,它就能进行思考。其中一个320亿参数的模型是基于 Qwen 32b。我下载到PC上使用 LMStudio 加载,让它解答可滑动斜面下物体下滑加速度的问题,一次提问,它就开始不断探索,最终给出了几乎正确的答案(符号有个错)。全部过程参看视频。看它的思路,几乎与人差不多,它在最初算出一个结果之后,自行进行验证,然后发现不对,重新思考。。。由于模型参数做了压缩,可能精度不够,也许采用没有压缩的模型效果更好。但无论如何,在早已发布的Qwen模型上用 DeepSeek 的方法进行思维训练,就能达到这个效果,可谓极大的突破,各AI厂商都被惊呆。现在轮到世界跟进的时候了,未来开源AI将如雨后春笋。

Deepseek-32B - Made With Clipchamp(1).mp4
#人工智能#

中国 AI 大爆炸:中国AI公司 DeepSeek 开源了 其R1 思维模型以及相关理论与算法。DeepSeek-R1 已经与 OpenAI-o1 持平,而且开源。更令人振奋的是,DeepSeek 的 R1 思维训练模板可以用来蒸馏现有的小模型,使这些小模型也具备了思维能力。下面是我阅读其论文并测试的初步总结。1. 理论基础: AI模型训练分两步,一步是学习---就是阅读海量资料、并构造一个巨大的神经网络函数,第二部是学会表达,遇到问题给出解答,但这种表达是不假思索的。一般第二步是用 SFT-- 监督下的微调,就是拿一些预设的问题和答案进行训练。而 DeepSeek -R1 让大语言模型更进了一步,学会了思考。 DeepSeek -R1 的基本训练模式是,在基础模型先用少量思维过程数据进行微调,然后进行所谓强化训练(Reinforcement Learning),强化训练就是自己左右互搏训练,不再需要人工提供数据,AI在自我训练中突然顿悟。2. 实测结果:我用可滑动斜面上方块滑下的加速度多少的问题测试,之前只有 OpenAI-o1 能够解决,DeepSeek-V3 还不能。现在用 DeepSeek-R1, 它经过 84 秒钟的思考,给出了正确答案,而且整个思考过程非常有趣。它首先将 x-轴设为沿着斜面,但立刻发现因为斜面本身在动,问题变得很复杂,随后它又经过多轮思考不同的途径,最后给出了完全正确的答案(附图1-4)。这已经足够出色了,因为这个中学物理问题估计大部分学生都不能正确解决。 DeepSeek 还放了一个大招,那就是将现有的小模型进行一番思维训练,这些几十亿参数的小模型也可以进行思考。我用 Ollama 在笔记本上本地运行 经过 R1 化的70亿参数 Qwen 模型,同样给这个滑动斜面上方块滑下的问题,它进行了非常冗长的不断思考,其中多次已经接近正解,虽然最终未能给出正确结果,但从其思路过程看,绝对掌握了相关的物理原理,它能够对自己的思路进行反思,发现有不对的地方,再去寻求其他途径(图5-8)。也许这才是最令人兴奋的。那些动辄数千亿参数的模型目前远远超出了个人拥有的计算资源,现在小模型也能思考了。DeepSeek-R1 无异于AI界的一声春雷。

从 DeepSeek-R1 水平以及其创新度看,OpenAI 领先度可能已经只有几个月。且 DeepSeek 的算法具有低成本、高效能优势,加速度强劲。至于扎卡伯格以及马斯克,虽有数十万张显卡,已经被远远抛在后面。估计他们的研究人员得开始认真学习DeepSeek 相关论文。
607d3a30gy1hxs9bahq6tj20zx1eeqf8.jpg
#人工智能#


路过

鸡蛋
2

鲜花

支持

雷人

难过

搞笑

刚表态过的朋友 (2 人)

 

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 用户注册

Archiver|手机版|珍珠湾全球网

GMT+8, 2025-2-15 07:16 , Processed in 0.010359 second(s), 8 queries , Memcache On.

Powered by Discuz! X2.5

回顶部