<bgdev />free

Вход Регистрация

Лаптоп за Deep Learning и Large Language модели
0

0 1 2 3 4 ...6 7 8 9 10 ...15 16 17 18 19 ...22 23 24 25 26 27 28 29 30 31

#134831 (ツ) Rabin
Създадено на 11.02.2025 , видяно: 262 пъти.
waldorf

Моя линукс е слабичък за ИИ ... като го купувах избързах и вместо яка машина за ИИ какъвто ми беше плана се прибрах в нас с геймърска. Човек си плаща за грешките. 2к евра (с ДДС ама си го дръпнах та реално е 1600) за 16 ядрен 7950Х и 128 гиги рамец. Сигурно ще успее да изтъркаля 70В модела ама дотам. Чудя се дали да дам още 3К за 5090 ... или направо да скачам на двупроцесрна работна станция със 768 гиги рам на която да може да се търкаля големия модел. Горе долу цената и беше колкото на Гената на новия лапатоп - 6к евра.

Да беше погледнал линка, който сам пусна, и който е 3 мнения нагоре, под носа ти.

Ясно е, че си геймър некадърник.

#134832 (ツ) Delegate
Създадено на 11.02.2025 , видяно: 257 пъти.

@Ranim

Едит: видях едита. Ще го изгледам пак и евентуално ще пиша. Ако черпиш по бира мога още много неща (и код) да споделя, особено за обучването на модели

@waldorf

Видеокартите наистина са бързи, но трябва да можеш да зредиш модела във VRAM-а им, което за големи модели е доста скъпо удоволствие. RTX 5090 има 32 GB VRAМ, което те ограничава до 30Б/27B моделите, които реално не са интересни и можеш да ги рънваш и в оперативната памет с по-ниска скорост.

#134833 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 249 пъти.
Rabin

Да беше погледнал линка, който сам пусна, и който е 3 мнения нагоре, под носа ти.

оф, че си смотан ... тоя линк излезе сега, машината я купих преди две години. И все няма време за ИИ, щот и аз не знам щот ... одъртях вече и все повече си гледам рахатлъка вместо да ръчкам занаята.

#134834 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 239 пъти.
Delegate

Видеокартите наистина са бързи, но трябва да можеш да зредиш модела във VRAM-а им, което за големи модели е доста скъпо удоволствие. RTX 5090 има 32 GB VRAМ, което те ограничава до 30Б/27B моделите, които реално не са интересни и можеш да ги рънваш и в оперативната памет с по-ниска скорост.

Точно затова се колебая между:

1) 5090 на тази машина за 3к

2) Нова машина със 768 гиги рам за 6к

3) Нов макбук про натопорчен на мах - той излиза май към 7к

Всяко си има предимства а да ги взема и трите са излишни пари. Не, че не мога да хвърля 15к евро - надявам се, че ще се избият бързо ако превключа в посока ИИ до пенсия. Особено емебедед ИИ - да търкалям на някой джетсън модели, че да си говориш в къщи с крушките на тавана.

#134835 (ツ) Rabin
Създадено на 11.02.2025 , видяно: 233 пъти.
Delegate

@Ranim

Едит: видях едита. Ще го изгледам пак и евентуално ще пиша. Ако черпиш по бира мога още много неща (и код) да споделя, особено за обучването на модели

Черпя бе човек, дай крипто портфейл, не ми свиди! Ако усетя, че не си като останалите инокуланти - ще черпя и на живо. Правило номер едно е да не знаа лявата ръка, ко праи дясната. В Писанието е писано.

Урсулопитек слоновъд

оф, че си смотан ... тоя линк излезе сега, машината я купих преди две години. И все няма време за ИИ, щот и аз не знам щот ... одъртях вече и все повече си гледам рахатлъка вместо да ръчкам занаята.

То ти личи от снимките.

#134836 (ツ) Delegate
Последно редактирано на 11.02.2025 от Delegate, видяно: 227 пъти.

@валдорф Ако кажеш и тази машина със 768 гъби RAM с какви процесори идва, може картинката малко да се изясни. Все пак има и значение къде ще я разположиш и каква е. Ако е някой фучащ сървър, дето трябва да е в климатизирано помещение и вдига шум като излитащ самолет(особено при старт). Другите параметри вече ги каза - 128 GB РАМ и Ryzen 9 - 16C 7950X + RTX 5090 евентуално.

Всички тия работи ги разглеждаме в хипотезата, че ще се ползват и са инвестиция за ИИ( след 4 месеца може да и да са "obsolete")

#134840 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 207 пъти.

Те тази машина от този линк - https://bgdev-free.asm32.info/laptop-za-deep-learning-i-large-language-modeli.8441/10#133228

https://nitter.poast.org/carrigmat/status/1884244369907278106

Complete hardware + software setup for running Deepseek-R1 locally. The actual model, no distillations, and Q8 quantization for full quality. Total cost, $6,000. All download and part links below:

Motherboard: Gigabyte MZ73-LM0 or MZ73-LM1. We want 2 EPYC sockets to get a massive 24 channels of DDR5 RAM to max out that memory size and bandwidth.

CPU: 2x any AMD EPYC 9004 or 9005 CPU. LLM generation is bottlenecked by memory bandwidth, so you don't need a top-end one.

RAM: This is the big one. We are going to need 768GB (to fit the model) across 24 RAM channels (to get the bandwidth to run it fast enough). That means 24 x 32GB DDR5-RDIMM modules.

Since a lot of people are asking, the generation speed on this build is 6 to 8 tokens per second, depending on the specific CPU and RAM speed you get, or slightly less if you have a long chat history.

Това си е класическа работна станция наточена като хората за ИИ - само с процесори.

#134845 (ツ) Delegate
Последно редактирано на 11.02.2025 от Delegate, видяно: 199 пъти.

Зависи колко големи модели ще рънваш и каква скорост те устройва за нуждите ти.

Ако ще си говориш с ламБите, няма да ги чакаш >5 минути да мъцнат, я. Най-бързия инференс ще получиш, ако ръгнеш 5090 при сегашния ти Райзън 9.

Най-голям модел ще можеш да ръннеш с работната станция. Епиците са яки кучета, но не могат да се мерят с паралелизма на видеокартите, които еволюират десетки години за това.

Мака е най-отдолу - хем не може да рънва супер големи модели, хем R9+5090 ще го бие на малките.

#134846 (ツ) |
Създадено на 11.02.2025 , видяно: 196 пъти.

Колко добре работи fine-tuning на quantized (да кажем 4-bit) модели?

И, изобщо има ли смисъл да се пускат големите модели с толкова нисък quantization?

#134847 (ツ) Delegate
Последно редактирано на 11.02.2025 от Delegate, видяно: 192 пъти.

Ами, това са два отделни въпроса. Ами, използват се адаптори и техники PEFT, като LoRa. Някои nVidia карти могат и без адаптори да обучаат директно 4 bit квантувани модели.

За второто - ами аз лично не мога да преценя колко и дали е деградирало качеството на аутпута. Трябват си май тестове, иначе е субективно и понеже е недетерминистично, веднъж добре, после се осира

Все пак си мисля, че добавената производителност(която може да се измери доста точно) е повече от загубената точност/качество на аутпута. Демек, има келепир, ако качеството не е с топ приоритет.

#134848 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 183 пъти.
Delegate

Най-бързия инференс ще получиш, ако ръгнеш 5090 при сегашния ти Райзън 9.

Най-голям модел ще можеш да ръннеш с работната станция. Епиците са яки кучета, но не могат да се мерят с паралелизма на видеокартите, които еволюират десетки години за това.

Мака е най-отдолу - хем не може да рънва супер големи модели, хем R9+5090 ще го бие на малките.

Те това ми трябваше.

1) Мака хем е най голяма инвестиция, хем най малко върши (въпреки, че паметта му е бърза, адски бърза ... ама макс 192 гиги ако не бъркам т.е. по добре да си взема един макбук еър колкото да го разнасям и да си компилирам на него - той и той е 2+к

2) Да бегам посока епик със много рамец ... няма лошо ... а ако му добавя нвидия? Има ли смисъл от няколко гпу-та на една и съща машина?

3) Сегашната ми машина е греда. Ще трябва да я разкарвам ... или да си я ползвам за кодене/пуцане ... бих я бях харизал на Рабиняка ама като го е страх да си даде адреса, имената и ЕГН-то няма как да му я пратя и няма да го огрее. А съм и избил парите още като я взех по по предния ми проект. Ама си бачка. С вградено видео.

#134849 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 179 пъти.

И при това положение се чудя какъв ли смисъл има от нвидия дигитс?! 3к

#134850 (ツ) Delegate
Създадено на 11.02.2025 , видяно: 178 пъти.
waldorf

2) Да бегам посока епик със много рамец ... няма лошо ... а ако му добавя нвидия? Има ли смисъл от няколко гпу-та на една и съща машина?

3) Сегашната ми машина е греда. Ще трябва да я разкарвам ... или да си я ползвам за кодене/пуцане ... бих я бях харизал на Рабиняка ама като го е страх да си даде адреса, имената и ЕГН-то няма как да му я пратя и няма да го огрее. А съм и избил парите още като я взех по по предния ми проект. Ама си бачка. С вградено видео.

Има смисъл от много карти, да. Софтуерчетата за инференс много добре се оправят с мулти-карти. Даже AMD картите(не CUDA) се поддържат (определени модели) с ускорение.

Дай ми я на мене ! От София съм( оф дано не мрази софиянци..май беше от филибето)

#134851 (ツ) waldorf
Създадено на 11.02.2025 , видяно: 174 пъти.
Delegate

Дай ми я на мене ! От София съм( оф дано не мрази софиянци..май беше от филибето)

В Ню Стамбул е ... т.е. Брюксел ... сори

#134859 (ツ) |
Създадено на 11.02.2025 , видяно: 156 пъти.
waldorf

И при това положение се чудя какъв ли смисъл има от нвидия дигитс?! 3к

От Nvidia Digits определено има смисъл.

Първо, защото не е задължително да използваш най-големите модели. Не съм гледал цени, но се съмнявам, че може да намериш дискретна GPU карта с 128 GB памет за $3к.

Второ, защото може да използваш няколко (поне две) машини вързани заедно. Не знам дали ще позволят повече от две, но засега са обещали две.

И, накрая, все пак зависи за какво реално ще използваш ИИ. На никаква (една) машина няма да можеш да пускаш големите модели без да са quantized. Сигурен съм, че всички провайдъри използват някакъв вариант на FSDP за да пускат големите модели на много, сравнително слаби, машини.

#134869 (ツ) BIGBUGEX
Създадено на 12.02.2025 , видяно: 130 пъти.

Пичуи, какво ще кажете да си направим разпределена мрежа за изчисления от десктоп компютри за ИИ? С повечко памет, нещо като платформата BOINC. Всеки ако си вземе по един допълнителен 16 ядрен десктоп общата изчислителна мощ ще е доста добра. И там да се експериментира.

Освен това съм взел домейна system-poetry.eu. Можем да облечем финансовата част в, например "Системна Поезия АД". Като капитала ще отиде за компютрите и ще се наредим на хранилка по някоя европейска програма. И кода който напишем ще е капитал. По някое време може да се листнем на фондовата борса, апропо.

Освен това имам разни идеи. Примерно модела Transformers да се тества на принципа на булева алгебра базиран директно на двоична логика.

#134889 (ツ) waldorf
Създадено на 12.02.2025 , видяно: 109 пъти.
BIGBUGEX

Пичуи, какво ще кажете да си направим разпределена мрежа за изчисления от десктоп компютри за ИИ? С повечко памет, нещо като платформата BOINC. Всеки ако си вземе по един допълнителен 16 ядрен десктоп общата изчислителна мощ ще е доста добра. И там да се експериментира.

Освен това съм взел домейна system-poetry.eu. Можем да облечем финансовата част в, например "Системна Поезия АД". Като капитала ще отиде за компютрите и ще се наредим на хранилка по някоя европейска програма. И кода който напишем ще е капитал. По някое време може да се листнем на фондовата борса, апропо.

Освен това имам разни идеи. Примерно модела Transformers да се тества на принципа на булева алгебра базиран директно на двоична логика.

Ако оставим на страна бизнес частта, от техническа гледна точка какво ще трябва за такава разпределена система? Много ядра, много памет, много ГПУ е ясно. По скоро ми е интересно каква скорост на връзката ще има, че да си заслужава и да не се окаже, че повече време се губи в претакане и синхронизиране на данните по мрежата отколкото за самите сметки. Моделите подлежат ли на клъстериране където на слаби машини да се правят само част от сметките и после да се съшива всичко на едно място? Щото ако е така големите батковци няма да хвърлят милярди на нвидия за ГПУ-та а ще си преизползват дейта центровете в които инвестираха до оня ден и сега се чудят какво да ги правят.

#134946 (ツ) BIGBUGEX
Създадено на 12.02.2025 , видяно: 91 пъти.
waldorf

Ако оставим на страна бизнес частта, от техническа гледна точка какво ще трябва за такава разпределена система? Много ядра, много памет, много ГПУ е ясно. По скоро ми е интересно каква скорост на връзката ще има, че да си заслужава и да не се окаже, че повече време се губи в претакане и синхронизиране на данните по мрежата отколкото за самите сметки. Моделите подлежат ли на клъстериране където на слаби машини да се правят само част от сметките и после да се съшива всичко на едно място? Щото ако е така големите батковци няма да хвърлят милярди на нвидия за ГПУ-та а ще си преизползват дейта центровете в които инвестираха до оня ден и сега се чудят какво да ги правят.

Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

#134948 (ツ) Rabin
Създадено на 12.02.2025 , видяно: 78 пъти.
BIGBUGEX

Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

Нали на 7 МакМини-та, пуснаха големия ДеепСеек?

#134949 (ツ) |
Създадено на 12.02.2025 , видяно: 75 пъти.
BIGBUGEX

Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

Не мисля, че става с разпределена система, свързана през Интернет. За обучение почти всички тези дни използват някакъв вид sharding (споменах FSDP, но има и други предполагам), но са свързани с бърза мрежа, поне 100 гигабита/сек, но най-често 400 гигабита/сек.

Ето ти статията от Мета за FSDP:

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

DeepSeek също използват sharding и твърдят че при тяхната (бърза) мрежа сметките и комуникацията напълно се припокриват. Ето и тяхната статия:

DeepSeek-V3 Technical Report

Та, няма да стане каквото искаш. :)

0 1 2 3 4 ...6 7 8 9 10 ...15 16 17 18 19 ...22 23 24 25 26 27 28 29 30 31

Лаптоп за Deep Learning и Large Language модели
0

AsmBB v3.0 (check-in: 7544654b24928b93); SQLite v3.47.0 (check-in: 03a9703e27c44437);
©2016..2024 John Found; Licensed under EUPL. Powered by Assembly language Created with Fresh IDE