bgdev-free: "Лаптоп за Deep Learning и Large Language модели", page: 17

Създадено на 11.02.2025 , видяно: 831 пъти.

waldorf
Моя линукс е слабичък за ИИ ... като го купувах избързах и вместо яка машина за ИИ какъвто ми беше плана се прибрах в нас с геймърска. Човек си плаща за грешките. 2к евра (с ДДС ама си го дръпнах та реално е 1600) за 16 ядрен 7950Х и 128 гиги рамец. Сигурно ще успее да изтъркаля 70В модела ама дотам. Чудя се дали да дам още 3К за 5090 ... или направо да скачам на двупроцесрна работна станция със 768 гиги рам на която да може да се търкаля големия модел. Горе долу цената и беше колкото на Гената на новия лапатоп - 6к евра.

Да беше погледнал линка, който сам пусна, и който е 3 мнения нагоре, под носа ти.

Ясно е, че си геймър некадърник.

#134832

Delegate

Създадено на 11.02.2025 , видяно: 826 пъти.

@Ranim

Едит: видях едита. Ще го изгледам пак и евентуално ще пиша. Ако черпиш по бира мога още много неща (и код) да споделя, особено за обучването на модели

@waldorf

Видеокартите наистина са бързи, но трябва да можеш да зредиш модела във VRAM-а им, което за големи модели е доста скъпо удоволствие. RTX 5090 има 32 GB VRAМ, което те ограничава до 30Б/27B моделите, които реално не са интересни и можеш да ги рънваш и в оперативната памет с по-ниска скорост.

#134833

waldorf

Създадено на 11.02.2025 , видяно: 818 пъти.

Rabin
Да беше погледнал линка, който сам пусна, и който е 3 мнения нагоре, под носа ти.

оф, че си смотан ... тоя линк излезе сега, машината я купих преди две години. И все няма време за ИИ, щот и аз не знам щот ... одъртях вече и все повече си гледам рахатлъка вместо да ръчкам занаята.

#134834

waldorf

Създадено на 11.02.2025 , видяно: 808 пъти.

Delegate
Видеокартите наистина са бързи, но трябва да можеш да зредиш модела във VRAM-а им, което за големи модели е доста скъпо удоволствие. RTX 5090 има 32 GB VRAМ, което те ограничава до 30Б/27B моделите, които реално не са интересни и можеш да ги рънваш и в оперативната памет с по-ниска скорост.

Точно затова се колебая между:

1) 5090 на тази машина за 3к

2) Нова машина със 768 гиги рам за 6к

3) Нов макбук про натопорчен на мах - той излиза май към 7к

Всяко си има предимства а да ги взема и трите са излишни пари. Не, че не мога да хвърля 15к евро - надявам се, че ще се избият бързо ако превключа в посока ИИ до пенсия. Особено емебедед ИИ - да търкалям на някой джетсън модели, че да си говориш в къщи с крушките на тавана.

#134835

Rabin

Създадено на 11.02.2025 , видяно: 802 пъти.

Delegate
@Ranim
Едит: видях едита. Ще го изгледам пак и евентуално ще пиша. Ако черпиш по бира мога още много неща (и код) да споделя, особено за обучването на модели

Черпя бе човек, дай крипто портфейл, не ми свиди! Ако усетя, че не си като останалите инокуланти - ще черпя и на живо. Правило номер едно е да не знаа лявата ръка, ко праи дясната. В Писанието е писано.

Урсулопитек слоновъд
оф, че си смотан ... тоя линк излезе сега, машината я купих преди две години. И все няма време за ИИ, щот и аз не знам щот ... одъртях вече и все повече си гледам рахатлъка вместо да ръчкам занаята.

То ти личи от снимките.

#134836

Delegate

Последно редактирано на 11.02.2025 от Delegate, видяно: 796 пъти.

@валдорф Ако кажеш и тази машина със 768 гъби RAM с какви процесори идва, може картинката малко да се изясни. Все пак има и значение къде ще я разположиш и каква е. Ако е някой фучащ сървър, дето трябва да е в климатизирано помещение и вдига шум като излитащ самолет(особено при старт). Другите параметри вече ги каза - 128 GB РАМ и Ryzen 9 - 16C 7950X + RTX 5090 евентуално.

Всички тия работи ги разглеждаме в хипотезата, че ще се ползват и са инвестиция за ИИ( след 4 месеца може да и да са "obsolete")

#134840

waldorf

Създадено на 11.02.2025 , видяно: 776 пъти.

Те тази машина от този линк - https://bgdev-free.asm32.info/laptop-za-deep-learning-i-large-language-modeli.8441/10#133228

https://nitter.poast.org/carrigmat/status/1884244369907278106

Complete hardware + software setup for running Deepseek-R1 locally. The actual model, no distillations, and Q8 quantization for full quality. Total cost, $6,000. All download and part links below:
Motherboard: Gigabyte MZ73-LM0 or MZ73-LM1. We want 2 EPYC sockets to get a massive 24 channels of DDR5 RAM to max out that memory size and bandwidth.
CPU: 2x any AMD EPYC 9004 or 9005 CPU. LLM generation is bottlenecked by memory bandwidth, so you don't need a top-end one.
RAM: This is the big one. We are going to need 768GB (to fit the model) across 24 RAM channels (to get the bandwidth to run it fast enough). That means 24 x 32GB DDR5-RDIMM modules.
Since a lot of people are asking, the generation speed on this build is 6 to 8 tokens per second, depending on the specific CPU and RAM speed you get, or slightly less if you have a long chat history.

Това си е класическа работна станция наточена като хората за ИИ - само с процесори.

#134845

Delegate

Последно редактирано на 11.02.2025 от Delegate, видяно: 768 пъти.

Зависи колко големи модели ще рънваш и каква скорост те устройва за нуждите ти.

Ако ще си говориш с ламБите, няма да ги чакаш >5 минути да мъцнат, я. Най-бързия инференс ще получиш, ако ръгнеш 5090 при сегашния ти Райзън 9.

Най-голям модел ще можеш да ръннеш с работната станция. Епиците са яки кучета, но не могат да се мерят с паралелизма на видеокартите, които еволюират десетки години за това.

Мака е най-отдолу - хем не може да рънва супер големи модели, хем R9+5090 ще го бие на малките.

#134846

|

Създадено на 11.02.2025 , видяно: 765 пъти.

Колко добре работи fine-tuning на quantized (да кажем 4-bit) модели?

И, изобщо има ли смисъл да се пускат големите модели с толкова нисък quantization?

#134847

Delegate

Последно редактирано на 11.02.2025 от Delegate, видяно: 761 пъти.

Ами, това са два отделни въпроса. Ами, използват се адаптори и техники PEFT, като LoRa. Някои nVidia карти могат и без адаптори да обучаат директно 4 bit квантувани модели.

За второто - ами аз лично не мога да преценя колко и дали е деградирало качеството на аутпута. Трябват си май тестове, иначе е субективно и понеже е недетерминистично, веднъж добре, после се осира

Все пак си мисля, че добавената производителност(която може да се измери доста точно) е повече от загубената точност/качество на аутпута. Демек, има келепир, ако качеството не е с топ приоритет.

#134848

waldorf

Създадено на 11.02.2025 , видяно: 752 пъти.

Delegate
Най-бързия инференс ще получиш, ако ръгнеш 5090 при сегашния ти Райзън 9.
Най-голям модел ще можеш да ръннеш с работната станция. Епиците са яки кучета, но не могат да се мерят с паралелизма на видеокартите, които еволюират десетки години за това.
Мака е най-отдолу - хем не може да рънва супер големи модели, хем R9+5090 ще го бие на малките.

Те това ми трябваше.

1) Мака хем е най голяма инвестиция, хем най малко върши (въпреки, че паметта му е бърза, адски бърза ... ама макс 192 гиги ако не бъркам т.е. по добре да си взема един макбук еър колкото да го разнасям и да си компилирам на него - той и той е 2+к

2) Да бегам посока епик със много рамец ... няма лошо ... а ако му добавя нвидия? Има ли смисъл от няколко гпу-та на една и съща машина?

3) Сегашната ми машина е греда. Ще трябва да я разкарвам ... или да си я ползвам за кодене/пуцане ... бих я бях харизал на Рабиняка ама като го е страх да си даде адреса, имената и ЕГН-то няма как да му я пратя и няма да го огрее. А съм и избил парите още като я взех по по предния ми проект. Ама си бачка. С вградено видео.

#134849

waldorf

Създадено на 11.02.2025 , видяно: 748 пъти.

И при това положение се чудя какъв ли смисъл има от нвидия дигитс?! 3к

#134850

Delegate

Създадено на 11.02.2025 , видяно: 747 пъти.

waldorf
2) Да бегам посока епик със много рамец ... няма лошо ... а ако му добавя нвидия? Има ли смисъл от няколко гпу-та на една и съща машина?
3) Сегашната ми машина е греда. Ще трябва да я разкарвам ... или да си я ползвам за кодене/пуцане ... бих я бях харизал на Рабиняка ама като го е страх да си даде адреса, имената и ЕГН-то няма как да му я пратя и няма да го огрее. А съм и избил парите още като я взех по по предния ми проект. Ама си бачка. С вградено видео.

Има смисъл от много карти, да. Софтуерчетата за инференс много добре се оправят с мулти-карти. Даже AMD картите(не CUDA) се поддържат (определени модели) с ускорение.

Дай ми я на мене ! От София съм( оф дано не мрази софиянци..май беше от филибето)

#134851

waldorf

Създадено на 11.02.2025 , видяно: 743 пъти.

Delegate
Дай ми я на мене ! От София съм( оф дано не мрази софиянци..май беше от филибето)

В Ню Стамбул е ... т.е. Брюксел ... сори

#134859

|

Създадено на 11.02.2025 , видяно: 725 пъти.

waldorf
И при това положение се чудя какъв ли смисъл има от нвидия дигитс?! 3к

От Nvidia Digits определено има смисъл.

Първо, защото не е задължително да използваш най-големите модели. Не съм гледал цени, но се съмнявам, че може да намериш дискретна GPU карта с 128 GB памет за $3к.

Второ, защото може да използваш няколко (поне две) машини вързани заедно. Не знам дали ще позволят повече от две, но засега са обещали две.

И, накрая, все пак зависи за какво реално ще използваш ИИ. На никаква (една) машина няма да можеш да пускаш големите модели без да са quantized. Сигурен съм, че всички провайдъри използват някакъв вариант на FSDP за да пускат големите модели на много, сравнително слаби, машини.

#134869

BIGBUGEX

Създадено на 12.02.2025 , видяно: 699 пъти.

Пичуи, какво ще кажете да си направим разпределена мрежа за изчисления от десктоп компютри за ИИ? С повечко памет, нещо като платформата BOINC. Всеки ако си вземе по един допълнителен 16 ядрен десктоп общата изчислителна мощ ще е доста добра. И там да се експериментира.

Освен това съм взел домейна system-poetry.eu. Можем да облечем финансовата част в, например "Системна Поезия АД". Като капитала ще отиде за компютрите и ще се наредим на хранилка по някоя европейска програма. И кода който напишем ще е капитал. По някое време може да се листнем на фондовата борса, апропо.

Освен това имам разни идеи. Примерно модела Transformers да се тества на принципа на булева алгебра базиран директно на двоична логика.

#134889

waldorf

Създадено на 12.02.2025 , видяно: 678 пъти.

BIGBUGEX
Пичуи, какво ще кажете да си направим разпределена мрежа за изчисления от десктоп компютри за ИИ? С повечко памет, нещо като платформата BOINC. Всеки ако си вземе по един допълнителен 16 ядрен десктоп общата изчислителна мощ ще е доста добра. И там да се експериментира.
Освен това съм взел домейна system-poetry.eu. Можем да облечем финансовата част в, например "Системна Поезия АД". Като капитала ще отиде за компютрите и ще се наредим на хранилка по някоя европейска програма. И кода който напишем ще е капитал. По някое време може да се листнем на фондовата борса, апропо.
Освен това имам разни идеи. Примерно модела Transformers да се тества на принципа на булева алгебра базиран директно на двоична логика.

Ако оставим на страна бизнес частта, от техническа гледна точка какво ще трябва за такава разпределена система? Много ядра, много памет, много ГПУ е ясно. По скоро ми е интересно каква скорост на връзката ще има, че да си заслужава и да не се окаже, че повече време се губи в претакане и синхронизиране на данните по мрежата отколкото за самите сметки. Моделите подлежат ли на клъстериране където на слаби машини да се правят само част от сметките и после да се съшива всичко на едно място? Щото ако е така големите батковци няма да хвърлят милярди на нвидия за ГПУ-та а ще си преизползват дейта центровете в които инвестираха до оня ден и сега се чудят какво да ги правят.

#134946

BIGBUGEX

Създадено на 12.02.2025 , видяно: 660 пъти.

waldorf
Ако оставим на страна бизнес частта, от техническа гледна точка какво ще трябва за такава разпределена система? Много ядра, много памет, много ГПУ е ясно. По скоро ми е интересно каква скорост на връзката ще има, че да си заслужава и да не се окаже, че повече време се губи в претакане и синхронизиране на данните по мрежата отколкото за самите сметки. Моделите подлежат ли на клъстериране където на слаби машини да се правят само част от сметките и после да се съшива всичко на едно място? Щото ако е така големите батковци няма да хвърлят милярди на нвидия за ГПУ-та а ще си преизползват дейта центровете в които инвестираха до оня ден и сега се чудят какво да ги правят.

Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

#134948

Rabin

Създадено на 12.02.2025 , видяно: 647 пъти.

BIGBUGEX
Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

Нали на 7 МакМини-та, пуснаха големия ДеепСеек?

#134949

|

Създадено на 12.02.2025 , видяно: 644 пъти.

BIGBUGEX
Предполагам само, но при достатъчно бърз ссд интерфейс може да се използва много малко памет. Разпределена система е удобна повече за обучение. Delegate да каже дали ще стане с десктоп компютри ако се пипне софтуера. По принцип го пуснах това предложение да предизвика дискусия и да цъфнат проблемите на този подход. Но за да се избегнат фучащите сървъри трябва да се пипне софтуера.

Не мисля, че става с разпределена система, свързана през Интернет. За обучение почти всички тези дни използват някакъв вид sharding (споменах FSDP, но има и други предполагам), но са свързани с бърза мрежа, поне 100 гигабита/сек, но най-често 400 гигабита/сек.

Ето ти статията от Мета за FSDP:

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

DeepSeek също използват sharding и твърдят че при тяхната (бърза) мрежа сметките и комуникацията напълно се припокриват. Ето и тяхната статия:

DeepSeek-V3 Technical Report

Та, няма да стане каквото искаш. :)

<bgdev />^free

Лаптоп за Deep Learning и Large Language модели
0

Лаптоп за Deep Learning и Large Language модели
0

Лаптоп за Deep Learning и Large Language модели 0

Лаптоп за Deep Learning и Large Language модели 0

Лаптоп за Deep Learning и Large Language модели
0

Лаптоп за Deep Learning и Large Language модели
0