რას ნიშნავს Nvidia-ს ახალი Text-to-3D ინჟინერიისა და პროდუქტის დიზაინისთვის

ტლ: გენერაციული AI ვითარდება ამაღელვებელი ტემპით. Nvidia-ს უახლესი ალგორითმი აკონვერტებს ტექსტს 3D ქსელში ორჯერ უფრო სწრაფად, ვიდრე ძლივს 2 თვის წინ გამოქვეყნებული პროექტები. ეს ნიშნავს, რომ ტექნიკური შესაძლებლობები ახლა უკვე აღემატება მათთან მუშაობის უნარს.

გასულ კვირას ქაღალდი Nvidia-ს მეცნიერებმა აჩვენეს ექსპონენციალური სიჩქარე, რომლითაც ვითარდება გენერაციული AI სივრცე. აქტივობის ეს აფეთქება - განსაკუთრებით შესამჩნევი ბოლო 9 თვის განმავლობაში - გავლენას მოახდენს ცხოვრების ყველა ნაწილზე, განსაკუთრებით პროდუქტის დიზაინზე, ინჟინერიასა და წარმოებაზე. ცვლილებები ხელს შეუშლის ინდუსტრიას სტრუქტურული შეზღუდვებისგან იდეების კომუნიკაციის გზაზე, გააძლიერებს ინოვაციების უფრო სწრაფ ციკლებს და საბოლოოდ საშუალებას მისცემს მას შეასრულოს მდგრადობის დაპირებები.

ქსელების მაგალითი Nvidia Research-ის Magic 3D ალგორითმებიდან, მათ გენერირებისთვის გამოყენებული მოთხოვნით.

Nvidia ღრმა წარმოსახვის კვლევა

წლების განმავლობაში ამბობდნენ, რომ ხელოვნური ინტელექტი ფუნდამენტურად რევოლუციას მოახდენდა ჩვენს მუშაობაში, ცოტანი ელოდნენ, რომ შემოქმედებითი სექტორი მის პირველ მსხვერპლთა შორის იქნებოდა. 3 წელს GPT-2020-ის ადამიანის მსგავსი ტექსტის გენერატორის გამოჩენამ შესაძლებლობები უფრო მკვეთრ ფოკუსირებაში მოახდინა. მას შემდეგ ეს ველური გასეირნება იყო: DALL-E (ტექსტი სურათზე), Whisper (მეტყველების ამოცნობა) და ბოლო დროს სტაბილური დიფუზია (ტექსტი-სურათზე) არა მხოლოდ გაზარდა მეტყველების და ვიზუალური AI ინსტრუმენტების შესაძლებლობები, არამედ შეამცირა მათ გამოსაყენებლად საჭირო რესურსები (175 მილიარდი პარამეტრიდან GPT-3-დან 900 მილიონამდე სტაბილური დიფუზიისთვის).

სტაბილური დიფუზიის ზომა ნიშნავს 5 გბ-ზე ნაკლებ ადგილს დისკზე - ნებისმიერ ლეპტოპზე გაშვებას. არა მხოლოდ ეს; OpenAI-სგან განსხვავებით (რომელიც ძირითადად ფინანსდება Microsoft-ის მიერ და აქვეყნებს GPT-3, DALL-E და Whisper-ს), Stable Diffusion არის ღია წყარო, რაც იმას ნიშნავს, რომ სხვებს შეუძლიათ უფრო ადვილად დაეყრდნონ მის ცოდნას. ეს ნიშნავს, რომ ჩვენ მხოლოდ ინოვაციური ციკლის დასაწყისს ვხედავთ – წინ კიდევ ბევრია, როგორც ახლა გვიჩვენებს Nvidia-ს ნაშრომში.

Stable Diffusion-ის მხარდამჭერები (stability.ai) კიდევ უფრო აძლიერებენ ამ ტენდენციას ტექნოლოგიური და ფინანსური გრანტების გაცემით სხვა გუნდებისთვის, რომლებიც ახორციელებენ კვლევას ახალ მიმართულებებში. გარდა ამისა, უამრავი პროექტი ხდის ხელსაწყოებს ხელმისაწვდომი მომხმარებლების უფრო ფართო სპექტრისთვის. მათ შორისაა ბლენდერის დანამატები, ღია კოდის დიზაინის ხელსაწყო და Adobe-ის საკუთრებაში არსებული Photoshop ექვივალენტი. ინსტრუმენტებზე სრული API წვდომა ფინანსდება დიდი Venture Capital დოლარით, რაც იმას ნიშნავს, რომ ასობით მილიონი პროგრამული უზრუნველყოფის შემქმნელი და არა მხოლოდ რამდენიმე ასეული ათასი მონაცემთა ინჟინერი, ახლა შექმნიან საკუთარ ინსტრუმენტებს ამ ალგორითმებზე.

მეტყველება, სურათები და ტექსტი პირველ ვერტიკალებს შორისაა, რომლებიც ამ ტექნოლოგიებმა არღვევს. მაგრამ 3D არ ჩამორჩება. ნიშების გენერაციული ხელოვნების მიღმა, მულტფილმები გამოყენების აშკარა პირველი წერტილია. უკვე არსებობს პოკემონის გენერატორი, რომელიც დაფუძნებულია სტაბილურ დიფუზიაზე. შემდეგია ვიზუალური ეფექტები და ფილმები. მაგრამ ბევრი სხვა სექტორი, სავარაუდოდ, შეფერხდება - მათ შორის ინტერიერის დიზაინი, რომლის საფასურის ლიდერია Interiorai.com.

მთელი ამ აღფრთოვანებისას, დიზაინსა და ინჟინერიაში ინოვაციების გამოყენება შემდგომი აზრია. თუმცა, სავარაუდოდ, ეს იქნება ის ტერიტორია, რომელიც საბოლოოდ ყველაზე მნიშვნელოვან გავლენას მოახდენს. რა თქმა უნდა, არის საწყისი გამოწვევები: ერთი, Stable Diffusion და მისი თანამემამულეები ჯერ კიდევ არ არიან ძალიან ზუსტი. ეს არ არის პრობლემა მულტფილმებისთვის, მაგრამ ეს არის მთავარი გამოწვევა ნებისმიერი მცდელობისთვის, გარდაქმნას ტექსტი სრულ 3D გეომეტრიად, რომელიც გამოიყენება ინდუსტრიულ კონტექსტში. ეს ის სფეროა, რომელსაც გარკვეული ინტერესი ჰქონდა (პროექტი სახელწოდებით Bits101 დაიწყო ისრაელში 2015 წელს). ეს შეიძლება იყოს ინდუსტრიის წმინდა გრაალი, მაგრამ არსებობს მრავალი შუალედური გამოწვევა, რომელთა გადაჭრა უფრო ადვილია. მათ შორისაა გაუმჯობესებული ობიექტების ამოცნობა (Yolo ალგორითმი უკვე გამოიყენება დიდი ეფექტით), რაც გამოიწვევს ციტირებისა და ანოტაციის გაუმჯობესებას - ხარისხის გაუმჯობესებას და შეცდომების შემცირებას. დანამატებმა ასევე უნდა გააადვილონ Generative AI-ს გამოყენება ძირითადი დიზაინის (პრიმიტივების) შემუშავებისთვის, რომლებიც შემდგომ შეიძლება დამუშავდეს დიზაინის ინსტრუმენტებში ტოლერანტობის გასაუმჯობესებლად მოთხოვნის შესაბამისად. ეს არის მიდგომა უკვე გამოყენებული Altair's Inspire-ში, რომელიც გამოიყენა სასრული ელემენტების ანალიზს იგივე გასაკეთებლად. ეს Primitives ასევე შეიძლება იყოს ანოტირებული მოდელების სინთეზური მონაცემთა ბაზა, რომელთაგან ნაკლებობაა 3D CAD ინდუსტრიაში. Physna-ს აღმასრულებელი დირექტორი და დამფუძნებელი ეს მიუთითებს სტატიაში დეტალურად აღწერენ ამ ახალი მეთოდების გამოყენების მცდელობებს დეტალური 3D დიზაინის შესაქმნელად, რაც ასევე ხაზს უსვამს უამრავ ხარვეზს სინთეზური მონაცემების გამოყენებაში ამ ალგორითმების გამოსაყენებლად. ხელსაწყოების ტარების ბიბლიოთეკა საუკეთესო დამუშავების სტრატეგიების დასადგენად.

ეს გამოწვევები მნიშვნელოვანი და მომგებიანია საკუთარი თავის გადასაჭრელად. მიუხედავად ამისა, მათი მთავარი გავლენა იქნება დაეხმარონ იდეიდან დიზაინამდე გზის განვითარებას, საბოლოო ჯამში, 3D დიზაინზე დამოკიდებულების შემცირების გზით განზრახვის კომუნიკაციისთვის. დიზაინები, იქნება ეს 2D თუ 3D, იყო ძირითადი საშუალება მომხმარებელთა საჭიროებების საბოლოო პროდუქტებზე გადასატანად. ეს აფერხებს ინდუსტრიას, რადგან ეს დიზაინები ემსახურება როგორც შავ ყუთს, რომელშიც ინახება ყველა ის ღირებული მომხმარებელთა შეხედულებები, წარმოების შეზღუდვები და კომპანიის მიზნები, რომლებიც არ შეიძლება იყოს განლაგებული, მაგრამ მხოლოდ იდენტიფიცირებული. ეს ნიშნავს, რომ როდესაც რაღაც იცვლება, თითქმის შეუძლებელია უბრალოდ დიზაინის მორგება. ეს არის მიზეზი იმისა, რომ წარმოების ინოვაციებს, როგორიცაა 3D ბეჭდვა, დიდი დრო სჭირდება მოკლევადიანი ინვესტორების მიღებას და მუდმივად იმედგაცრუებას. კომპონენტები, რომლებიც ქმნიან თვითმფრინავს, „დაყენებულია“ მათი დაპროექტების მომენტიდან, მიუხედავად 20 წელზე მეტი პროდუქტიული ცხოვრებისა. თითქმის არ არსებობს ინოვაციების ფარგლები - ისინი უნდა დაელოდონ მომავალი თაობის გაშვებას.

ერთი შეზღუდვის შეცვლა და ისეთი ალგორითმის, როგორიცაა სტაბილური დიფუზია, დიზაინისა და წარმოების პარამეტრების აღდგენის შესაძლებლობა, მნიშვნელოვნად დააჩქარებს ახალი ინოვაციების მიღებას და საშუალებას მოგვცემს შევქმნათ უფრო მსუბუქი, უკეთესი პროდუქტის პროდუქტი, უფრო სწრაფად. როგორც ამას აკეთებენ ფორმულა 1-ში ან სისტემების დიზაინში, მომავალი ინჟინრები იმოქმედებენ როგორც შეზღუდვის მენეჯერები, რომლებსაც შეუძლიათ სიტყვებით და მონაცემთა წყაროების მითითებით გამოხატონ პროდუქტის მიზანი და შეზღუდვები.

ახალი და არსებული პროდუქტების საინჟინრო პროცესის ამ გზით დაჩქარების გარეშე, ჩვენ თითქმის არ გვაქვს საშუალება მივაღწიოთ მდგრადობის ამბიციურ მიზნებს, რომლებიც ჩვენ თვითონ უნდა დავსახოთ. ამისათვის ჯერ უნდა შევთანხმდეთ ენაზე, რომელიც შეგვიძლია გამოვიყენოთ დიზაინის მიღმა კომუნიკაციისთვის. ეს ახალი სემანტიკური მოდელი არის აშკარა უფსკრული ზემოთ ჩამოთვლილ ინოვაციებში. არაერთმა კომპანიამ უკვე დაიწყო მასზე ექსპერიმენტები, მაგ nტოპოლოგია ველების ცნებებით. და მაინც, ცვლილებების ტემპი ნელია, განსხვავებით ალგორითმებისგან, რომლებსაც სემანტიკური მოდელი გამოამუშავებს. Nvidia-ს ახალი ალგორითმი ორჯერ უფრო სწრაფია, ვიდრე DreamFusion, გამოქვეყნდა 2 თვეზე ნაკლები ხნის წინ. პროდუქტებისა და საინჟინრო კომპანიებმა უნდა იმუშაონ თავიანთი იდეების ახალი, მომავლისთვის დამადასტურებელი გზებით ახლა იმუშაონ, რათა მაქსიმალურად გამოიყენონ ის შესაძლებლობები, რაც გენერაციული AI-ის აფეთქებას შეიცავს. ალგორითმების ცვლილების სიჩქარემ კიდევ ერთხელ აჩვენა, რომ მორზეს კანონი მოქმედებს ყველგან, როცა ინსტრუმენტები ციფრულდება. გამოწვევად რჩება ჩვენი ადამიანური უუნარობა, აითვისოს ეს ცვლილება და გამოიყენოს ახალი საკომუნიკაციო მეთოდები, რომლებსაც შეუძლიათ მათი პოტენციალის გახსნა, მიუხედავად ამოცანის გადაუდებლობისა.

წყარო: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/