ლეგალური განკითხვის დღე გენერაციული AI ChatGPT-ისთვის, თუ პლაგიატად ან ხელყოფად დაიჭირეს, აფრთხილებს ხელოვნური ინტელექტის ეთიკას და AI კანონს

არის თუ არა გენერაციული AI, როგორიცაა ChatGPT, არღვევს ჩვენს ვებსაიტებს და ადამიანის მიერ შექმნილ კონტენტს? იცოდე, იყავი … [+] გაბრაზებული, მზად იყავი.

გთხოვ

მიეცით კრედიტი იქ, სადაც კრედიტი არის საჭირო.

ეს ცოტა ბრძნული სიბრძნეა, რომლის მტკიცედ რწმენისთვისაც თქვენ აღზრდილი ხართ. მართლაც, შეიძლება ვივარაუდოთ ან წარმოვიდგინოთ, რომ შეიძლება ყველა გარკვეულწილად გონივრულად დავეთანხმოთ, რომ ეს არის სამართლიანი და გონივრული წესი ცხოვრებაში. როდესაც ვინმე აკეთებს ისეთ რამეს, რაც აღიარებას იმსახურებს, დარწმუნდით, რომ ის მიიღებს დამსახურებულ აღიარებას.

საპირისპირო თვალსაზრისი გაცილებით ნაკლებად დამაჯერებელი ჩანდა.

თუ ვინმე დადიოდა გარშემო დაჟინებით რომ კრედიტი უნდა არ აღიარებული უნდა იყოს, როდესაც კრედიტი სრულდება, კარგად, თქვენ შეიძლება ამტკიცებდეთ, რომ ასეთი რწმენა არის არაკეთილსინდისიერი და, შესაძლოა, გაუგებარი. ჩვენ ხშირად ვგრძნობთ თავს ხმამაღლა შეწუხებულები, როდესაც კრედიტს ატყუებენ ვინმეს, რომელმაც რაღაც მნიშვნელოვანი მიაღწია. მე გაბედავ ვთქვა, რომ ჩვენ განსაკუთრებით ვეწინააღმდეგებით, როდესაც სხვები ყალბად იღებენ დამსახურებას სხვისი შრომისთვის. ეს არის შემაშფოთებელი ორმაგი შეურაცხყოფა. ადამიანს, რომელსაც უნდა მიეღო კრედიტი, უარყოფს თავის მომენტს მზეზე. გარდა ამისა, მატყუარა ტკბება ყურადღების ცენტრში, თუმცა ისინი არასწორად გვატყუებენ, რომ არასწორად მივითვისოთ ჩვენი ხელსაყრელი გრძნობები.

რატომ არის მთელი ეს დისკურსი ყველაზე სწორი გზებით კრედიტის მოპოვებისა და არასწორი და საზიზღარი გზების თავიდან აცილების შესახებ?

იმის გამო, რომ ჩვენ, როგორც ჩანს, მსგავსი გაჭირვების წინაშე ვდგავართ, როდესაც საქმე ხელოვნური ინტელექტის (AI) უახლესს ეხება.

დიახ, პრეტენზიები ისაა, რომ ეს ხდება დემონსტრირებულად ისეთი ტიპის AI-ს მეშვეობით, რომელიც ცნობილია როგორც გენერაციული AI. არსებობს ბევრი მოსაზრება, რომ Generative AI, ყველაზე ცხელი AI ამ დღეებში ახალი ამბების შესახებ, უკვე აიღო დამსახურება იმისა, რისი აღებაც არ იმსახურებს. და ეს სავარაუდოდ გაუარესდება, რადგან გენერაციული AI სულ უფრო ფართოვდება და გამოიყენება. უფრო და უფრო მეტი კრედიტი ემყარება გენერაციულ AI-ს, ხოლო, სამწუხაროდ, ისინი, ვინც უხვად იმსახურებენ ნამდვილ კრედიტს, მტვერში რჩებიან.

ჩემი შემოთავაზებული გზა ამ სავარაუდო ფენომენის მკაფიოდ აღსანიშნავად არის ორი სასაცილო ფრაზები:

1) პლაგიატი მასშტაბით
2) საავტორო უფლებების დარღვევა მასშტაბით

მე ვფიქრობ, რომ თქვენ შეიძლება იცოდეთ გენერაციული AI ფართოდ პოპულარული AI აპლიკაციის გამო, რომელიც ცნობილია როგორც ChatGPT, რომელიც გამოვიდა ნოემბერში OpenAI-ს მიერ. მე უფრო მეტს ვიტყვი გენერაციულ AI-სა და ChatGPT-ზე მომენტალურად. დაკიდება იქ.

მოდი, მაშინვე გადავიდეთ იმ არსებამდე, რაც ხალხის თხებს ართმევს, თითქოსდა.

ზოგი გულმოდგინედ ჩივის, რომ გენერაციული AI პოტენციურად ანადგურებს ადამიანებს, რომლებმაც შექმნეს შინაარსი. თქვენ ხედავთ, რომ გენერაციული AI აპლიკაციების უმეტესობა არის მონაცემები, რომლებიც მომზადებულია ინტერნეტში ნაპოვნი მონაცემების შემოწმებით. ამ მონაცემებზე დაყრდნობით, ალგორითმებს შეუძლიათ გააუმჯობესონ შაბლონების შესატყვისი შიდა ქსელი ხელოვნური ინტელექტის აპლიკაციის შიგნით, რომელსაც შეუძლია შემდგომში ერთი შეხედვით ახალი შინაარსის შექმნა, რომელიც საოცრად გამოიყურება, თითქოს ადამიანის ხელით არის შექმნილი და არა ავტომატიზაციის ნაწილი.

ეს შესანიშნავი მიღწევა დიდწილად განპირობებულია ინტერნეტში დასკანირებული შინაარსის გამოყენებით. ინტერნეტის კონტენტის მოცულობისა და სიმდიდრის გარეშე, როგორც მონაცემთა ტრენინგის წყაროს, გენერაციული AI თითქმის ცარიელი იქნებოდა და მისი გამოყენება ნაკლებად ან საერთოდ არ იქნებოდა საინტერესო. ხელოვნური ინტელექტის მიერ მილიონობით მილიონი ონლაინ დოკუმენტისა და ტექსტის შესწავლით, ყველა სახის ასოცირებულ შინაარსთან ერთად, ნიმუშის შესატყვისი თანდათანობით წარმოიქმნება ადამიანის მიერ წარმოებული შინაარსის მიბაძვის მიზნით.

რაც უფრო მეტი შინაარსი განიხილება, შანსები არის, რომ შაბლონის შესატყვისი უფრო დახვეწილი იქნება და კიდევ უფრო უკეთესი გახდება მიმიკაში, დანარჩენი ყველაფერი თანაბარია.

მაშ, აქ არის ილიონდოლარიანი შეკითხვა:

დიდი კითხვა: თუ თქვენ ან სხვებს გაქვთ კონტენტი ინტერნეტში, რომელზედაც გაწვრთნილი იყო ზოგიერთი გენერაციული ხელოვნური ინტელექტის აპი, ამას აკეთებთ, სავარაუდოდ, თქვენი პირდაპირი ნებართვის გარეშე და შესაძლოა სრულიად თქვენი ინფორმირებულობის გარეშე, უნდა გქონდეთ თუ არა უფლება მიიღოთ ღვეზელის ნაჭერი იმის შესახებ, თუ რა ღირებულებიდან გამომდინარეობს. რომ გენერაციული AI მონაცემების ტრენინგი?

ზოგი მკაცრად ამტკიცებს, რომ ერთადერთი სწორი პასუხი არის დიახ, განსაკუთრებით ის, რომ ადამიანური შინაარსის შემქმნელები ნამდვილად იმსახურებენ მოქმედების შემცირებას. საქმე იმაშია, რომ გაგიჭირდებათ ვინმეს პოვნა, ვინც მიიღო თავისი სამართლიანი წილი, და კიდევ უფრო უარესი, თითქმის არავის არ მიუღია რაიმე წილი. ინტერნეტ შინაარსის შემქმნელებს, რომლებიც უნებლიედ და გაუცნობიერებლად წვლილი შეიტანეს, არსებითად უარს ეუბნებიან მათ კანონიერ კრედიტს.

ეს შეიძლება შეფასდეს, როგორც სასტიკი და აღმაშფოთებელი. ჩვენ უბრალოდ გავიარეთ ბრძენი სიბრძნის ამოხსნა, რომ კრედიტი უნდა მიენიჭოს იქ, სადაც კრედიტი არის საჭირო. გენერაციული AI-ს შემთხვევაში, როგორც ჩანს, ასე არ არის. კრედიტის შესახებ დიდი ხნის და სათნო წესი, როგორც ჩანს, თავხედურად ირღვევა.

უი, რეპლიკა მიდის, თქვენ სრულიად აჭარბებთ და აკონკრეტებთ სიტუაციას. რა თქმა უნდა, გენერაციულმა AI-მ შეისწავლა შინაარსი ინტერნეტში. რა თქმა უნდა, ეს უხვად იყო გამოსადეგი, როგორც გენერაციული AI-ის მონაცემთა ტრენინგის ნაწილი. მართალია, შთამბეჭდავი გენერაციული AI აპლიკაციები დღეს არ იქნებოდა ისეთი შთამბეჭდავი ამ განხილული მიდგომის გარეშე. მაგრამ თქვენ ძალიან შორს წახვედით, როდესაც ამბობთ, რომ კონტენტის შემქმნელებს უნდა მიეცეს რაიმე განსაკუთრებული კრედიტი.

ლოგიკა ასეთია. ადამიანები მიდიან ინტერნეტში და სწავლობენ ინტერნეტიდან რაღაცეებს, ამას აკეთებენ რუტინულად და თავისთავად ყოველგვარი აურზაურის გარეშე. ადამიანი, რომელიც კითხულობს ბლოგებს სანტექნიკის შესახებ და შემდეგ უყურებს თავისუფლად ხელმისაწვდომ ვიდეოებს სანტექნიკის შეკეთების შესახებ, შეიძლება მეორე დღეს წავიდეს და იმუშავოს სანტექნიკოსად. უნდა გადასცენ მათ სანტექნიკასთან დაკავშირებული ფულადი გზავნილების ნაწილი ბლოგერს, რომელმაც დაწერა ნიჟარის გაყვანის შესახებ? უნდა გადასცენ საკომისიო ვლოგერს, რომელმაც გადაიღო ვიდეო, სადაც ნაჩვენებია გაჟონვითი აბაზანის გამოსწორების ნაბიჯები?

თითქმის რა თქმა უნდა არა.

გენერაციული AI-ს მონაცემთა სწავლება მხოლოდ შაბლონების შემუშავების საშუალებაა. სანამ გენერაციული ხელოვნური ინტელექტის შედეგები არ არის მხოლოდ გამოკვლეულის რეგურგიტაცია, შეგიძლიათ დამაჯერებლად ამტკიცებდეთ, რომ მათ „ისწავლეს“ და, შესაბამისად, არ ექვემდებარებიან რაიმე კონკრეტული კრედიტის მინიჭებას რომელიმე კონკრეტული წყაროსთვის. თუ თქვენ არ შეძლებთ გენერაციული AI-ს დაჭერას ზუსტი რეგურგიტაციის შესრულებისას, ჩვენება მიუთითებს იმაზე, რომ AI განზოგადებულია რაიმე კონკრეტული წყაროს მიღმა.

კრედიტი არავის ეკისრება. ან, ერთი ვარაუდით, შეიძლება ითქვას, რომ კრედიტი ყველას ეკუთვნის. კოლექტიური ტექსტი და კაცობრიობის სხვა შინაარსი, რომელიც ინტერნეტშია, დამსახურებაა. ჩვენ ყველა ვიღებთ კრედიტს. მცდელობა კონკრეტული წყაროს კრედიტის მითითება უაზროა. გაიხარეთ, რომ ხელოვნური ინტელექტი ვითარდება და რომ კაცობრიობამ ისარგებლებს. ამ პოსტებმა ინტერნეტში უნდა იგრძნოს პატივი, რომ მათ წვლილი შეიტანეს ხელოვნური ინტელექტის განვითარებაში და როგორ დაეხმარება ეს კაცობრიობას მარადიულად.

მე უფრო მეტს ვიტყვი ორივე კონტრასტული შეხედულების შესახებ.

იმავდროულად, იხრებით თუ არა იმ ბანაკისკენ, რომელიც ამბობს, რომ კრედიტი არის გადახდილი და დაგვიანებით მათთვის, ვისაც აქვს ვებსაიტები ინტერნეტში, თუ ხედავთ, რომ მოწინააღმდეგე მხარე, რომელიც ამბობს, რომ ინტერნეტ კონტენტის შემქმნელები გადაწყვეტილია არ მოწყვეტა უფრო დამაჯერებელი პოზაა?

იდუმალი და გამოცანა ყველა ერთად ჩახლართული.

მოდით გავხსნათ ეს.

დღევანდელ სვეტში მე მივმართავ ამ გამოხატულ შეშფოთებას იმის გამო, რომ გენერაციული AI არსებითად არის პლაგიატი ან შესაძლოა არღვევს ინტერნეტში გამოქვეყნებული კონტენტის საავტორო უფლებებს (განიხილება ინტელექტუალური საკუთრების უფლება ან IP საკითხი). ჩვენ განვიხილავთ ამ უსიამოვნებების საფუძველს. ამ დისკუსიის დროს პერიოდულად მოვიხსენიებ ChatGPT-ს, რადგან ეს არის გენერაციული AI 600 ფუნტიანი გორილა, თუმცა გახსოვდეთ, რომ არსებობს უამრავი სხვა გენერაციული AI აპი და ისინი, როგორც წესი, ეფუძნება იმავე საერთო პრინციპებს.

იმავდროულად, შეიძლება გაინტერესებთ, რა არის სინამდვილეში გენერაციული AI.

მოდით ჯერ გავაშუქოთ გენერაციული ხელოვნური ინტელექტის საფუძვლები და შემდეგ შეგვიძლია ყურადღებით დავაკვირდეთ აქტუალურ საკითხს.

ამ ყველაფერში შედის ხელოვნური ინტელექტის ეთიკისა და AI კანონის მოსაზრებები.

გთხოვთ გაითვალისწინოთ, რომ მიმდინარეობს მცდელობები ხელოვნური ხელოვნური ინტელექტის ეთიკური პრინციპების დანერგვის მიზნით ხელოვნური ინტელექტის აპლიკაციების შემუშავებასა და დანერგვაში. მზარდი კონტინგენტი AI-ის ეთიკოსთა მზარდი კონტინგენტი ცდილობს უზრუნველყოს, რომ ხელოვნური ინტელექტის შემუშავებისა და მიღების მცდელობები ითვალისწინებდეს კეთების ხედვას. AI კარგით და თავიდან აცილება AI ცუდად. ანალოგიურად, შემოთავაზებულია ხელოვნური ინტელექტის შესახებ ახალი კანონები, რომლებიც შემოიფარგლება, როგორც პოტენციური გადაწყვეტილებები, რათა აირიდონ ხელოვნური ინტელექტის მცდელობები ადამიანის უფლებებისა და მსგავსების შესახებ. ხელოვნური ინტელექტის ეთიკისა და ხელოვნური ინტელექტის სამართლის შესახებ ჩემი მიმდინარე და ვრცელი გაშუქებისთვის იხ ბმული აქ მდე ბმული აქ, უბრალოდ ასახელებს რამდენიმე.

ეთიკური ხელოვნური ინტელექტის პრინციპების შემუშავება და გავრცელება მიმდინარეობს იმისთვის, რომ ვიმედოვნებთ, რომ საზოგადოება არ მოხვდება ხელოვნური ინტელექტის გამომწვევი უამრავ ხაფანგში. UNESCO-ს ძალისხმევით 200-მდე ქვეყნის მიერ შემუშავებული და მხარდაჭერილი გაეროს ხელოვნური ინტელექტის ეთიკის პრინციპების შესახებ ჩემი გაშუქებისთვის იხ. ბმული აქ. ანალოგიურად, ხელოვნური ინტელექტის ახალი კანონები შეისწავლება, რათა სცადოთ ხელოვნური ინტელექტის თანაბრად შენარჩუნება. ერთ-ერთი უახლესი მიღება შედგება შემოთავაზებული კომპლექტისაგან AI უფლებების ბილი რომელიც აშშ-ს თეთრმა სახლმა ახლახან გამოაქვეყნა ადამიანის უფლებების იდენტიფიცირებისთვის ხელოვნური ინტელექტის ეპოქაში, იხ ბმული აქ. სოფელს სჭირდება ხელოვნური ინტელექტისა და ხელოვნური ინტელექტის დეველოპერების სწორ გზაზე დარჩენა და მიზანმიმართული ან შემთხვევითი შეუმჩნეველი მცდელობების შეკავება, რამაც შესაძლოა საზოგადოებას გაანადგუროს.

ამ დისკუსიაში მე შევაერთებ ხელოვნური ინტელექტის ეთიკასა და ხელოვნური ინტელექტის კანონთან დაკავშირებულ მოსაზრებებს.

გენერაციული AI საფუძვლები

გენერაციული AI-ს ყველაზე ფართოდ ცნობილი მაგალითი წარმოდგენილია AI აპლიკაციით, სახელად ChatGPT. ChatGPT საზოგადოების ცნობიერებაში ჯერ კიდევ ნოემბერში გამოჩნდა, როდესაც ის გამოუშვა AI კვლევითმა ფირმა OpenAI-მ. მას შემდეგ, რაც ChatGPT-მა მოიპოვა დიდი სათაურები და გასაოცრად გადააჭარბა დიდების გამოყოფილ თხუთმეტ წუთს.

ვფიქრობ, თქვენ ალბათ გსმენიათ ChatGPT-ის შესახებ ან იქნებ იცნობთ ვინმეს, ვინც გამოიყენა იგი.

ChatGPT ითვლება გენერაციულ AI აპლიკაციად, რადგან ის იღებს როგორც შეყვანილ ტექსტს მომხმარებლისგან და შემდეგ წარმოშობს ან აწარმოებს გამოსავალს, რომელიც შედგება ესესგან. AI არის ტექსტის ტექსტის გენერატორი, თუმცა მე აღვწერ AI-ს, როგორც ტექსტის ესეების გენერატორს, რადგან ეს უფრო ადვილად განმარტავს, რისთვის გამოიყენება ის ჩვეულებრივ. თქვენ შეგიძლიათ გამოიყენოთ გენერაციული ხელოვნური ინტელექტი გრძელი კომპოზიციების დასაწერად, ან შეგიძლიათ მიიღოთ ის საკმაოდ მოკლე წვრილმანი კომენტარებისთვის. ეს ყველაფერი თქვენი სურვილისამებრ.

საკმარისია შეიყვანოთ მოთხოვნა და ხელოვნური ინტელექტის აპი მოგცემთ ესსეს, რომელიც შეეცდება უპასუხოს თქვენს მოთხოვნას. შედგენილი ტექსტი თითქოს ესე ადამიანის ხელითა და გონებითაა დაწერილი. თუ თქვენ უნდა შეიყვანოთ მოთხოვნა, რომელშიც ნათქვამია: „მითხარი აბრაამ ლინკოლნის შესახებ“, გენერაციული AI მოგაწვდით ესსეს ლინკოლნის შესახებ. არსებობს გენერაციული AI-ს სხვა რეჟიმები, როგორიცაა ტექსტი-ხელოვნება და ტექსტი-ვიდეო. აქ ყურადღებას გავამახვილებ ტექსტიდან ტექსტის ვარიაციაზე.

თქვენი პირველი აზრი შეიძლება იყოს ის, რომ ეს გენერაციული შესაძლებლობა არც ისე დიდია ესეების წარმოების თვალსაზრისით. თქვენ შეგიძლიათ მარტივად გააკეთოთ ინტერნეტის ძებნა ინტერნეტში და ადვილად იპოვოთ ტონა და ტონა ესეები პრეზიდენტ ლინკოლნის შესახებ. გენერაციული AI-ის შემთხვევაში მთავარი ის არის, რომ გენერირებული ესე შედარებით უნიკალურია და იძლევა ორიგინალურ კომპოზიციას და არა კოპირებას. თუ თქვენ ცდილობთ იპოვოთ AI-ის მიერ წარმოებული ესსე ონლაინ სადმე, ნაკლებად სავარაუდოა, რომ აღმოაჩენთ მას.

გენერაციული AI არის წინასწარ გაწვრთნილი და იყენებს კომპლექსურ მათემატიკურ და გამოთვლით ფორმულირებას, რომელიც შეიქმნა წერილობითი სიტყვებისა და ისტორიების შაბლონების შესწავლით ინტერნეტში. ათასობით და მილიონობით წერილობითი პასაჟის შესწავლის შედეგად, AI-ს შეუძლია გამოაქვეყნოს ახალი ესეები და ისტორიები, რომლებიც აღმოჩენის შერეულია. სხვადასხვა ალბათობითი ფუნქციების დამატებით, მიღებული ტექსტი საკმაოდ უნიკალურია, ვიდრე ის, რაც გამოიყენებოდა სასწავლო კომპლექტში.

არსებობს მრავალი შეშფოთება გენერაციული AI-ს შესახებ.

ერთი გადამწყვეტი მინუსი არის ის, რომ გენერაციებზე დაფუძნებული AI აპის მიერ შექმნილ ნარკვევებში შეიძლება იყოს ჩართული სხვადასხვა სიცრუე, მათ შორის აშკარად მცდარი ფაქტები, ფაქტები, რომლებიც შეცდომაში შეიყვანეს და აშკარა ფაქტები, რომლებიც მთლიანად შეთხზულია. იმ შეთითხნილ ასპექტებს ხშირად მოიხსენიებენ, როგორც ფორმას AI ჰალუცინაციები, გამონათქვამი, რომელსაც არ ვემხრობი, მაგრამ სამწუხაროდ, როგორც ჩანს, პოპულარობას მაინც იძენს (ჩემი დეტალური ახსნისთვის იმის შესახებ, თუ რატომ არის ეს ცუდი და შეუფერებელი ტერმინოლოგია, იხილეთ ჩემი გაშუქება აქ ბმული აქ).

კიდევ ერთი შეშფოთება არის ის, რომ ადამიანებს შეუძლიათ ადვილად მიიღონ დამსახურება ხელოვნური ხელოვნური ინტელექტის მიერ წარმოებული ნარკვევისთვის, მიუხედავად იმისა, რომ ესე თავად არ შედგენილია. შესაძლოა გსმენიათ, რომ მასწავლებლები და სკოლები საკმაოდ შეშფოთებულნი არიან გენერაციული AI აპლიკაციების გაჩენით. სტუდენტებს შეუძლიათ პოტენციურად გამოიყენონ გენერაციული AI დავალებული ესეების დასაწერად. თუ მოსწავლე ამტკიცებს, რომ ესე დაიწერა საკუთარი ხელით, მცირე შანსია, რომ მასწავლებელს შეეძლოს გაარკვიოს, იყო თუ არა ის გენერაციული ხელოვნური ინტელექტის გაყალბებით. ამ სტუდენტისა და მასწავლებლის დამაბნეველი ასპექტის ჩემი ანალიზისთვის იხილეთ ჩემი გაშუქება აქ ბმული აქ მდე ბმული აქ.

ამის შესახებ სოციალურ მედიაში გავრცელდა რამდენიმე უცნაური პრეტენზია გენერაციული AI ამტკიცებს, რომ ხელოვნური ინტელექტის ეს უახლესი ვერსია რეალურად არის მგრძნობიარე AI (არა, ისინი ცდებიან!). ხელოვნური ინტელექტის ეთიკისა და ხელოვნური ინტელექტის სამართალში მონაწილე პირები განსაკუთრებით შეშფოთებულნი არიან გავრცელებული პრეტენზიების ამ მზარდი ტენდენციით. შეიძლება თავაზიანად თქვათ, რომ ზოგიერთი ადამიანი აჭარბებს იმას, რისი გაკეთებაც დღევანდელ AI-ს შეუძლია რეალურად. ისინი ვარაუდობენ, რომ AI-ს აქვს შესაძლებლობები, რომელთა მიღწევაც ჩვენ ჯერ ვერ მოვახერხეთ. ეს სამწუხაროა. კიდევ უფრო უარესი, მათ შეუძლიათ საკუთარ თავს და სხვებს საშინელ სიტუაციებში მოხვედრის უფლება მისცენ, რადგან ვარაუდობენ, რომ AI იქნება მგრძნობიარე ან ადამიანის მსგავსი და შეძლებს ქმედების განხორციელებას.

არ მოახდინო ხელოვნური ინტელექტის ანთროპომორფიზაცია.

ამით თქვენ მოხვდებით წებოვან და მუდმივ ნდობის ხაფანგში იმის მოლოდინში, რომ ხელოვნური ინტელექტი გააკეთებს იმას, რისი შესრულებაც არ ძალუძს. როგორც ითქვა, გენერაციული AI-ის უახლესი ვერსია შედარებით შთამბეჭდავია იმისთვის, რისი გაკეთებაც მას შეუძლია. თუმცა გაითვალისწინეთ, რომ არსებობს მნიშვნელოვანი შეზღუდვები, რომლებიც მუდმივად უნდა გახსოვდეთ ნებისმიერი გენერაციული AI აპლიკაციის გამოყენებისას.

ერთი ბოლო გაფრთხილება ჯერ-ჯერობით.

რასაც ხედავთ ან წაიკითხავთ გენერაციულ AI პასუხში, რომ როგორც ჩანს უნდა იყოს გადმოცემული, როგორც წმინდა ფაქტობრივი (თარიღები, ადგილები, ხალხი და ა.შ.), დარწმუნდით, რომ იყოთ სკეპტიკურად განწყობილი და მზად იყავით ორჯერ გადაამოწმოთ რასაც ხედავთ.

დიახ, თარიღების შეთხზვა შესაძლებელია, ადგილების მოწყობა და ელემენტები, რომლებიც ჩვეულებრივ საყვედურზე არ უნდა იყოს ყველა ექვემდებარება ეჭვებს. არ დაიჯეროთ წაკითხულის და სკეპტიკურად გამოიჩინეთ თვალი ხელოვნური ხელოვნური ინტელექტის გენერაციული ესეების ან შედეგების განხილვისას. თუ გენერაციული ხელოვნური ინტელექტის აპლიკაცია გეტყვით, რომ აბრაამ ლინკოლნმა თავისი პირადი თვითმფრინავით შემოფრინდა ქვეყანა, უდავოდ გეცოდინებათ, რომ ეს არის უბედურება. სამწუხაროდ, ზოგიერთმა შეიძლება ვერ გააცნობიეროს, რომ თვითმფრინავები არ არსებობდა მის დროს, ან შეიძლება იცოდნენ, მაგრამ ვერ შეამჩნიეს, რომ ესე ამ თავხედურ და აღმაშფოთებლად ცრუ პრეტენზიას აყენებს.

ჯანსაღი სკეპტიციზმის ძლიერი დოზა და ურწმუნოების მუდმივი აზროვნება იქნება თქვენი საუკეთესო უპირატესობა გენერაციული ხელოვნური ინტელექტის გამოყენებისას.

ჩვენ მზად ვართ გადავიდეთ ამ გარკვევის შემდეგ ეტაპზე.

ინტერნეტი და გენერაციული AI არის ერთად

ახლა, როდესაც თქვენ გესმით, რა არის გენერაციული AI, ჩვენ შეგვიძლია გამოვიკვლიოთ შემაშფოთებელი კითხვა იმის შესახებ, არის თუ არა გენერაციული AI სამართლიანად თუ უსამართლოდ „გამოყენებული ბერკეტი“, ან ზოგი იტყვის. უხეშად ექსპლუატაციაში ინტერნეტ შინაარსი.

აქ არის ჩემი ოთხი სასიცოცხლო თემა ამ საკითხთან დაკავშირებით:

1) ორმაგი პრობლემა: პლაგიატი და საავტორო უფლებების დარღვევა
2) პლაგიატის ან საავტორო უფლებების დარღვევის დამტკიცების მცდელობა იქნება მცდელობა
3) პლაგიატის ან საავტორო უფლებების დარღვევის საქმის წარმოება
4) ლეგალური მიწის ნაღმები ელის

მე გავაშუქებ თითოეულ ამ მნიშვნელოვან თემას და შემოგთავაზებთ გამჭრიახ მოსაზრებებს, რომლებზეც ჩვენ ყველამ გულდასმით უნდა ვიფიქროთ. თითოეული ეს თემა უფრო დიდი თავსატეხის განუყოფელი ნაწილია. მხოლოდ ერთ ნაწილს ვერ უყურებ. ვერც რომელიმე ნაწილს სხვა ნაწილებისგან იზოლირებულად შეხედავ.

ეს რთული მოზაიკაა და მთლიან თავსატეხს სათანადო ჰარმონიული განხილვა სჭირდება.

ორმაგი პრობლემა: პლაგიატი და საავტორო უფლებების დარღვევა

ორმაგი პრობლემა, რომელიც აწუხებს მათ, ვინც აწარმოებს და ამუშავებს AI-ს, არის ის, რომ მათი ნაწარმი შესაძლოა ორ ცუდ რამეს აკეთებდეს:

1) პლაგიატი. გენერაციული AI შეიძლება იქნას გაგებული, როგორც პლაგიატი კონტენტი, რომელიც არსებობს ინტერნეტში, ინტერნეტის სკანირების მიხედვით, რომელიც განხორციელდა AI-ის მონაცემთა ტრენინგის დროს.
2) საავტორო უფლებების დარღვევა. გენერაციული AI შეიძლება იყოს პრეტენზია, როგორც ვალდებულება საავტორო უფლებების დარღვევა დაკავშირებულია ინტერნეტ კონტენტთან, რომელიც დასკანერდა მონაცემთა ტრენინგის დროს.

გასარკვევად, ინტერნეტში გაცილებით მეტი კონტენტია, ვიდრე რეალურად სკანირებულია გენერაციული AI-ის მონაცემების ტრენინგისთვის. ჩვეულებრივ, ინტერნეტის მხოლოდ მცირე ნაწილი გამოიყენება. ამრიგად, ჩვენ შეგვიძლია ვივარაუდოთ, რომ ნებისმიერ კონტენტს, რომელიც არ იყო დასკანირებული მონაცემთა ტრენინგის დროს, არ აქვს განსაკუთრებული ხორცი გენერაციული AI-ით.

ეს გარკვეულწილად სადავოა, თუმცა, რადგან თქვენ შეგიძლიათ პოტენციურად დახაზოთ ხაზი, რომელიც აკავშირებს სხვა შიგთავსს, რომელიც დასკანირებული იყო იმ შინაარსთან, რომელიც არ იყო დასკანირებული. ასევე, კიდევ ერთი მნიშვნელოვანი პირობა არის ის, რომ მაშინაც კი, თუ არსებობდა კონტენტი, რომელიც არ იყო დასკანირებული, ის მაინც შეიძლება ამტკიცებდეს, რომ პლაგიატია და/ან საავტორო უფლებები დარღვეულია, თუ გენერაციული AI-ის შედეგები ერთსა და იმავე სიტყვებზე მოდის. ჩემი აზრი ის არის, რომ ამ ყველაფერში ბევრი სისასტიკეა.

დედააზრი: გენერაციული ხელოვნური ინტელექტი სავსეა პოტენციური AI ეთიკური და ხელოვნური ინტელექტის სამართლის იურიდიული თავსატეხებით, როდესაც საქმე ეხება პლაგიატს და საავტორო უფლებების დარღვევას. მონაცემთა ტრენინგის გაბატონებული პრაქტიკის საფუძველი.

ჯერჯერობით, ხელოვნური ინტელექტის შემქმნელები და ხელოვნური ინტელექტის მკვლევარები სრიალებდნენ ამ საკმაოდ სკოტებისგან თავისუფალ, მიუხედავად მათ ზემოთ ჩამოკიდებული და საეჭვოდ ჩამოკიდებული ხმლისა. ამ პრაქტიკის წინააღმდეგ დღემდე მხოლოდ რამდენიმე სასამართლო პროცესია აღძრული. შესაძლოა გსმენიათ ან გინახავთ ახალი ამბების სტატიები ასეთი სამართლებრივი ქმედებების შესახებ. მაგალითად, ერთ-ერთი მოიცავს Midjourney-ისა და Stability AI-ის ტექსტიდან გამოსახულების ფირმებს ინტერნეტში განთავსებული მხატვრული შინაარსის დარღვევისთვის. კიდევ ერთი გულისხმობს ტექსტის კოდის დარღვევას GitHub-ის, Microsoft-ისა და OpenAI-ის მიმართ Copilot პროგრამული უზრუნველყოფის გამო, რომელიც აწარმოებს AI აპებს. Getty Images ასევე მიზნად ისახავს სტაბილურობის ხელოვნური ინტელექტის დაცვას ტექსტის გამოსახულების დარღვევისთვის.

თქვენ შეგიძლიათ ველოდოთ, რომ უფრო მეტი ასეთი სარჩელი იქნება წარდგენილი.

ამჟამად, ცოტა შანსია ამ სარჩელების დაწყება, რადგან შედეგი შედარებით უცნობია. დადგება სასამართლო ხელოვნური ინტელექტის შემქმნელების მხარეზე, თუ ისინი, ვინც თვლის, რომ მათი შინაარსი უსამართლოდ იქნა გამოყენებული, იქნებიან გამარჯვებულები? ძვირადღირებული სამართლებრივი ბრძოლა ყოველთვის სერიოზული საკითხია. ფართომასშტაბიანი იურიდიული ხარჯების დახარჯვა უნდა აიწონოს მოგების ან წაგების შანსებთან.

ხელოვნური ინტელექტის შემქმნელებს, როგორც ჩანს, თითქმის სხვა არჩევანი არ აქვთ, გარდა ბრძოლისა. თუ ისინი ცოტათი მაინც დანებდებიან, დიდი ალბათობაა, რომ მოჰყვება დამატებითი სასამართლო პროცესების ნაკადი (არსებითად, კარს გაუღებს სხვების გამარჯვების გაზრდის შანსებს). მას შემდეგ, რაც წყალში ლეგალური სისხლი იქნება, დარჩენილი ლეგალური ზვიგენები მიისწრაფვიან მიჩნეულ „ადვილ ქულამდე“ და აუცილებლად მოხდება ფულადი სისხლის ღვარცოფი.

ზოგიერთი თვლის, რომ ჩვენ უნდა მივიღოთ ახალი AI კანონები, რომლებიც დაიცავს AI შემქმნელებს. დაცვა შესაძლოა რეტროაქტიულიც კი იყოს. ამის საფუძველი არის ის, რომ თუ ჩვენ გვინდა ვიხილოთ გენერაციული AI წინსვლა, ჩვენ უნდა მივცეთ ხელოვნური ინტელექტის შემქმნელებს უსაფრთხო ზონის ასაფრენი ბილიკი. როგორც კი სასამართლო პროცესი დაიწყებს გამარჯვების მოპოვებას ხელოვნური ინტელექტის შემქმნელების წინააღმდეგ, თუ ეს მოხდება (ჩვენ ჯერ არ ვიცით), შეშფოთება ის არის, რომ გენერაციული AI აორთქლდება, რადგან არავის ექნება სურვილი დაუჭიროს რაიმე მხარდაჭერა AI ფირმებს.

როგორც ოსტატურად აღინიშნა Bloomberg-ის კანონის ბოლო სტატიაში, სახელწოდებით „ChatGPT: IP, კიბერუსაფრთხოება და გენერაციული AI-ის სხვა სამართლებრივი რისკები“ დოქტორ ილია კოლოჩენკოსა და გორდონ პლატის მიერ, Bloomberg Law, 2023 წლის თებერვალი, აქ არის ორი სასიცოცხლო ამონაწერი, რომლებიც ეხმიანება ამ შეხედულებებს:

„ამჟამად მწვავე დებატები მძვინვარებს აშშ-ს იურიდიულ მეცნიერებსა და ინტელექტუალური უფლებების სამართლის პროფესორებს შორის იმის თაობაზე, არის თუ არა საავტორო უფლებების დარღვევას საავტორო უფლებების არაავტორიზებული ამოღება და შემდგომი გამოყენება. თუ იურიდიული პრაქტიკოსების შეხედულება, რომლებიც ხედავენ ამგვარ პრაქტიკაში საავტორო უფლებების დარღვევას, ჭარბობს, ასეთი AI სისტემების მომხმარებლები ასევე შეიძლება პასუხისმგებელნი იყვნენ მეორადი დარღვევაზე და პოტენციურად დაემუქრნენ იურიდიულ შედეგებს.
„გამოწვევის ყოვლისმომცველი გადასაჭრელად, კანონმდებლებმა უნდა განიხილონ არა მხოლოდ არსებული საავტორო უფლებების კანონმდებლობის მოდერნიზება, არამედ ხელოვნური ინტელექტის სპეციფიკური კანონებისა და რეგულაციების დანერგვაც“.

შეგახსენებთ, რომ, როგორც საზოგადოებამ, ჩვენ განვახორციელეთ სამართლებრივი დაცვა გაფართოება ინტერნეტის შესახებ, როგორც ამას მოწმობს უზენაესი სასამართლო, რომელიც განიხილავს ცნობილ ან სამარცხვინო სექციას 230. ამრიგად, როგორც ჩანს, გონივრული და პრეცედენტულია, რომ ჩვენ შეიძლება გვქონდეს მზადყოფნა გავაკეთოთ მსგავსი დაცვა გენერაციული AI-ს წინსვლისთვის. შესაძლოა, დაცვა შეიძლება დროებით შეიქმნას, ვადა ამოეწურება მას შემდეგ, რაც გენერაციული AI მიაღწევს ცოდნის წინასწარ განსაზღვრულ დონეს. შეიძლება სხვა დამცავი დებულებების შემუშავება.

მე მალე გამოვაქვეყნებ ჩემს ანალიზს იმის შესახებ, თუ როგორ შეიძლება გავლენა იქონიოს უზენაესი სასამართლოს შეფასებამ და საბოლოო გადაწყვეტილებამ 230-ე სექციაზე გენერაციული AI-ს გამოჩენაზე. თვალი ადევნეთ მომავალ პოსტს!

დავუბრუნდეთ მტკიცედ გაჟღერებულ აზრს, რომ ჩვენ უნდა მივცეთ თავისუფლება საზოგადოების შიშის მომგვრელი ტექნოლოგიური ინოვაციისთვის, რომელიც ცნობილია როგორც გენერაციული AI. ზოგიერთი იტყვის, რომ მაშინაც კი, თუ საავტორო უფლებების პრეტენზია აქვს ან ხდება, საზოგადოებამ, როგორც მთლიანმა, უნდა დაუშვას ეს გენერაციული ხელოვნური ინტელექტის განვითარების კონკრეტული მიზნებისთვის.

იმედია, რომ ახალი AI კანონები საგულდაგულოდ იქნება შემუშავებული და მორგებული იმ დეტალებზე, რომლებიც დაკავშირებულია მონაცემთა ტრენინგთან გენერაციული AI-სთვის.

ამ მიზნისთვის ხელოვნური ინტელექტის ახალი კანონების შემუშავების ცნებას უამრავი კონტრარგუმენტი აქვს. ერთი შეშფოთება არის ის, რომ ნებისმიერი ახალი AI კანონი გახსნის კარიბჭეს საავტორო უფლებების ყველა სახის დარღვევისთვის. ჩვენ ვნანობ იმ დღეს, როდესაც ჩვენ მივეცით უფლება, რომ ასეთი ახალი AI კანონები დაედო წიგნებს. რაც არ უნდა ეცადოთ ეს შემოიფარგლოთ მხოლოდ ხელოვნური ინტელექტის მონაცემების სწავლებით, სხვები შეპარვით ან ჭკვიანურად იპოვიან ხარვეზებს, რაც გამოიწვევს საავტორო უფლებების შეუზღუდავ და ყოვლისმომცველ დარღვევას.

მრგვალი და მრგვალი არგუმენტები მიდის.

ერთი არგუმენტი, რომელიც განსაკუთრებულად არ კარგავს წყალს, დაკავშირებულია თავად AI-ზე უჩივლების მცდელობასთან. გაითვალისწინეთ, რომ მე ვგულისხმობ AI შემქმნელს ან AI მკვლევარებს, როგორც დამნაშავე დაინტერესებულ მხარეებს. ესენი არიან ადამიანები და კომპანიები. ზოგიერთი გვთავაზობს, რომ ჩვენ უნდა მივმართოთ AI-ს, როგორც მხარეს, რომელსაც უჩივლებენ. მე ვრცლად განვიხილეთ ჩემს სვეტში, რომ ჩვენ ჯერ კიდევ არ მივაწერთ AI-ს იურიდიულ პირობას, იხ ბმული აქ მაგალითად, და ამდენად, ასეთი სარჩელები, რომლებიც მიმართულია AI-ზე, ახლა უაზროდ ჩაითვლება.

როგორც დამატება კითხვაზე, ვის ან რას უნდა უჩივლოს, ეს კიდევ ერთ წვნიან თემას აჩენს.

დავუშვათ, რომ კონკრეტული გენერაციული AI აპლიკაცია შექმნილია AI მწარმოებლის მიერ, რომელსაც ჩვენ ვიჯეტ კომპანიას დავარქმევთ. ვიჯეტის კომპანია შედარებით მცირე ზომისაა და არც დიდი შემოსავალი აქვს და არც აქტივები. მათზე საჩივრის შეტანა, სავარაუდოდ, არ მოიპოვებს იმ დიდ სიმდიდრეს, რომელსაც შეიძლება ეძებდეს. მაქსიმუმ, თქვენ უბრალოდ კმაყოფილი იქნებით იმის გამოსწორებით, რასაც არასწორად თვლით.

დიდი თევზის უკან წასვლა გინდა.

აი, როგორ წარმოიქმნება ეს. ხელოვნური ინტელექტის მწარმოებელი არჩევს, რომ მათი გენერაციული AI ხელმისაწვდომი გახადოს Big Time Company-სთვის, მსხვილი კონგლომერატი ტონობით ცომითა და ტონა აქტივებით. ვიჯეტის კომპანიის დასახელების სარჩელს ახლა უკეთესი სამიზნე ექნება, კერძოდ, Big Time Company-ის დასახელებით. ეს არის დავითისა და გოლიათის ბრძოლა, რომელსაც იურისტები სიამოვნებას ანიჭებენ. რა თქმა უნდა, Big Time Company უდავოდ შეეცდება თევზაობის კაუჭისგან თავის დაღწევას. შეძლებენ თუ არა ამის გაკეთებას, ეს კიდევ ერთხელ გაურკვეველია იურიდიული საკითხია და ისინი შესაძლოა უიმედოდ ჩაძირულობდნენ ჭუჭყში.

სანამ ამაზე უფრო შორს წავალთ, მსურს მაგიდაზე რაღაც გადამწყვეტი მივიღო გენერაციული ხელოვნური ინტელექტის პრეტენზიების შესახებ მონაცემთა მომზადების გამო. დარწმუნებული ვარ, თქვენ ინტუიციურად აცნობიერებთ, რომ პლაგიატი და საავტორო უფლებების დარღვევა არის ორი განსხვავებული მხეცი. მათ ბევრი რამ აქვთ საერთო, თუმცა ისინი ასევე მნიშვნელოვნად განსხვავდებიან.

აქ მოცემულია დუკის უნივერსიტეტის მოკლე აღწერა, რომელიც განმარტავს ამ ორს:

„პლაგიატი საუკეთესოდ განისაზღვრება, როგორც სხვისი ნამუშევრის არაღიარებული გამოყენება. ეს არის ეთიკური საკითხი, რომელიც მოიცავს სამუშაოს კრედიტის მოთხოვნას, რომელიც მომჩივანმა არ შექმნა. შეიძლება სხვისი ნამუშევრის პლაგიატი მოახდინოს ამ ნაწარმოების საავტორო უფლებების სტატუსის მიუხედავად. მაგალითად, მაინც პლაგიატია წიგნიდან ან სტატიიდან კოპირება, რომელიც ძალიან ძველია საავტორო უფლებების ქვეშ. ასევე პლაგიატია არაღიარებული წყაროდან აღებული მონაცემების გამოყენება, მიუხედავად იმისა, რომ ფაქტობრივი მასალა, როგორიცაა მონაცემები, შეიძლება არ იყოს დაცული საავტორო უფლებებით. პლაგიატი, თუმცა, ადვილად განიკურნება - სათანადო ციტირება მასალის თავდაპირველ წყაროზე“.
„საავტორო უფლებების დარღვევა, მეორე მხრივ, არის სხვისი ნამუშევრის უნებართვო გამოყენება. ეს არის იურიდიული საკითხი, რომელიც დამოკიდებულია იმაზე, არის თუ არა ნამუშევარი დაცული საავტორო უფლებებით პირველ რიგში, ისევე როგორც ისეთ სპეციფიკაზე, როგორიცაა რამდენია გამოყენებული და გამოყენების მიზანი. თუ ვინმე აკოპირებს დაცული ნაწარმოების ძალიან ბევრ კოპირებას, ან ასლებს არაავტორიზებული მიზნით, უბრალოდ ორიგინალური წყაროს აღიარება პრობლემას არ გადაჭრის. მხოლოდ საავტორო უფლებების მფლობელისგან წინასწარი ნებართვის მოძიებით არის თავიდან აცილებული დარღვევის ბრალდების რისკი.”

მე ხაზგასმით აღვნიშნავ ამ ორი შეშფოთების მნიშვნელობას, რათა გააცნობიეროთ, რომ საშუალებები შეიძლება განსხვავდებოდეს შესაბამისად. გარდა ამისა, ორივე მათგანი ჩართულია ხელოვნური ინტელექტის ეთიკისა და ხელოვნური ინტელექტის კანონების შესახებ, რაც მათ შესასწავლად ერთნაირად ღირებულს ხდის.

მოდით გამოვიკვლიოთ პრეტენზიული საშუალება ან გამოსავალი. თქვენ ნახავთ, რომ ეს შეიძლება დაეხმაროს ერთ-ერთ ორმაგ პრობლემას, მაგრამ არა მეორეს.

ზოგი ამტკიცებს, რომ ხელოვნური ინტელექტის შემქმნელებმა უნდა გააკეთონ თავიანთი წყაროების ციტირება. როდესაც გენერაციული ხელოვნური ინტელექტი აწარმოებს ესსეს, უბრალოდ ჩართეთ კონკრეტული ციტატები რაც არ უნდა იყოს მითითებული ესეში. მიეცით სხვადასხვა URL-ები და სხვა მითითებები, თუ რომელი ინტერნეტ კონტენტი იყო გამოყენებული. ეს, როგორც ჩანს, ათავისუფლებს მათ პლაგიატთან დაკავშირებით. გამოტანილი ესსე, სავარაუდოდ, ნათლად განსაზღვრავს, თუ რა წყაროები იყო გამოყენებული ფორმულირებისთვის.

ამ პრეტენზიულ გადაწყვეტაში არის გარკვეული ქუბლები, მაგრამ 30,000 ფუტის დონეზე, ვთქვათ, რომ ეს არის ნახევრად დამაკმაყოფილებელი განკურნება პლაგიატის დილემისთვის. როგორც ზემოთ აღინიშნა საავტორო უფლებების დარღვევის ახსნაში, წყაროს მასალის ციტირება სულაც არ გაგიყვანთ ძაღლის სახლიდან. თუ ვივარაუდებთ, რომ კონტენტი დაცულია საავტორო უფლებებით და დამოკიდებულია სხვა ფაქტორებზე, როგორიცაა მასალის რა ოდენობა იყო გამოყენებული, საავტორო უფლებების დარღვევის მოლოდინის ხმალი შეიძლება მკვეთრად და საბოლოოდ ჩამოვარდეს.

ორმაგი უბედურება აქ მთავარი სიტყვაა.

პლაგიატის ან საავტორო უფლებების დარღვევის დამტკიცების მცდელობა იქნება მცდელობა

Დაამტკიცე!

ეს არის კარგად ნახმარი რეფრენი, რომელიც ყველას გვსმენია ჩვენი ცხოვრების სხვადასხვა დროს.

იცი როგორ მიდის. შეიძლება თქვათ, რომ რაღაც ხდება ან მოხდა. თქვენ შეიძლება გულში იცოდეთ, რომ ეს მოხდა. მაგრამ როდესაც საქმე ეხება ბიძგს და შოვას, თქვენ უნდა გქონდეთ მტკიცებულება.

დღევანდელ ენაზე, თქვენ უნდა აჩვენოთ ქვითრები, როგორც ამბობენ.

ჩემი შეკითხვა თქვენთან არის ეს: როგორ ვაპირებთ დემონსტრაციულად დავამტკიცოთ, რომ გენერაციულმა AI-მ არასათანადოდ გამოიყენა ინტერნეტ კონტენტი?

ერთი ვარაუდობს, რომ პასუხი მარტივი უნდა იყოს. თქვენ სთხოვთ ან ეუბნებით გენერაციულ AI-ს, რომ მოამზადოს გამოტანილი ესე. შემდეგ აიღეთ ესსე და შეადარეთ ის, რაც შეგიძლიათ ინტერნეტში. თუ იპოვნეთ ესე, ბამ, გენერაციული AI გაქვთ მიმაგრებული ანდაზის კედელზე.

როგორც ჩანს, ცხოვრება ასე მარტივი არასდროს ყოფილა.

წარმოიდგინეთ, რომ ჩვენ მივიღებთ გენერაციულ AI-ს, რათა შევქმნათ ესე, რომელიც შეიცავს დაახლოებით 100 სიტყვას. ჩვენ დავდივართ და ვცდილობთ მივაღწიოთ ინტერნეტის ყველა კუთხესა და კუთხეს, ვეძებთ ამ 100 სიტყვას. თუ ჩვენ ვიპოვით 100 სიტყვას, რომლებიც ნაჩვენებია ზუსტად იმავე თანმიმდევრობით და იდენტური გზით, ჩვენ, როგორც ჩანს, ჩვენ მივიღეთ საკუთარი თავი.

დავუშვათ, რომ ინტერნეტში ვპოულობთ ერთი შეხედვით „შედარებად“ ნარკვევს, თუმცა ის 80 სიტყვიდან მხოლოდ 100-ს ემთხვევა. ეს მაინც საკმარისი ჩანს, ალბათ. მაგრამ წარმოიდგინეთ, რომ ჩვენ ვპოულობთ მხოლოდ 10 სიტყვის მაგალითს იმ 100-დან, რომელიც შეესაბამება. ეს საკმარისია იმისთვის, რომ ვიკამათოთ, რომ ან პლაგიატი მოხდა ან რომ მოხდა საავტორო უფლებების დარღვევა?

ნაცრისფერი არსებობს.

ტექსტი სასაცილოა ამ მხრივ.

შეადარეთ ეს ტექსტის გამოსახულება ან ტექსტი ხელოვნების გარემოებებს. როდესაც გენერაციული ხელოვნური ინტელექტი უზრუნველყოფს ტექსტის გამოსახულება ან ტექსტი-ხელოვნების შესაძლებლობას, თქვენ შეიყვანთ ტექსტურ მოთხოვნას და AI აპი აწარმოებს სურათს გარკვეულწილად თქვენს მიერ მოწოდებულ მოთხოვნაზე დაყრდნობით. სურათი შეიძლება განსხვავდებოდეს ნებისმიერი სურათისგან, რომელიც ოდესმე უნახავთ ამ ან სხვა პლანეტაზე.

მეორეს მხრივ, გამოსახულება შეიძლება გაახსენდეს სხვა სურათებს, რომლებიც არსებობს. ჩვენ შეგვიძლია შევხედოთ გენერაციულ AI-ს მიერ წარმოებულ სურათს და გარკვეულწილად ნაწლავის ინსტინქტით ვთქვათ, რომ ის ნამდვილად ჰგავს სხვა სურათს, რომელიც ადრე ვნახეთ. საერთოდ, ვიზუალური შედარებისა და კონტრასტის ასპექტები უფრო ადვილად კეთდება. როგორც ითქვა, გთხოვთ, იცოდეთ, რომ უზარმაზარი იურიდიული დებატები უზრუნველყოფს იმას, თუ რას წარმოადგენს ერთი სურათის მეორეზე გადახურვა ან რეპლიკაცია.

სხვა მსგავსი სიტუაციაა მუსიკასთან დაკავშირებით. არსებობს გენერაციული AI აპლიკაციები, რომლებიც საშუალებას გაძლევთ შეიყვანოთ ტექსტური მოთხოვნა და AI-ის მიერ წარმოებული გამომავალი არის აუდიო მუსიკა. ეს ტექსტი აუდიო ან ტექსტი-მუსიკა AI შესაძლებლობები ახლახან იწყებს გაჩენას. ერთი რამ, რაზეც შეგიძლიათ დადოთ თქვენი საუკეთესო დოლარი, არის ის, რომ გენერაციული ხელოვნური ინტელექტის მიერ წარმოებული მუსიკა ზედმიწევნით განიხილება დარღვევისთვის. ჩვენ, როგორც ჩანს, ვიცით, როდესაც გვესმის მუსიკალური დარღვევები, თუმცა ისევ ეს არის რთული სამართლებრივი საკითხი, რომელიც არ არის დაფუძნებული მხოლოდ იმაზე, თუ როგორ ვგრძნობთ ჩვენ აღქმულ რეპლიკაციას.

ნება მომეცით კიდევ ერთი მაგალითი.

ტექსტიდან კოდის გენერაციული AI გაძლევთ შესაძლებლობას შეიყვანოთ ტექსტური მოთხოვნა და AI შეგიქმნით პროგრამირების კოდს. ამის შემდეგ შეგიძლიათ გამოიყენოთ ეს კოდი კომპიუტერული პროგრამის მოსამზადებლად. თქვენ შეიძლება გამოიყენოთ კოდი ზუსტად ისე, როგორც გენერირებულია, ან შეგიძლიათ აირჩიოთ კოდის რედაქტირება და მორგება თქვენს საჭიროებებზე. ასევე საჭიროა დავრწმუნდეთ, რომ კოდი არის შესაფერისი და გამოსადეგი, რადგან შესაძლებელია, რომ შეცდომები და სიცრუე წარმოიშვას გენერირებულ კოდში.

თქვენი პირველი ვარაუდი შეიძლება იყოს, რომ პროგრამირების კოდი არაფრით განსხვავდება ტექსტისგან. ეს მხოლოდ ტექსტია. რა თქმა უნდა, ეს არის ტექსტი, რომელიც უზრუნველყოფს კონკრეტულ მიზანს, მაგრამ ის მაინც ტექსტია.

ისე, არა ზუსტად. პროგრამირების ენების უმეტესობას აქვს მკაცრი ფორმატი და სტრუქტურა ამ ენის კოდირების განცხადებების ბუნების მიმართ. ეს გარკვეულწილად ბევრად უფრო ვიწროა, ვიდრე თავისუფლად მიმდინარე ბუნებრივი ენა. თქვენ გარკვეულწილად გააზრებული ხართ, თუ როგორ არის ჩამოყალიბებული კოდირების განცხადებები. ანალოგიურად, თანმიმდევრობა და გზა, რომლითაც ხდება განცხადებების გამოყენება და დალაგება, გარკვეულწილად არის ჩაწერილი.

მთლიანობაში, იმის ჩვენების შესაძლებლობა, რომ პროგრამირების კოდი იყო პლაგიატი ან დარღვევა, თითქმის უფრო ადვილია, ვიდრე ბუნებრივი ენაზეა ნათქვამი. ამრიგად, როდესაც გენერაციული AI მიდის ინტერნეტში პროგრამირების კოდის სკანირებისთვის და მოგვიანებით აგენერირებს პროგრამირების კოდს, იმის მტკიცების შანსი, რომ კოდი უხეშად იყო გამეორებული, შედარებით უფრო დამაჯერებელი იქნება. არ არის სლემ დანკი, ასე რომ, ველით, რომ ამაზე მწარე ბრძოლები გაიმართება.

ჩემი მთავარი აზრი ის არის, რომ ჩვენ გვექნება იგივე AI ეთიკის და AI კანონის საკითხები, რომლებიც ეწინააღმდეგება გენერაციული AI-ს ყველა რეჟიმს.

პლაგიატი და საავტორო უფლებების დარღვევა პრობლემურია:

ტექსტი ტექსტი ან ტექსტი ესე
ტექსტი-სურათი ან ტექსტი-ხელოვნება
ტექსტი აუდიო ან ტექსტი მუსიკა
ტექსტი ვიდეოზე
ტექსტი კოდში
ა.შ.

ისინი ყველა ერთნაირ შეშფოთებას ექვემდებარება. ზოგიერთის „დამტკიცება“ უფრო ადვილია, ვიდრე სხვები. ყველა მათგანს ექნება საკუთარი მრავალფეროვანი კოშმარები ხელოვნური ინტელექტის ეთიკისა და ხელოვნური ინტელექტის სამართლის საფუძველი.

პლაგიატის ან საავტორო უფლებების დარღვევის საქმის წარმოება

დისკუსიის მიზნებისთვის, მოდით, ყურადღება გავამახვილოთ ტექსტიდან ტექსტზე ან ტექსტიდან ესე გენერაციულ AI-ზე. ამას ნაწილობრივ ვაკეთებ ChatGPT-ის უზარმაზარი პოპულარობის გამო, რომელიც არის გენერაციული AI-ის ტექსტიდან ტექსტის ტიპი. ბევრი ადამიანი იყენებს ChatGPT-ს, ისევე როგორც ბევრი სხვა, რომლებიც იყენებენ სხვადასხვა მსგავსი ტექსტის ტექსტის გენერაციულ AI აპებს.

იციან თუ არა იმ ადამიანებმა, რომლებიც იყენებენ გენერაციულ AI აპებს, რომ ისინი პოტენციურად ეყრდნობიან პლაგიატს ან საავტორო უფლებების დარღვევას?

როგორც ჩანს, საეჭვოა, რომ ამას აკეთებენ.

მე გავბედავ ვთქვა, რომ გაბატონებული ვარაუდი არის ის, რომ თუ გენერაციული AI აპი ხელმისაწვდომია გამოსაყენებლად, ხელოვნური ინტელექტის შემქმნელმა ან კომპანიამ, რომელიც ახორციელებს AI-ს, უნდა იცოდეს ან იყოს დარწმუნებული, რომ არაფერია უსიამოვნო იმ პროდუქტებში, რომლებსაც ისინი სთავაზობენ გამოსაყენებლად. თუ შეგიძლიათ მისი გამოყენება, ის უნდა იყოს ზემოთ.

მოდით გადავხედოთ ჩემს ადრინდელ კომენტარს იმის შესახებ, თუ როგორ ვცდილობთ დავამტკიცოთ, რომ კონკრეტული გენერაციული AI მუშაობს არასწორ საფუძველზე მონაცემთა ტრენინგთან დაკავშირებით.

მე ასევე შემიძლია დავამატო, რომ თუ ჩვენ შეგვიძლია დავიჭიროთ ერთი გენერაციული AI ამით, სხვების დაჭერის შანსები სავარაუდოდ გაიზრდება. მე არ ვამბობ, რომ ხელოვნური ინტელექტის ყველა გენერაციული აპლიკაცია ერთსა და იმავე ნავში იქნება. მაგრამ ისინი აპირებენ აღმოჩნდნენ საკმაოდ მკაცრ ზღვებში, როდესაც ერთ-ერთი მათგანი კედელზე იქნება მიმაგრებული.

ამიტომაც უზომოდ ღირებული იქნება თვალი ადევნოთ არსებულ სარჩელებს. პირველი, რომელიც გაიმარჯვებს პრეტენზიულ დარღვევასთან დაკავშირებით, თუ ეს მოხდება, შესაძლოა განწირვა და სიბნელე გამოიწვიოს სხვა გენერაციული ხელოვნური ინტელექტის აპებისთვის, თუ გარკვეული სივიწროვე არ გაურბის უფრო ფართო საკითხებს. ისინი, ვინც წააგებენ პრეტენზიულ დარღვევასთან დაკავშირებით, სულაც არ ნიშნავს იმას, რომ გენერაციულ AI აპებს შეუძლიათ ზარების დარეკვა და აღნიშვნა. შესაძლოა, ზარალი მიეკუთვნებოდეს სხვა ფაქტორებს, რომლებიც არ არის დაკავშირებული სხვა გენერაციულ AI აპებთან და ა.შ.

მე აღვნიშნე, რომ თუ ჩვენ ავიღებთ 100 სიტყვიან ესსეს და ვცდილობთ ვიპოვოთ ზუსტად ეს სიტყვები ზუსტად იმავე თანმიმდევრობით ინტერნეტში, შეიძლება გვქონდეს შედარებით მყარი შემთხვევა პლაგიატისთვის ან საავტორო უფლებების დარღვევისთვის, დანარჩენი ყველაფერი თანაბარია. მაგრამ თუ სიტყვების რაოდენობა, რომლებიც ემთხვევა მცირეა, ჩვენ თითქოს თხელ ყინულზე ვიმყოფებით.

მინდა უფრო ღრმად ჩავუღრმავდე ამას.

შედარების აშკარა ასპექტი შედგება ზუსტად იგივე სიტყვებისგან ზუსტად იმავე თანმიმდევრობით. ეს შეიძლება მოხდეს მთელი პასაჟისთვის. ამის დანახვა მოსახერხებელი იქნებოდა, თითქმის ისე, როგორც ვერცხლის ლანგარზე გადმოგვცეს.

ჩვენ ასევე შეიძლება საეჭვო ვიყოთ, თუ მხოლოდ სიტყვების ფრაგმენტი ემთხვევა. იდეა იქნება იმის დანახვა, არის თუ არა ისინი გადამწყვეტი სიტყვები ან იქნებ შემავსებელი სიტყვები, რომელთა ამოღება ან უგულებელყოფა შეგვიძლია. ჩვენ ასევე არ გვინდა მოგვატყუოს სიტყვების გამოყენება წარსულში ან მომავალ დროში, ან სხვა ჭკუაზე. ასევე გასათვალისწინებელია სიტყვების ეს ვარიაციები.

შედარების კიდევ ერთი დონე იქნება, როდესაც სიტყვები დიდწილად არ არის იგივე სიტყვები, მაგრამ სიტყვები, თუნდაც მრავალფეროვან მდგომარეობაში, მაინც ერთსა და იმავე აზრს გამოხატავენ. მაგალითად, რეზიუმე ხშირად იყენებს საკმაოდ მსგავს სიტყვებს, როგორც ორიგინალურ წყაროს, მაგრამ ჩვენ შეგვიძლია გავიგოთ, რომ შეჯამება, როგორც ჩანს, დაფუძნებულია თავდაპირველ წყაროზე.

შედარების ყველაზე რთული დონე დაფუძნებული იქნებოდა ცნებებზე ან იდეებზე. დავუშვათ, რომ ჩვენ ვხედავთ ნარკვევს, რომელსაც არ აქვს იგივე ან მსგავსი სიტყვები, როგორც შედარების საფუძველი, მაგრამ არსი ან იდეები იგივეა. ჩვენ, რა თქმა უნდა, უხეში ტერიტორიისკენ მივდივართ. თუ ჩვენ ადვილად ვიტყვით, რომ იდეები მჭიდროდ არის დაცული, ჩვენ დავფარავთ ცოდნისა და ცოდნის გაფართოების თითქმის ყველა ფორმას.

ჩვენ შეგვიძლია კიდევ ერთხელ მივმართოთ დუკის უნივერსიტეტის სასარგებლო განმარტებას:

„საავტორო უფლებები არ იცავს იდეებს, მხოლოდ იდეის კონკრეტულ გამოხატვას. მაგალითად, სასამართლომ გადაწყვიტა, რომ დენ ბრაუნმა არ დაარღვია წინა წიგნის საავტორო უფლებები, როდესაც წერდა და ვინჩის კოდი რადგან ყველაფერი, რაც მან ისესხა წინა ნაწარმოებიდან, იყო ძირითადი იდეები და არა სიუჟეტის ან დიალოგის სპეციფიკა. ვინაიდან საავტორო უფლებები მიზნად ისახავს კრეატიული წარმოების წახალისებას, სხვისი იდეების გამოყენება ახალი და ორიგინალური ნაწარმოების შესაქმნელად იცავს საავტორო უფლებების მიზანს, ის არ არღვევს მას. მხოლოდ იმ შემთხვევაში, თუ ვინმე კოპირებს სხვის გამონათქვამს ნებართვის გარეშე, საავტორო უფლებები პოტენციურად ირღვევა.”
„პლაგიატის თავიდან ასაცილებლად, მეორეს მხრივ, უნდა იცოდეთ სხვისგან ნასესხები იდეების წყაროც კი, მიუხედავად იმისა, არის თუ არა მათთან ნასესხები ამ იდეების გამოხატვა. ამრიგად, პარაფრაზი მოითხოვს ციტირებას, მიუხედავად იმისა, რომ ის იშვიათად აჩენს საავტორო უფლებების პრობლემას. ”

გთხოვთ გაითვალისწინოთ, როგორც ადრე გამოვლინდა განსხვავებები ორმაგი პრობლემის ასპექტებს შორის.

ახლა, შედარების მიდგომების პრაქტიკაში გამოყენება არის ის, რაც მრავალი წლის განმავლობაში ხდება. ასე იფიქრე. მოსწავლეებს, რომლებიც წერენ ესეებს თავიანთი სასკოლო დავალების შესასრულებლად, შესაძლოა ცდუნდნენ, აითვისონ კონტენტი ინტერნეტიდან და აჩვენონ, რომ ისინი არიან A-კლასის პულიცერის პრემიის ლაურეატი სიტყვების ავტორი.

ამ პრობლემის მოსაგვარებლად მასწავლებლები დიდი ხანია იყენებენ პლაგიატის შემოწმების პროგრამებს. მასწავლებელი იღებს მოსწავლის თხზულებას და აწვდის მას პლაგიატის შემმოწმებელში. ზოგიერთ შემთხვევაში, მთელი სკოლა ლიცენზირებს პლაგიატის შემოწმების პროგრამის გამოყენებას. როდესაც სტუდენტები წერენ თხზულებას, მათ ჯერ ესე უნდა გაგზავნონ პლაგიატის შემოწმების პროგრამაში. მასწავლებელს ეცნობა, თუ რას იუწყება პროგრამა.

სამწუხაროდ, თქვენ უნდა იყოთ უკიდურესად ფრთხილად იმის შესახებ, თუ რას ამბობს პლაგიატის შემოწმების ეს პროგრამები. მნიშვნელოვანია გულდასმით შეაფასოთ, არის თუ არა მოხსენებული ჩვენებები მართებული. როგორც უკვე აღვნიშნეთ, ნაწარმოების კოპირების დადგენის შესაძლებლობა შეიძლება ბუნდოვანი იყოს. თუ დაუფიქრებლად ეთანხმებით შემოწმების პროგრამის შედეგს, შეგიძლიათ ტყუილად დაადანაშაულოთ სტუდენტი კოპირებაში, როდესაც მათ ეს არ გააკეთეს. ეს შეიძლება სულის გამანადგურებელი იყოს.

წინსვლის შემდეგ, ჩვენ შეგვიძლია ვცადოთ პლაგიატის შემოწმების პროგრამების გამოყენება გენერაციული AI შედეგების ტესტირების სფეროში. მოეპყარით გამოტანილ ნარკვევებს გენერაციული AI აპლიკაციიდან, თითქოს ეს დაწერილი იყოს სტუდენტის მიერ. შემდეგ ჩვენ ვაფასებთ რას ამბობს პლაგიატის შემმოწმებელი. ეს კეთდება მარილის მარცვლით.

არსებობს უახლესი კვლევის კვლევა, რომელიც ცდილობდა ამ ტიპის შედარებების ოპერატიულიზაციას გენერაციული AI-ის კონტექსტში სწორედ ამ გზით. მსურს თქვენთან ერთად რამდენიმე საინტერესო აღმოჩენის გაცნობა.

პირველ რიგში, საჭიროა დამატებითი ფონი. გენერაციულ AI-ს ზოგჯერ მოიხსენიებენ, როგორც LLMs (დიდი ენობრივი მოდელები) ან უბრალოდ LMs (ენის მოდელები). მეორეც, ChatGPT დაფუძნებულია სხვა OpenAI გენერაციული AI პაკეტის ვერსიაზე, სახელწოდებით GPT-3.5. GPT-3.5-მდე იყო GPT-3, მანამდე კი GPT-2. დღესდღეობით, GPT-2 უფრო პრიმიტიულად ითვლება უფრო გვიანდელ სერიებთან შედარებით და ჩვენ ყველა მოუთმენლად ველოდებით GPT-4-ის მომავალ გამოვლენას, იხილეთ ჩემი დისკუსია აქ. ბმული აქ.

კვლევითი კვლევა, რომელიც მინდა მოკლედ შევისწავლო, შედგებოდა GPT-2-ის შესწავლისგან. ამის გაცნობიერება მნიშვნელოვანია, რადგან ჩვენ ახლა უფრო მეტად ვართ GPT-2-ის შესაძლებლობებს. არ გააკეთოთ გამონაყარი დასკვნა GPT-2-ის ამ ანალიზის შედეგებთან დაკავშირებით. მიუხედავად ამისა, ჩვენ შეგვიძლია ბევრი რამ ვისწავლოთ GPT-2-ის შეფასებიდან. კვლევა სახელწოდებით "ენის მოდელები პლაგიატია?" Jooyoung Lee-ის, Thai Le-ს, Jinghui Chen-ისა და Dongwon Lee-ის მიერ, რომლებიც გამოდიან ACM WWW '23-ში, 1 წლის 5–2023 მაისი, ოსტინი, ტეხასი, აშშ.

ეს არის მათი მთავარი საკვლევი კითხვა:

"რამდენად (არ შემოიფარგლება დამახსოვრებაზე) LM-ები იყენებენ ფრაზებს ან წინადადებებს მათი სასწავლო ნიმუშებიდან?"

მათ გამოიყენეს პოტენციური პლაგიატის ეს სამი დონე ან კატეგორია:

„სიტყვიერი პლაგიატი: სიტყვების ან ფრაზების ზუსტი ასლები ტრანსფორმაციის გარეშე“.
"პარაფრაზული პლაგიატი: სინონიმური ჩანაცვლება, სიტყვების გადალაგება და/ან უკანა თარგმანი."
"იდეის პლაგიატი: ძირითადი შინაარსის წარმოდგენა წაგრძელებული ფორმით."

GPT-2 მართლაც იყო ტრენინგი ინტერნეტის მონაცემებზე და, შესაბამისად, შესაფერისი კანდიდატი ამ ტიპის ანალიზისთვის:

„GPT-2 წინასწარ არის გაწვრთნილი WebText-ზე, რომელიც შეიცავს 8 მილიონზე მეტ დოკუმენტს, ამოღებული 45 მილიონი Reddit ბმულიდან. ვინაიდან OpenAI-მ საჯაროდ არ გამოუშვა WebText, ჩვენ ვიყენებთ OpenWebText-ს, რომელიც არის WebText კორპუსის ღია წყაროს რეკრეაცია. იგი საიმედოდ იქნა გამოყენებული წინა ლიტერატურის მიერ. ”

შერჩევითი ძირითადი მიგნებები, რომლებიც ამოღებულია კვლევისგან, შედგება:

„ჩვენ აღმოვაჩინეთ, რომ წინასწარ გაწვრთნილი GPT-2 ოჯახები ახდენენ პლაგიატს OpenWebText-იდან.
”ჩვენი დასკვნები აჩვენებს, რომ დახვეწილი რეგულირება მნიშვნელოვნად ამცირებს სიტყვასიტყვით პლაგიატის შემთხვევებს OpenWebText-დან.”
„კარლინის და სხვებთან შესაბამისობაში. და Carlini et al., ჩვენ აღმოვაჩენთ, რომ უფრო დიდი GPT-2 მოდელები (დიდი და xl) ზოგადად უფრო ხშირად წარმოქმნიან პლაგიატირებულ თანმიმდევრობებს, ვიდრე მცირე ზომის.
”თუმცა, სხვადასხვა LM-ებმა შეიძლება აჩვენონ პლაგიატის სხვადასხვა ნიმუშები და, შესაბამისად, ჩვენი შედეგები შეიძლება პირდაპირ არ განზოგადდეს სხვა LM-ებზე, მათ შორის უფრო უახლესი LM-ებზე, როგორიცაა GPT-3 ან BLOOM.”
„გარდა ამისა, ცნობილია, რომ პლაგიატის ავტომატურ დეტექტორებს აქვთ წარუმატებლობის მრავალი რეჟიმი (როგორც ცრუ ნეგატივებში, ასევე ცრუ პოზიტიურებში).
„იმის გათვალისწინებით, რომ LM-ების ტრენინგის მონაცემების უმეტესი ნაწილი იშლება ვებიდან კონტენტის მფლობელების ინფორმირების გარეშე, მათ მიერ სიტყვების, ფრაზებისა და ძირითადი იდეების გამეორება ტრენინგის ნაკრებიდან გენერირებულ ტექსტებში ეთიკურ გავლენას ახდენს“.

ჩვენ ნამდვილად გვჭირდება კიდევ ბევრი ასეთი კვლევა.

თუ გაინტერესებთ, როგორ ადარებს GPT-2 GPT-3-ს მონაცემთა ტრენინგთან დაკავშირებით, საკმაოდ შესამჩნევი კონტრასტია.

მოხსენებული მითითებების თანახმად, GPT-3-ის მონაცემთა სწავლება ბევრად უფრო ვრცელი იყო:

„მოდელს ტრენინგი ჩაუტარდა ინტერნეტის ტექსტური მონაცემთა ბაზების გამოყენებით. ეს მოიცავდა უზარმაზარ 570 გბ მონაცემს, რომელიც მიღებულ იქნა წიგნებიდან, ვებ ტექსტებიდან, ვიკიპედიიდან, სტატიებიდან და ინტერნეტში არსებული სხვა ნაწერებიდან. უფრო ზუსტად რომ ვთქვათ, 300 მილიარდი სიტყვა შევიდა სისტემაში“ (BBC Science Focus ჟურნალი, „ChatGPT: ყველაფერი, რაც უნდა იცოდეთ OpenAI-ს GPT-3 ხელსაწყოს შესახებ“ ალექს ჰიუზი, 2023 წლის თებერვალი).

მათთვის, ვინც დაინტერესებულია GPT-3-ისთვის მონაცემთა ტრენინგის უფრო სიღრმისეული აღწერით, აქ არის ამონაწერი ოფიციალური GPT-3 მოდელის ბარათიდან, რომელიც გამოქვეყნებულია GitHub-ზე (ბოლო განახლების თარიღი ჩამოთვლილია 2020 წლის სექტემბერში):

„GPT-3 სასწავლო მონაცემთა ნაკრები შედგება ინტერნეტში განთავსებული ტექსტისგან, ან ინტერნეტში ატვირთული ტექსტისგან (მაგ., წიგნებისგან). ინტერნეტ-მონაცემები, რომლებზეც მას დღემდე სწავლობენ და აფასებენ, მოიცავს: (1) CommonCrawl მონაცემთა ნაკრების ვერსიას, გაფილტრული მაღალი ხარისხის საცნობარო კორპუსებთან მსგავსების საფუძველზე, (2) Webtext მონაცემთა ნაკრების გაფართოებულ ვერსიას, (3) ) ორი ინტერნეტზე დაფუძნებული წიგნის კორპუსი და (4) ინგლისურენოვანი ვიკიპედია“.
მისი სასწავლო მონაცემების გათვალისწინებით, GPT-3-ის შედეგები და შესრულება უფრო მეტად წარმოადგენენ ინტერნეტთან დაკავშირებულ პოპულაციას, ვიდრე ვერბალურ, არაციფრულ კულტურაში ჩაფლული. ინტერნეტთან დაკავშირებული მოსახლეობა უფრო განვითარებული ქვეყნების წარმომადგენელია, მდიდარი, ახალგაზრდა და მამაკაცური შეხედულებებით და ძირითადად აშშ-ზეა ორიენტირებული. განვითარებული ქვეყნების მდიდარი ერები და მოსახლეობა ინტერნეტის უფრო მაღალ შეღწევადობას აჩვენებენ. ციფრული გენდერული დაყოფა ასევე გვიჩვენებს, რომ ნაკლები ქალია წარმოდგენილი ონლაინ მსოფლიოში. გარდა ამისა, იმის გამო, რომ მსოფლიოს სხვადასხვა ნაწილს აქვს ინტერნეტის შეღწევისა და წვდომის სხვადასხვა დონე, მონაცემთა ნაკრები ნაკლებად წარმოადგენს ნაკლებად დაკავშირებულ თემებს.

GPT-3-ის შესახებ ზემოაღნიშნული მითითებიდან ერთ-ერთი გამონაკლისი არის ის, რომ გენერაციული ხელოვნური ინტელექტის გამომწვევი წესი არის ის, რომ რაც უფრო მეტი ინტერნეტ მონაცემების სკანირება შეგიძლიათ, გენერაციული AI-ის გაუმჯობესების ან გაუმჯობესების შანსები იზრდება.

თქვენ შეგიძლიათ შეხედოთ ამას ორი გზით.

1) გაუმჯობესებული AI. ჩვენ გვექნება გენერაციული ხელოვნური ინტელექტი, რომელიც დაცოცავს რაც შეიძლება მეტ ინტერნეტში. საინტერესო შედეგი ის არის, რომ გენერაციული AI უკეთესი იქნება, ვიდრე უკვე არის. ეს არის რაღაც მოუთმენლად.
2) დიდი პოტენციალის კოპირება. ინტერნეტის სკანირების ეს გაფართოება საზიზღრად და მიმზიდველად ხდის პლაგიატს და საავტორო უფლებების დარღვევის პრობლემას პოტენციურად უფრო და უფრო დიდს. მიუხედავად იმისა, რომ ადრე არ იყო ამდენი კონტენტის შემქმნელის გავლენა, ზომა აყვავდება. თუ თქვენ ხართ იურისტი კონტენტის შემქმნელთა მხარეზე, ამას ცრემლები მოაქვს (შეიძლება შეშფოთების ცრემლები ან სიხარულის ცრემლები იმის გამო, თუ რა პერსპექტივები მოაქვს ამას სასამართლო პროცესების თვალსაზრისით).

ჭიქა ნახევრად სავსეა თუ ნახევრად ცარიელი?

შენ გადაწყვიტე.

ლეგალური ნაღმები ელოდება

კითხვა, რომელიც შეიძლება დაფიქრდეთ არის თუ არა თქვენი გამოქვეყნებული ინტერნეტ კონტენტი ითვლება სამართლიან თამაშად სკანირებისთვის. თუ თქვენი კონტენტი დგას paywall-ის უკან, სავარაუდოდ, ის არ არის სკანირების სამიზნე, რადგან მისი ადვილად მიღწევა შეუძლებელია, ეს დამოკიდებულია paywall-ის სიძლიერეზე.

მე გამოვიცნობდი, რომ ყოველდღიური ადამიანების უმეტესობას არ აქვს მათი შინაარსი ჩაფლული ანაზღაურების კედლის მიღმა. მათ სურთ, რომ მათი შინაარსი საჯაროდ იყოს ხელმისაწვდომი. ისინი ვარაუდობენ, რომ ხალხი ამას შეხედავს.

ნიშნავს თუ არა თქვენი კონტენტის საჯაროდ ხელმისაწვდომობა აქსიომატიურად იმასაც, რომ თქვენ ამტკიცებთ მის სკანირებას გენერაციული ხელოვნური ინტელექტის მიერ, რომელიც სწავლობს მონაცემებს?

შეიძლება კი, შეიძლება არა.

ეს არის ერთ-ერთი იმ იურიდიული საკითხი.

დავუბრუნდეთ ადრე ციტირებულს ბლუმბერგის კანონი სტატიაში, ავტორები აღნიშნავენ მრავალ ვებსაიტთან დაკავშირებული წესებისა და პირობების (T&C) მნიშვნელობას:

„ლეგალური სახმელეთო ნაღმი, რომელიც ძლიერ იგნორირებულია უნებლიე AI კომპანიების მიერ, რომლებიც მართავენ ონლაინ ბოტებს მონაცემთა ამოღების მიზნით, დამალულია პირობებში, რომლებიც ჩვეულებრივ ხელმისაწვდომია ყველა ტიპის საჯარო ვებსაიტზე. ამჟამად გადაუჭრელი IP კანონისა და საავტორო უფლებების დარღვევის დილემისგან განსხვავებით, ვებსაიტის წესები და პირობები მხარდაჭერილია კარგად დამკვიდრებული საკონტრაქტო კანონით და, როგორც წესი, შეიძლება აღსრულდეს სასამართლოში საკმარისი რაოდენობის პრეცედენტების საფუძველზე.

ისინი მიუთითებენ, რომ თუ ვივარაუდებთ, რომ თქვენს ვებსაიტს აქვს ლიცენზირებასთან დაკავშირებული გვერდი, დიდი შანსია, რომ თუ იყენებდით სტანდარტიზებულ თანამედროვე შაბლონს, ის შეიძლება შეიცავდეს მნიშვნელოვან პუნქტს:

„შესაბამისად, ვებსაიტების ქვაბის პირობებისა და პირობების უმეტესობა - რომელიც უხვად ხელმისაწვდომია უფასო წვდომით - შეიცავს პუნქტს, რომელიც კრძალავს მონაცემთა ავტომატიზირებულ ამოღებას. ბედის ირონიით, ასეთი თავისუფლად ხელმისაწვდომი შაბლონები შესაძლოა გამოყენებული იყოს ChatGPT ტრენინგისთვის. აქედან გამომდინარე, კონტენტის მფლობელებს შეუძლიათ მოისურვონ გადახედონ თავიანთ წესებსა და პირობებს და შეიტანონ ცალკე პუნქტი, რომელიც კატეგორიულად კრძალავს ვებსაიტებიდან ნებისმიერი კონტენტის გამოყენებას ხელოვნური ინტელექტის სწავლებისთვის ან მასთან დაკავშირებული მიზნებისთვის, ხელით თუ ავტომატურად შეგროვებული, ვებსაიტის მფლობელის წინასწარი წერილობითი ნებართვის გარეშე. .”

დამატებული kicker შედის მათ ანალიზში პოტენციური ქმედებების შესახებ, რომ კონტენტის შემქმნელებმა განახორციელონ თავიანთი ვებსაიტები:

„აქედან გამომდინარე, ლიკვიდაციური ზიანის ანაზღაურების დებულების ჩასმა ყოველი დარღვევისთვის, აკრძალვის დებულების დარღვევისთვის, გაძლიერებული ობლიგაციების გარეშე დებულებით, შეიძლება იყოს მდგრადი გამოსავალი კრეატიული შინაარსის იმ ავტორებისთვის, რომლებსაც არ სურთ თავიანთი ნაყოფის მიწოდება. ინტელექტუალური შრომა ხელოვნური ინტელექტის სწავლების მიზნებისთვის, ამისთვის ანაზღაურების გარეშე ან, ყოველ შემთხვევაში, სათანადო კრედიტის მინიჭების გარეშე.

შეიძლება გსურდეთ კონსულტაცია გაუწიოთ თქვენს ადვოკატს ამის შესახებ.

ზოგიერთი ამბობს, რომ ეს არის სასიცოცხლო გზა, რათა სცადოთ და უთხრათ ხელოვნური ინტელექტის შემქმნელებს, რომ შინაარსის შემქმნელები უხვად სერიოზულად არიან განწყობილნი თავიანთი შინაარსის დაცვაში. დარწმუნდით, რომ თქვენს ლიცენზირებას აქვს სათანადო ფორმულირება, როგორც ჩანს, აფრთხილებს AI შემქმნელებს.

თუმცა, სხვები ცოტა უარესია. ისინი დამწუხრებულად ამბობენ, რომ თქვენ შეგიძლიათ განაგრძოთ ყველაზე მკაცრი და ყველაზე ლეტალური იურიდიული ენის დაყენება თქვენს ვებსაიტზე, მაგრამ საბოლოოდ, ხელოვნური ინტელექტის შემქმნელები აპირებენ მის სკანირებას. თქვენ არ იცით, რომ ასე მოიქცნენ. თქვენ გექნებათ დროის ეშმაკი, რომელიც დაამტკიცებს, რომ მათ გააკეთეს. თქვენ ნაკლებად სავარაუდოა, რომ აღმოაჩენთ, რომ მათი შედეგები ასახავს თქვენს შინაარსს. ეს რთული ბრძოლაა, რომლის მოგებას არ აპირებთ.

კონტრარგუმენტი არის ის, რომ თქვენ თმობთ ბრძოლას მანამდეც კი. თუ თქვენ არ გაქვთ საკმარისი იურიდიული ენა, და თუ ოდესმე დაიჭერთ მათ, ისინი ატრიალებენ და გაურბიან გზას ყოველგვარი პასუხისმგებლობისგან თავის დასაღწევად. ყველაფერი იმიტომ, რომ თქვენ არ გამოაქვეყნეთ სწორი სახის იურიდიული ენა.

იმავდროულად, სხვა მიდგომა, რომელიც მიზნად ისახავს მიზიდულობის მოპოვებას, შედგება მარკირების თქვენს ვებსაიტს აქვს ის, რაც ამბობს, რომ საიტი არ უნდა დასკანირდეს გენერაციული AI-ით. იდეა არის ის, რომ შეიქმნება სტანდარტიზებული მარკერი. საიტებს, სავარაუდოდ, შეუძლიათ მარკერის დამატება თავიანთ საიტზე. ხელოვნური ინტელექტის შემქმნელებს ეუბნებოდნენ, რომ მათ უნდა შეცვალონ მონაცემების სკანირება, რათა გამოტოვონ მონიშნული ვებსაიტები.

შეიძლება თუ არა მარკერის მიდგომა წარმატებული იყოს? შეშფოთება მოიცავს მარკერების მოპოვებისა და განთავსების ხარჯებს. გარდა ამისა, დაიცავენ თუ არა ხელოვნური ინტელექტის შემქმნელები მარკერებს და უზრუნველყოფენ, რომ თავიდან აიცილონ მონიშნული საიტების სკანირება. კიდევ ერთი პერსპექტივა არის ის, რომ მაშინაც კი, თუ ხელოვნური ინტელექტის შემქმნელები არ ასრულებენ მარკირებას, ეს იძლევა კიდევ ერთ მინიშნებას სასამართლოში მისასვლელად და იმის მტკიცებით, რომ შინაარსის შემქმნელმა ბოლო მილი გაიარა, რათა სცადა და გაეფრთხილებინა AI სკანირების შესახებ.

დიახ, ეს ყველაფერი ატრიალებს თქვენს თავს.

დასკვნა

რამდენიმე საბოლოო შენიშვნა ამ მწვავე თემაზე.

მზად ხართ მთელი ამ AI-ის, როგორც პლაგიატორისა და საავტორო უფლებების დამრღვევის დილემის დამაბრმავებელი პერსპექტივისთვის?

პლაგიატის ან საავტორო უფლებების დარღვევის დროს გენერაციული ხელოვნური ინტელექტის „დაჭერის“ დაშვების დიდი ნაწილი დამოკიდებულია იმ შედეგების აღმოჩენაზე, რომლებიც ძალიან ჰგავს წინა სამუშაოები, როგორიცაა კონტენტი ინტერნეტში, რომელიც პოტენციურად დასკანირებული იყო მონაცემთა ტრენინგის დროს.

თუმცა, დავუშვათ, რომ აქ მოქმედებს გაყოფა და იბატონე ხრიკი.

აი რას ვგულისხმობ.

თუ გენერაციული ხელოვნური ინტელექტი ისესხებს მცირე ნაწილს აქედან და ცოტას იქიდან, საბოლოოდ არევს მათ ერთმანეთში რაიმე კონკრეტული გამომავალის მისაღებად, გოთჩის მომენტის მიღების შანსები საოცრად მცირდება. როგორც ჩანს, ნებისმიერი გამომავალი არ აიწევს საკმარის ზღვარს, რომ შეიძლება დანამდვილებით თქვათ, რომ იგი ამოღებულია ერთი კონკრეტული წყაროდან. შედეგად მიღებული ესსე ან გამომუშავების სხვა რეჟიმები მხოლოდ ფრაქციულად იქნება შესატყვისი. და ჩვეულებრივი მიდგომით იმის მტკიცების მცდელობისას, რომ ადგილი ჰქონდა პლაგიატს ან საავტორო უფლებების დარღვევას, თქვენ ჩვეულებრივ უნდა აჩვენოთ იმაზე მეტი, ვიდრე რაღაც წვრილმანი თამაშია, განსაკუთრებით იმ შემთხვევაში, თუ ნაჭერი არ არის გამორჩეული და შეიძლება ფართოდ მოიძებნოს ინტერნეტში (დაბალი მითვისების მტკიცების ნებისმიერი ადეკვატური ტვირთი).

შეგიძლიათ მაინც დამაჯერებლად განაცხადოთ, რომ გენერაციული AI-ს მიერ მონაცემთა სწავლებამ წაშალა ვებსაიტები და შინაარსის შემქმნელები, მაშინაც კი, თუ შემოთავაზებული მტკიცებულება აშკარად არამატერიალური პროპორციაა?

Იფიქრე ამაზე.

თუ ჩვენ ვაწყდებით პოტენციურ პლაგიატს და საავტორო უფლებების მასშტაბურ დარღვევას, შეიძლება დაგჭირდეთ ჩვენი მიდგომის შეცვლა იმის თაობაზე, თუ რა წარმოადგენს პლაგიატს და/ან საავტორო უფლებების დარღვევას. შესაძლოა, არსებობს პლაგიატის ან საავტორო უფლებების დარღვევის ფაქტი ძირითადად ან ზოგადად. ათასობით ან მილიონობით მცირე ფრაგმენტისგან შემდგარი მოზაიკა შეიძლება ჩაითვალოს ასეთი დარღვევების ჩადენად. თუმცა აშკარა უბედურება ის არის, რომ ამან შეიძლება ყველა სახის შინაარსი მოულოდნელად აღმოჩნდეს დარღვევების ქოლგის ქვეშ. ეს შეიძლება იყოს მოლიპულ ფერდობზე.

მძიმე ფიქრები.

მძიმე აზრებზე საუბრისას ლეო ტოლსტოიმ, ლეგენდარულმა მწერალმა, ცნობილი თქვა: „ცხოვრების ერთადერთი აზრი კაცობრიობის მსახურებაა“.

თუ თქვენი ვებსაიტი და სხვების ვებსაიტები სკანირებულია ხელოვნური ინტელექტის გასაუმჯობესებლად და თუმცა ამისთვის არც ერთ პენსს არ იღებ, იქნებ საზეიმო ნუგეში გქონდეთ მხურვალე რწმენით, რომ წვლილი შეაქვთ კაცობრიობის მომავალში? როგორც ჩანს, ეს მცირე ფასია.

ისე, თუ ხელოვნური ინტელექტი არ აღმოჩნდება საშინელი ეგზისტენციალური რისკი, რომელიც ანადგურებს ყველა ადამიანს არსებობისგან. თქვენ არ უნდა აიღოთ ამის დამსახურება. ვვარაუდობ, რომ თქვენ არ მიიღებთ წვლილს ამ საშინელ შედეგში. ამ დამღუპველი პროგნოზის გვერდის ავლით, შეიძლება იფიქროთ, რომ თუ ხელოვნური ინტელექტის შემქმნელები გამოიმუშავებენ ფულს მათი გენერაციული AI-დან და, როგორც ჩანს, სიამოვნებით სარგებლობენ, თქვენც უნდა მიიღოთ ღვეზელის ნაჭერი. გააზიარეთ და გააზიარეთ ერთნაირად. ხელოვნური ინტელექტის შემქმნელებმა უნდა მოითხოვონ ნებისმიერი ვებსაიტის სკანირების ნებართვა და შემდეგ ასევე მოლაპარაკება მოახდინონ ფასზე, რომელიც უნდა გადაიხადონ სკანირების უფლებაზე.

მიეცით კრედიტი იქ, სადაც კრედიტი არის საჭირო.

მოდით, ბოლო სიტყვა მივცეთ სერ უოლტერ სკოტს: „ოჰ, რა ჩახლართულ ქსელს ვქსოვთ. როდესაც პირველად ვვარჯიშობთ მოტყუებას“.

ეს შეიძლება ეხებოდეს, თუ გჯერათ, რომ მოტყუება ხდება, ან შესაძლოა არ ვრცელდება, თუ ფიქრობთ, რომ ყველაფერი კარგად და სრულიად პირდაპირი და კანონიერია. გთხოვთ, გულუხვად მიეცით საკუთარ თავს დამსახურება ამაზე ფიქრისთვის. Თქვენ ამას იმსახურებთ.

წყარო: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- და-აი-კანონი/