GitHub Copilot 究竟是什么?
Copilot 是一種基于公開源代碼和文本訓(xùn)練的人工智能。它實(shí)時(shí)為程序員提供代碼建議。
Copilot 還使用 GPL 等 Copyleft 許可下的眾多 GitHub 存儲(chǔ)庫作為培訓(xùn)材料。
那么為什么它和“抄襲有關(guān)?”
這還和當(dāng)年那一段“雷神代碼”有關(guān)。
有行業(yè)從業(yè)者稱,在利用GitHub Copilot 走平方根倒數(shù)速算法(Fast Inverse Square Root),結(jié)果出人意料。
它簡(jiǎn)直“完美復(fù)刻”那段有名的代碼,就連當(dāng)年那句“what the fuck”的注釋也用上了。
很難不讓人認(rèn)為這是抄襲。
只能說微軟、GitHub、OpenAI 還想收費(fèi)簡(jiǎn)直做夢(mèng)!
一些評(píng)論家指責(zé) GitHub 侵犯版權(quán),因?yàn)?Copilot 本身不是在 Copyleft 許可下發(fā)布的,而是在測(cè)試后作為付費(fèi)服務(wù)提供的階段。
這場(chǎng)爭(zhēng)論同時(shí)涉及幾個(gè)棘手的版權(quán)問題。
收費(fèi)還是免費(fèi)?
GitHub Copilot 在訓(xùn)練過程中必定使用過 GPL 協(xié)議下的代碼,那么機(jī)器學(xué)習(xí)系統(tǒng)產(chǎn)生的作品,甚至機(jī)器學(xué)習(xí)系統(tǒng)本身,都算是 GPL 協(xié)議中規(guī)定的衍生作品嗎?
如果是那么GitHub Copilot很難避免的就是免費(fèi)開源,原因不言自明,如果不是那是不是說明開發(fā)者可以利用 GitHub Copilot 來“清除”代碼的 GPL 協(xié)議,從此再也無需遵循該協(xié)議?
工作原理
GitHub Copilot 由 OpenAI 研發(fā)的新 AI 系統(tǒng) Codex 提供支持,Codex 是 GPT-3 的延伸版本,該模型接受過公開源代碼和自然語言的訓(xùn)練,因此它理解編程和人類語言。
機(jī)器生成的代碼不是衍生作品
一些評(píng)論員將 GitHub Copilot 視為侵犯版權(quán),因?yàn)樵摮绦虿粌H使用受版權(quán)保護(hù)的軟件代碼(其中很多是在 GPL 下發(fā)布的)作為培訓(xùn)材料,而且還生成軟件代碼作為輸出。根據(jù)批評(píng)者的說法,這個(gè)輸出代碼是訓(xùn)練數(shù)據(jù)集的衍生作品,因?yàn)槿绻麤]有訓(xùn)練數(shù)據(jù),人工智能將無法生成代碼。根據(jù) GitHub 的常見問題解答,在少數(shù)情況下,Copilot 還會(huì)從訓(xùn)練數(shù)據(jù)集中復(fù)制短片斷。