劃重點(diǎn):
騰訊科技訊 據(jù)國外媒體報道,Perplexity AI,作為人工智能搜索領(lǐng)域的創(chuàng)新者,憑借其前瞻性的愿景和堅(jiān)實(shí)的資金基礎(chǔ),迅速在行業(yè)中占據(jù)了一席之地。該公司的投資者包括亞馬遜創(chuàng)始人杰夫·貝索斯(Jeff Bezos)家族基金、英偉達(dá)、以及知名投資人巴拉吉·斯里尼瓦桑(Balaji Srinivasan)等。
Perplexity的產(chǎn)品——一款能夠?qū)崟r訪問互聯(lián)網(wǎng)并用自然語言流暢回答問題的聊天機(jī)器人——被首席執(zhí)行官阿拉文德·斯里尼瓦桑(Aravind Srinivasan)形象地稱為"答案引擎"。在Perplexity即將以10億美元的高估值完成融資之際,斯里尼瓦桑進(jìn)一步闡釋了產(chǎn)品的獨(dú)特之處,稱其為"維基百科和ChatGPT的完美結(jié)合"。后來在面對外界對內(nèi)容原創(chuàng)性的質(zhì)疑時,斯里尼瓦桑明確表示,Perplexity的角色是“信息的智能聚合者”。
Perplexity聊天機(jī)器人對自己的定位也非常明確。它自述稱:“Perplexity AI是一款融合了傳統(tǒng)搜索引擎強(qiáng)大功能和聊天機(jī)器人交互優(yōu)勢的人工智能搜索引擎。通過每日對網(wǎng)絡(luò)的全面索引和對最新文章的深入分析,為用戶提供了準(zhǔn)確、及時且易于理解的答案?!边@種自我描述不僅凸顯了Perplexity AI的核心優(yōu)勢,也傳達(dá)了其致力于提供高質(zhì)量信息服務(wù)的決心。
01 無視機(jī)器人排除協(xié)議
不過媒體分析和開發(fā)者羅布·奈特(Robb Knight)的研究表明,Perplexity似乎在抓取網(wǎng)站上不希望被機(jī)器人訪問的區(qū)域中的內(nèi)容,無視廣泛接受的機(jī)器人排除協(xié)議(Robots Exclusion Protocol)。機(jī)器人排除協(xié)議,也被稱為爬蟲協(xié)議,是一種網(wǎng)站與網(wǎng)絡(luò)爬蟲之間的通信協(xié)議。通過這個協(xié)議,網(wǎng)站管理員可以指定哪些頁面是允許爬蟲抓取的,哪些頁面是不允許的。該協(xié)議的目的是保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息,確保用戶個人信息和隱私不被侵犯。
此外,Perplexity的聊天機(jī)器人在提供答案時,雖然聲稱能夠提供即時、可靠的信息和完整的來源引用,卻也被發(fā)現(xiàn)有時會編造事實(shí)。盡管Perplexity聲稱其聊天機(jī)器人能夠訪問并使用原始報道內(nèi)容,但媒體服務(wù)器的訪問日志中并未發(fā)現(xiàn)Perplexity公布的IP地址的訪問記錄,這引發(fā)了對其技術(shù)運(yùn)作方式的疑問。
最近,Perplexity在其官方文檔中公開了一個鏈接,列出了其網(wǎng)絡(luò)爬蟲使用的IP地址,看似是為了增加透明度。但調(diào)查顯示,Perplexity還使用了至少一個未公開的IP地址來訪問和抓取數(shù)據(jù),這些行為與網(wǎng)站的阻止設(shè)置相違背。面對這一發(fā)現(xiàn),Perplexity已從文檔中移除了公開IP地址的信息。
這個未公開的IP地址44.221.181.252,在近三個月內(nèi)至少訪問了Condé Nast旗下媒體822次。Condé Nast的一位資深工程師表示,這只是一個保守的估計(jì),因?yàn)楣局槐A袅瞬糠志W(wǎng)絡(luò)日志。通過創(chuàng)建新網(wǎng)站并監(jiān)控服務(wù)器日志,媒體幾乎可以確定一個與Perplexity緊密相關(guān)的IP地址。當(dāng)要求Perplexity聊天機(jī)器人對該網(wǎng)站內(nèi)容進(jìn)行總結(jié)時,服務(wù)器記錄顯示這個IP地址訪問了該網(wǎng)站。開發(fā)者奈特進(jìn)行的類似測試也發(fā)現(xiàn)了相同的IP地址。
02 與初創(chuàng)公司形象的偏差
盡管Perplexity的用戶界面上有圖形顯示,似乎表明聊天機(jī)器人在回答問題前會"閱讀"特定的源材料,但實(shí)際上,在某些情況下,Perplexity可能并沒有總結(jié)真實(shí)的新聞文章。它可能只是基于網(wǎng)址(URL)和搜索引擎中的信息碎片,如摘要和元數(shù)據(jù),重建文章內(nèi)容,然后提供看似基于直接訪問原文的摘要。換句話說,在Perplexity估值達(dá)到10億美元的背后,它似乎違背了自己的承諾,做了一些本不打算做的事情;同時又未能兌現(xiàn)其宣稱的能力,未能完成它所聲稱會完成的任務(wù)。
Perplexity首席執(zhí)行官斯里尼瓦桑對此發(fā)表聲明稱:“媒體報道的問題顯示出對Perplexity和互聯(lián)網(wǎng)運(yùn)作方式的深刻且根本的誤解?!边@份聲明并沒有對報道的具體內(nèi)容提出異議,斯里尼瓦桑也沒有回應(yīng)后續(xù)問題,即他是否對媒體或奈特的分析持有異議。
某媒體在6月6日發(fā)表了一篇關(guān)于前谷歌CEO埃里克·施密特(Eric Schmidt)新創(chuàng)辦的公司正在積極招募人才,并測試具有潛在軍事用途的人工智能無人機(jī)的獨(dú)家報道。第二天,該媒體的編輯約翰·帕奇科夫斯基(John Paczkowski)在社交媒體平臺X上指出,Perplexity基本上復(fù)制了這篇報道的主要內(nèi)容。他寫道:“它抄襲了我們大部分的報道,并以最容易被忽視的方式引用了我們和一些轉(zhuǎn)發(fā)我們報道的博客作為來源?!?/P>
也就在同一天,斯里尼瓦桑對帕奇科夫斯基的評論表示感謝,并指出復(fù)制該媒體獨(dú)家報道的產(chǎn)品功能還有待改進(jìn),他也同意應(yīng)該更突出地引用來源。斯里尼瓦桑指出:“我們持續(xù)開發(fā)創(chuàng)新的出版合作產(chǎn)品和策略,旨在與媒體公司的長遠(yuǎn)發(fā)展目標(biāo)和利益保持一致。我們很快將發(fā)布相關(guān)產(chǎn)品,敬請期待!”、
雖然外界對Perplexity的行為方式頗為關(guān)注,但這在一定程度上掩蓋了更重要的問題:它是如何做到的。關(guān)于Perplexity所做的事情,基本情況并沒有太大爭議:Perplexity通過總結(jié)新聞文章來盈利,這種做法自新聞?wù)Q生以來就存在,并且得到了廣泛但有限制的法律保護(hù)。斯里尼瓦桑承認(rèn),有時這些摘要并沒有充分或突出地引用它們的來源,但他更廣泛地否認(rèn)了任何不道德或非法的行為。他表示:“Perplexity從未從任何人那里剽竊內(nèi)容。我們的引擎沒有在任何人的內(nèi)容上進(jìn)行訓(xùn)練?!?/P>
這種辯解方式有些奇怪,因?yàn)樗貞?yīng)了一個實(shí)際上并沒有人提出的問題。Perplexity的主要產(chǎn)品并不是需要在大量數(shù)據(jù)上進(jìn)行訓(xùn)練的大語言模型,而更像是一個圍繞這類系統(tǒng)的包裝器。正如記者所做的那樣,支付20美元購買Perplexity的“Pro”訂閱后,可以從五種AI模型中選擇使用。其中一種名為“Sonar Large 32k”的模型是Perplexity獨(dú)有的,它基于由Meta的LLaMa 3構(gòu)建;其他的模型則是OpenAI和Anthropic提供的各種現(xiàn)成模型。
Perplexity的運(yùn)作方式頗為獨(dú)特:當(dāng)用戶發(fā)起查詢時,其聊天機(jī)器人不僅會檢索自己的數(shù)據(jù)庫來構(gòu)建答案,還會利用其廣為宣傳的“實(shí)時訪問網(wǎng)絡(luò)”功能來收集信息,之后將這些信息輸入用戶選擇的AI模型中,以生成回答。因此,盡管Perplexity訓(xùn)練了自己的模型,并聲稱運(yùn)用“復(fù)雜的人工智能”來解析問題,將其簡單定義為“AI初創(chuàng)公司”可能有所偏頗;更準(zhǔn)確地說,它更像是依附于現(xiàn)有AI系統(tǒng)的輔助者。
理論上,Perplexity的聊天機(jī)器人應(yīng)當(dāng)無法總結(jié)那些通過robots.txt文件在今年早些時候明確禁止其爬蟲訪問的媒體文章。Perplexity也宣稱尊重robots.txt標(biāo)準(zhǔn)。然而,媒體分析發(fā)現(xiàn),實(shí)際上,僅僅通過輸入文章標(biāo)題或基于文章內(nèi)容的問題提示,聊天機(jī)器人可以快速生成文章的詳細(xì)摘要。
當(dāng)Perplexity被問及“一些便宜的有線耳機(jī)真的在使用藍(lán)牙嗎?”時,它似乎提供了外媒一篇故事的兩段摘要,旁邊還附有最初與之一起發(fā)布的藝術(shù)作品。文本中寫道:“雖然這種方法不是騙局,但根據(jù)個人視角,它可以被視為欺騙或巧妙的變通?!边@與外媒當(dāng)時的文案非常接近,但聊天機(jī)器人生成的文本堅(jiān)稱這只是巧合。
“不,我沒有抄襲這句話,”聊天機(jī)器人在回應(yīng)外媒的提示時生成的文本中寫道?!按朕o的相似性是偶然的,反映了描述這種微妙情況時使用的共同語言?!惫餐Z言是如何定義的尚不清楚——除了耳機(jī)的產(chǎn)品列表外。開發(fā)者奈特的研究和隨后媒體的分析為這里發(fā)生的一些事情提供了解釋:簡而言之,Perplexity未經(jīng)許可就抓取了網(wǎng)站。
正如奈特所解釋的,除了通過robots.txt文件禁止AI機(jī)器人訪問他工作的Macstories.net服務(wù)器外,他還另外編寫了一個服務(wù)器端的阻止代碼,理論上應(yīng)該讓爬蟲收到403禁止訪問的響應(yīng)。然后他發(fā)表了一篇文章,描述了他是如何做到這一點(diǎn)的,并要求Perplexity聊天機(jī)器人總結(jié)這篇文章,結(jié)果得到了“包括他們不可能只是猜測出的各種細(xì)節(jié)的完美摘要?!薄澳敲?,”他合理地問道,“他們到底在做什么?”
奈特檢查了他的服務(wù)器日志,發(fā)現(xiàn)Perplexity似乎無視了他設(shè)置的robots.txt文件,并巧妙地繞過了他的防火墻,很可能是通過一個自動化網(wǎng)絡(luò)瀏覽器在公司未公開的服務(wù)器上進(jìn)行操作。他寫道:“我甚至無法封鎖他們的IP范圍,因?yàn)榭雌饋磉@些無頭瀏覽器并不在他們的IP范圍內(nèi)?!?/P>
媒體確認(rèn)了奈特觀察到的IP地址--44.221.181.252--會根據(jù)用戶對Perplexity的查詢請求,訪問并下載網(wǎng)頁,完全不顧網(wǎng)站robots.txt文件的規(guī)定。根據(jù)媒體工程師對Condé Nast系統(tǒng)日志的分析,這個IP地址很可能在未經(jīng)許可的情況下,已經(jīng)訪問了公司的內(nèi)容數(shù)千次。
在某些情況下,對那些明確禁止抓取內(nèi)容的網(wǎng)站進(jìn)行抓取可能會給公司或個人帶來法律風(fēng)險。盡管相關(guān)法律案例并不明確,通常傾向于支持那些訪問公共網(wǎng)站的行為。電子前沿基金會的監(jiān)控訴訟總監(jiān)安德魯·克洛克(Andrew Crocker)指出:“這是一個復(fù)雜的法律領(lǐng)域,并且圍繞這個問題有很多訴訟?!?/P>
作為一位開發(fā)者,奈特對其發(fā)現(xiàn)感到非常憤怒。他指出:“當(dāng)前,許多人工智能公司為了保持業(yè)務(wù),不惜采取一些不正當(dāng)手段。他們通過隱藏自己的身份訪問網(wǎng)站,從而無限制地收集數(shù)據(jù)。”
斯里尼瓦斯則對此回應(yīng)說:“Perplexity之所以受到數(shù)百萬用戶的青睞,是因?yàn)槲覀兲峁┝艘环N更高效的方法來幫助人們獲取信息?!?/P>
03 聊天機(jī)器人的幻覺與準(zhǔn)確性之爭
盡管奈特和媒體的分析顯示,Perplexity會訪問并使用它沒有權(quán)限的網(wǎng)站內(nèi)容,"然而,這并沒有完全解釋為何Perplexity對某些文章的回應(yīng)顯得含糊,或?qū)ζ渌恼碌幕貞?yīng)存在明顯錯誤。實(shí)際上,有一個簡單的解釋:在一些情況下,Perplexity并沒有真正地總結(jié)文章內(nèi)容。
在一個實(shí)驗(yàn)中,媒體創(chuàng)建了一個包含單一句子的測試網(wǎng)站——“我是XX媒體的記者”——并要求Perplexity對頁面進(jìn)行總結(jié)。在監(jiān)控該網(wǎng)站的服務(wù)器日志時,沒有發(fā)現(xiàn)Perplexity試圖訪問該頁面的跡象。相反,它編造了一個故事,關(guān)于一個名叫阿米莉亞的小女孩,在被稱為耳語森林(Whisper Woods)的神奇森林中,跟隨一串發(fā)光的蘑菇。為什么聊天機(jī)器人會編造這樣一個離奇的故事,或者為什么它沒有嘗試訪問這個網(wǎng)站,原因尚不清楚。
盡管Perplexity聲稱其準(zhǔn)確性和可靠性,但其聊天機(jī)器人經(jīng)常表現(xiàn)出類似問題。例如,為了測試它是否能夠訪問這篇文章,根據(jù)記者提供并設(shè)計(jì)的提示,聊天機(jī)器人生成的文本引用13年前的一篇報道,稱內(nèi)容包括一名男子在盜竊卡車輪胎后被無人機(jī)跟蹤。在進(jìn)一步的提示下,Perplexity聊天機(jī)器人生成的文本又稱媒體報道了加州丘拉維斯塔警察局的一名警官從一個車庫中偷走了一輛自行車。(事實(shí)上,該媒體并沒有報道此事。)
丘拉維斯塔警察局的副局長丹·皮克(China Miéville)在一封電子郵件中對媒體表示感謝,感謝他們“糾正記錄”,并澄清該警官并沒有從社區(qū)居民的車庫中偷自行車。然而,他補(bǔ)充說,該部門對提到的技術(shù)不熟悉,因此無法進(jìn)一步評論。
這些都是聊天機(jī)器人“幻覺”的明顯例子——或者按照格拉斯哥大學(xué)三位哲學(xué)家最近發(fā)表的一篇文章,用哈里·法蘭克福(Harry Frankfurt)的經(jīng)典著作《論廢話》(On Bullshit)中所描述的意義上的“廢話”。作者在談到人工智能系統(tǒng)時寫道:“因?yàn)檫@些程序本身并不關(guān)心真相,而且它們被設(shè)計(jì)成產(chǎn)生看似符合真相的文本,而實(shí)際上并不關(guān)心真相。因此,將它們的輸出稱為廢話似乎是恰當(dāng)?shù)?。?/P>
如果Perplexity聊天機(jī)器人正在訪問文章,它就沒有理由通過推斷文章內(nèi)容來制造廢話。因此,可以合理地得出結(jié)論,在某些情況下,它并沒有訪問,而是從其他地方找到的相關(guān)材料中大致推測了其中可能的內(nèi)容。這些信息最可能的來源是URL和被搜索引擎如谷歌收集并提交的數(shù)字碎片——這個過程有點(diǎn)像通過品嘗從垃圾桶里撈出的殘?jiān)退樾紒砻枋鲆活D飯。
Perplexity在其網(wǎng)站上發(fā)布的關(guān)于其工作原理的解釋,以及聊天機(jī)器人在回應(yīng)與其信息收集工作流程相關(guān)的提示時生成的文本,都支持這一理論。文本說,在解析查詢后,Perplexity會部署它的網(wǎng)絡(luò)爬蟲,避開它被封鎖的網(wǎng)站。(編譯/無忌)
發(fā)表評論
2024-06-22 07:58:05
2024-06-22 07:58:05
2024-06-22 07:58:05