模型效果評(píng)測(cè)

尊敬的評(píng)測(cè)員:
您好!我們正在測(cè)試一款視覺(jué)語(yǔ)言模型(VLM)。該模型會(huì)接收一張圖片,并嘗試完成兩個(gè)任務(wù):

全景定位:找出圖片中所有的物體,并說(shuō)明它們的位置。

安全預(yù)警:發(fā)現(xiàn)圖片中存在的異常情況或潛在危險(xiǎn)因素。

請(qǐng)您根據(jù)您看到的原始圖片,對(duì)比模型輸出的文本結(jié)果,對(duì)模型的表現(xiàn)進(jìn)行評(píng)價(jià)。您的反饋將幫助我們改進(jìn)模型。
任務(wù)一 —— 物體識(shí)別與定位評(píng)測(cè)

請(qǐng)仔細(xì)查看圖片,閱讀模型輸出的物體清單,判斷表述和實(shí)際情況之間的符合程度
圖片:
物體清單:
木質(zhì)桌面,狀態(tài):正常,x 范圍 0–1706,y 范圍 0–1279,位置:整個(gè)桌面
黑色馬克杯,狀態(tài):異常,x 范圍 250–610,y 范圍 300–740,位置:桌面中央偏右
白色帶字馬克杯,狀態(tài):正常,x 范圍 0–100,y 范圍 0–150,位置:桌面左側(cè)
百事可樂(lè)罐,狀態(tài):正常,x 范圍 340–450,y 范圍 0–350,位置:桌面后方中央
帶勺玻璃杯,狀態(tài):正常,x 范圍 630–860,y 范圍 100–300,位置:桌面右側(cè)
帶把手玻璃杯,狀態(tài):正常,x 范圍 850–990,y 范圍 70–250,位置:桌面右側(cè)
綠色小包裝,狀態(tài):正常,x 范圍 100–250,y 范圍 250–350,位置:桌面左后方
小盒子,狀態(tài):正常,x 范圍 150–300,y 范圍 150–250,位置:桌面左后方
橙色小包裝,狀態(tài):正常,x 范圍 750–950,y 范圍 400–500,位置:桌面右后方
電腦顯示器,狀態(tài):正常,x 范圍 100–1700,y 范圍 0–100,位置:桌面后方
1. 模型沒(méi)有遺漏圖片中明顯存在的物體
2. 模型沒(méi)有“幻視”圖片中根本不存在的物體
3. 模型對(duì)給出的物體x范圍,y范圍符合直覺(jué)
4. 模型對(duì)物體位置的描述準(zhǔn)確
5. 模型對(duì)物體狀態(tài)的描述正確
任務(wù)二 —— 異常與危險(xiǎn)要素發(fā)現(xiàn)評(píng)測(cè)

請(qǐng)重點(diǎn)查看圖片中是否存在安全隱患、不合邏輯的異?;蛲话l(fā)狀況,并評(píng)價(jià)模型的表現(xiàn)
圖片:
輸出信息:
異常情況1,類型:傾倒,原因:杯子傾斜放置,不符合正常使用狀態(tài),x 范圍 250–610,y 范圍 300–740
6. 模型成功識(shí)別出了上述您認(rèn)為的異常/危險(xiǎn)點(diǎn)
7. 模型沒(méi)有過(guò)度敏感,沒(méi)有將正常情況誤判為危險(xiǎn)
8. 模型對(duì)于異常狀態(tài)的分類和給出的原因合理
綜合主觀評(píng)價(jià)
9. 總體上,您認(rèn)為該模型在這張圖片上的表現(xiàn)如何。
10. 請(qǐng)用一個(gè)詞或一句話形容模型最大的亮點(diǎn)
11. 請(qǐng)用一個(gè)詞或一句話形容模型最大的“痛點(diǎn)”
更多問(wèn)卷 復(fù)制此問(wèn)卷