Soft Label PU Learning
Introduction
Învățarea Pozitiv Neetichetată (PU) este o formă specializată de învățare automată care operează pe baza datelor de instruire pozitive și neetichetate. Acest tip de învățare este deosebit de relevant în diverse scenarii, cum ar fi aplicațiile medicale, unde scopul este de a prezice dacă o persoană are o anumită boală folosind date de la persoanele diagnosticate (pozitive) și nedepistate (neetichetate).
Metodele tradiționale de învățare PU au făcut progrese semnificative, dar tratează toate probele neetichetate în mod egal. Această abordare presupune că nu există cunoștințe preliminare despre probabilitatea pozitivă a fiecărei probe neetichetate disponibile înainte de instruirea modelului. Cu toate acestea, în scenarii practice, este adesea posibil să se deducă din cunoștințele de domeniu că unele probe sunt mai probabil să fie pozitive decât altele.
De exemplu, în aplicațiile medicale, unii indivizi s-ar putea să nu fi fost diagnosticați, dar ar putea prezenta deja simptome legate. În ciuda statutului lor de probe neetichetate, șansele lor de a fi pozitive sunt mai mari decât ale altora. Metodele tradiționale de învățare PU le consideră ca probe neetichetate obișnuite, ceea ce poate duce la pierderea unor astfel de informații valoroase.
Pentru a aborda această problemă, lucrarea introduce o nouă abordare numită învățare PU Learning cu etichete soft. Această metodă încorporează informațiile preliminare ale probelor neetichetate în model pentru a îmbunătăți acuratețea clasificării. În mod specific, atribuie fiecărei probe neetichetate o etichetă soft între 0 și 1, indicând probabilitatea sa de a fi pozitivă. Lucrarea discută apoi cum să utilizeze aceste etichete soft pentru a genera un clasificator precis.
Lucrarea introduce, de asemenea, metrici substitutive, anume TPRSPU, FPRSPU și AUCSPU, concepute în conformitate cu metricile reale. Lucrarea discută cum aceste metrici substitutive sunt legate de TPR, FPR și AUC reale. Acest lucru este crucial deoarece indică dacă direcția de îmbunătățire ghidată de aceste metrici substitutive PU este corectă.
În comparație cu metodele tradiționale de învățare PU, învățarea PU cu etichete soft se dovedește a fi deosebit de utilă atunci când presupunerea Selectată Complet La Întâmplare (SCAR) nu este îndeplinită, adică atunci când mecanismul de etichetare este inegal. În astfel de cazuri, metodele tradiționale de învățare PU pot identifica doar probele similare cu cele pozitive observate, în timp ce alte probe pozitive pot fi trecute cu vederea din cauza mecanismului de etichetare.
Cu toate acestea, cu cunoștințe preliminare, este posibil să se genereze etichete soft rezonabile care sunt pozitiv legate de probabilitatea ca o probă să fie pozitivă. Un nou clasificator poate fi apoi instruit cu aceste etichete soft, crescând șansele de a descoperi aceste probe pozitive ascunse. Această abordare este aplicabilă în multe scenarii din lumea reală, inclusiv diagnosticul medical, recomandarea de reclame și sarcina de recunoaștere a cheat-urilor în jocurile Tencent, toate acestea fiind discutate în detaliu în lucrare.
Descrierea problemei
Presupunem că avem N eșantioane (Xi,Yi, Si) , i = 1, . . . , N. Aceste N eșantioane sunt identice și distribuite independent (i.i.d), conform unei distribuții comune PX,Y,S. Xi ∈ R denotă caracteristica, Yi ∈ {0, 1} denotă eticheta adevărată, care ne este necunoscută. Si ∈ [0, 1] este eticheta soft, care este calculată din cunoștințele anterioare. Dacă un eșantion i are Si = 0, atunci este un eșantion neetichetat obișnuit. Dacă Si = 1, atunci este un exemplu pozitiv. Dacă Si ∈ (0, 1), atunci este încă un eșantion neetichetat, dar este mai probabil să fie pozitiv decât eșantioanele neetichetate obișnuite. Si este cunoscut din cunoștințele noastre anterioare despre setul de date.
Provocari
Calcularea directă a metricilor de performanță precum Rata Pozitivelor Adevărate (TPR), Rata Pozitivelor False (FPR) și Aria de Sub Curba (AUC) nu este posibilă deoarece etichetele adevărate ale lui U sunt necunoscute
Solutie
Autorii lucrarii introduc metrici surrogate TPRSPU, FPRAUC si AUCSPU, care utilizează etichete soft pentru a aproxima metricile reale. Aceste noi metrici ghidează procesul de învățare indicând cât de bine performează modelul sub schema de etichetare soft.
Analiza metricilor PU
Presupunerea SCAR generalizată: Sub această presupunere, unde etichetele soft sunt legate de distribuția eșantionului pozitiv, lucrarea arată că metricile surrogate (TPRSPU, FPRSPU) sunt combinații liniare ale metricilor reale (TPR, FPR). Această relație ajută la validarea faptului că optimizarea metricilor surrogate optimizează de asemenea și metricile reale.
Presupunerea etichetei așteptate monotone: Dacă așteptarea etichetelor soft crește odată cu probabilitatea de a fi pozitiv, chiar dacă etichetele sunt zgomotoase, optimizarea metricilor surrogate duce totuși la optimizarea metricilor reale.
Etichete zgomotoase: Autorii demonstrează că, chiar și cu estimări zgomotoase ale probabilității (etichete soft), metricile surrogate sunt aproape de metricile reale, indicând că metoda este robustă la unele inexactități în etichetarea soft.
Metode de învățare
Abordarea optimizării: Autorii propun optimizarea funcției de pierdere empirică care se bazează pe etichetele soft. Această abordare asigură că clasificatorul învață să prezică probabilitățile strâns aliniate cu etichetele soft.
Garanții teoretice: Ei arată că, pe măsură ce dimensiunea eșantionului crește, clasificatorul lor propus converge către clasificatorul optim sub metricile etichetelor soft
Experimente
Experimentele sunt efectuate pe mai multe seturi de date, inclusiv seturi de date din depozitul UCI (cum ar fi Diabetul, Adult, Cancerul de sân) și seturi de date de imagini (Fashion MNIST, CIFAR-10).
Rezultate: Metoda de învățare PU cu etichete soft depășește metodele tradiționale de învățare PU în scenarii în care etichetele soft oferă informații suplimentare despre probabilitatea de a fi pozitiv.
Aplicație pentru anti-cheat în jocuri: Autorii își aplică metoda la o problemă din lumea reală în jocurile companiei Tencent, unde trebuie să identifice înșelătorii. Folosind etichete soft bazate pe comportamentul utilizatorului și încălcările anterioare, metoda lor îmbunătățește semnificativ detectarea înșelătorilor.
Conculzie
Din lucrare putem trage urmatoarea conculzie, învățarea PU cu etichete soft este o metodă robustă care utilizează informații suplimentare despre datele neetichetate pentru a îmbunătăți performanța clasificării. Această abordare este deosebit de utilă în scenariile din lumea reală unde etichetarea este inegală sau unde există un context suplimentar despre probabilitatea de a fi pozitiv