Thursday, May 16, 2024

Soft Label PU Learning

 Soft Label PU Learning


  1. Introduction


Învățarea Pozitiv Neetichetată (PU) este o formă specializată de învățare automată care operează pe baza datelor de instruire pozitive și neetichetate. Acest tip de învățare este deosebit de relevant în diverse scenarii, cum ar fi aplicațiile medicale, unde scopul este de a prezice dacă o persoană are o anumită boală folosind date de la persoanele diagnosticate (pozitive) și nedepistate (neetichetate).

Metodele tradiționale de învățare PU au făcut progrese semnificative, dar tratează toate probele neetichetate în mod egal. Această abordare presupune că nu există cunoștințe preliminare despre probabilitatea pozitivă a fiecărei probe neetichetate disponibile înainte de instruirea modelului. Cu toate acestea, în scenarii practice, este adesea posibil să se deducă din cunoștințele de domeniu că unele probe sunt mai probabil să fie pozitive decât altele.

De exemplu, în aplicațiile medicale, unii indivizi s-ar putea să nu fi fost diagnosticați, dar ar putea prezenta deja simptome legate. În ciuda statutului lor de probe neetichetate, șansele lor de a fi pozitive sunt mai mari decât ale altora. Metodele tradiționale de învățare PU le consideră ca probe neetichetate obișnuite, ceea ce poate duce la pierderea unor astfel de informații valoroase.

Pentru a aborda această problemă, lucrarea introduce o nouă abordare numită învățare PU Learning cu etichete soft. Această metodă încorporează informațiile preliminare ale probelor neetichetate în model pentru a îmbunătăți acuratețea clasificării. În mod specific, atribuie fiecărei probe neetichetate o etichetă soft între 0 și 1, indicând probabilitatea sa de a fi pozitivă. Lucrarea discută apoi cum să utilizeze aceste etichete soft pentru a genera un clasificator precis.

Lucrarea introduce, de asemenea, metrici substitutive, anume TPRSPU, FPRSPU și AUCSPU, concepute în conformitate cu metricile reale. Lucrarea discută cum aceste metrici substitutive sunt legate de TPR, FPR și AUC reale. Acest lucru este crucial deoarece indică dacă direcția de îmbunătățire ghidată de aceste metrici substitutive PU este corectă.

În comparație cu metodele tradiționale de învățare PU, învățarea PU cu etichete soft se dovedește a fi deosebit de utilă atunci când presupunerea Selectată Complet La Întâmplare (SCAR) nu este îndeplinită, adică atunci când mecanismul de etichetare este inegal. În astfel de cazuri, metodele tradiționale de învățare PU pot identifica doar probele similare cu cele pozitive observate, în timp ce alte probe pozitive pot fi trecute cu vederea din cauza mecanismului de etichetare.

Cu toate acestea, cu cunoștințe preliminare, este posibil să se genereze etichete soft rezonabile care sunt pozitiv legate de probabilitatea ca o probă să fie pozitivă. Un nou clasificator poate fi apoi instruit cu aceste etichete soft, crescând șansele de a descoperi aceste probe pozitive ascunse. Această abordare este aplicabilă în multe scenarii din lumea reală, inclusiv diagnosticul medical, recomandarea de reclame și sarcina de recunoaștere a cheat-urilor în jocurile Tencent, toate acestea fiind discutate în detaliu în lucrare.


  1. Descrierea problemei


Presupunem că avem N eșantioane (Xi,Yi, Si) , i = 1, . . . , N. Aceste N eșantioane sunt identice și distribuite independent (i.i.d), conform unei distribuții comune PX,Y,S. Xi ∈ R denotă caracteristica, Yi ∈ {0, 1} denotă eticheta adevărată, care ne este necunoscută. Si ∈ [0, 1] este eticheta soft, care este calculată din cunoștințele anterioare. Dacă un eșantion i are Si = 0, atunci este un eșantion neetichetat obișnuit. Dacă Si = 1, atunci este un exemplu pozitiv. Dacă Si ∈ (0, 1), atunci este încă un eșantion neetichetat, dar este mai probabil să fie pozitiv decât eșantioanele neetichetate obișnuite. Si este cunoscut din cunoștințele noastre anterioare despre setul de date.


  1. Provocari


Calcularea directă a metricilor de performanță precum Rata Pozitivelor Adevărate (TPR), Rata Pozitivelor False (FPR) și Aria de Sub Curba (AUC) nu este posibilă deoarece etichetele adevărate ale lui U sunt necunoscute

  1. Solutie


Autorii lucrarii introduc metrici surrogate TPRSPU, FPRAUC si AUCSPU, care utilizează etichete soft pentru a aproxima metricile reale. Aceste noi metrici ghidează procesul de învățare indicând cât de bine performează modelul sub schema de etichetare soft.


Analiza metricilor PU


Presupunerea SCAR generalizată: Sub această presupunere, unde etichetele soft sunt legate de distribuția eșantionului pozitiv, lucrarea arată că metricile surrogate (TPRSPU, FPRSPU) sunt combinații liniare ale metricilor reale (TPR, FPR). Această relație ajută la validarea faptului că optimizarea metricilor surrogate optimizează de asemenea și metricile reale.


Presupunerea etichetei așteptate monotone: Dacă așteptarea etichetelor soft crește odată cu probabilitatea de a fi pozitiv, chiar dacă etichetele sunt zgomotoase, optimizarea metricilor surrogate duce totuși la optimizarea metricilor reale.


Etichete zgomotoase: Autorii demonstrează că, chiar și cu estimări zgomotoase ale probabilității (etichete soft), metricile surrogate sunt aproape de metricile reale, indicând că metoda este robustă la unele inexactități în etichetarea soft.


Metode de învățare 


Abordarea optimizării: Autorii propun optimizarea funcției de pierdere empirică care se bazează pe etichetele soft. Această abordare asigură că clasificatorul învață să prezică probabilitățile strâns aliniate cu etichetele soft.


Garanții teoretice: Ei arată că, pe măsură ce dimensiunea eșantionului crește, clasificatorul lor propus converge către clasificatorul optim sub metricile etichetelor soft

Experimente


Experimentele sunt efectuate pe mai multe seturi de date, inclusiv seturi de date din depozitul UCI (cum ar fi Diabetul, Adult, Cancerul de sân) și seturi de date de imagini (Fashion MNIST, CIFAR-10).


Rezultate: Metoda de învățare PU cu etichete soft depășește metodele tradiționale de învățare PU în scenarii în care etichetele soft oferă informații suplimentare despre probabilitatea de a fi pozitiv.


Aplicație pentru anti-cheat în jocuri: Autorii își aplică metoda la o problemă din lumea reală în jocurile companiei Tencent, unde trebuie să identifice înșelătorii. Folosind etichete soft bazate pe comportamentul utilizatorului și încălcările anterioare, metoda lor îmbunătățește semnificativ detectarea înșelătorilor.

Conculzie


Din lucrare putem trage urmatoarea conculzie, învățarea PU cu etichete soft este o metodă robustă care utilizează informații suplimentare despre datele neetichetate pentru a îmbunătăți performanța clasificării. Această abordare este deosebit de utilă în scenariile din lumea reală unde etichetarea este inegală sau unde există un context suplimentar despre probabilitatea de a fi pozitiv


Summary of Radar Voxel Fusion for 3D Object Detection

 


Summary of Radar Voxel Fusion for 3D Object Detection

1. Introduction

The paper addresses the challenges associated with automotive perception systems in complex and dynamic environments. Unlike controlled environments, such as automated underground trains, road traffic scenarios are highly unpredictable with various objects, weather conditions, and unforeseen events. The inherent limitations of individual sensors like cameras, radar, and lidar necessitate a fusion approach to capture a comprehensive understanding of the environment.

In autonomous vehicle technology, a combination of sensors is utilized to create a comprehensive understanding of the environment. These sensors include:

  • Lidar (Light Detection and Ranging) :

    • Emits laser beams to map the environment in 3D.
    • Provides high-resolution spatial data and precise depth measurements.
    • Crucial for detailed environmental mapping and object detection.
  • Radar (Radio Detection and Ranging) :

    • Utilizes radio waves to detect the distance and velocity of objects.
    • Functions effectively in various weather conditions, including rain or fog.
    • Offers the advantage of long-range detection capabilities.
  • Camera Sensors :

    • Captures visual information as images or video.
    • Essential for recognizing colors, signs, and lane markings.
    • Provides detailed texture and context information about the vehicle’s surroundings.

The integration of lidar, radar, and camera data—known as sensor fusion—provides a vehicle with a robust perceptual awareness, crucial for safe navigation and decision-making in diverse and dynamic conditions.

2. Objective

The main objective of the study is to develop a robust 3D object detection system by fusing data from multiple sensor modalities, specifically lidar, radar, and cameras. This fusion aims to leverage the complementary strengths of each sensor to enhance detection accuracy, especially in adverse weather conditions and at night.

3. Network Architecture

The paper employs a low-level fusion technique, integrating data from the three sensors at an early stage. This approach helps in preserving the raw data’s richness, allowing the fusion network to utilize the full spectrum of information available.

The proposed fusion system, termed RadarVoxelFusionNet (RVF-Net), processes the combined data using a voxel-based approach. The network is trained and evaluated using the nuScenes dataset, which is a comprehensive dataset designed for autonomous driving research.

The raw input from sensors is in the form of a point cloud, which consists of a collection of data points in space, often generated by lidar sensors. Each point has coordinates in the 3D space. 

 


Sparse Voxel Feature Generation:

  • The point cloud is processed into a voxel grid, where each voxel represents a volumetric pixel in the 3D space.
  • These voxels are sparse, as not all regions in the space have points associated with them.
  • Each voxel’s features are encoded using Voxel Feature Encoding (VFE) layers. The VFE layers compress the high-dimensional input data into a more manageable form while retaining significant features for object detection.
  • The coordinates of each voxel are also included in this processing stage, indicating the position of the voxel within the grid.

Global Feature Generation:

  • The features from the VFE are passed through 3D sparse convolutions. These convolutions are designed to operate efficiently by only considering the non-empty voxels.
  • This step generates a global feature map that captures the overall structure and distribution of features throughout the point cloud.

Detection Heads:

  • The global features are then passed through 2D convolutions.
  • Following this, three separate detection heads are used for different aspects of object detection:
    • Classification Detection Head : Responsible for identifying the category of the object.
    • Regression Detection Head : Provides continuous value predictions, such as the size and location of bounding boxes around detected objects.
    • Direction :
      • The classification head within the Direction head categorizes the general orientation of an object, determining whether the object is pointing towards the right or left.
      • The regression head refines this estimate by predicting the precise yaw angle of the object. The regression loss function applied depends on the output of the classification head. 


4. Results

  • The inclusion of radar data into the fusion process improved the Average Precision (AP) detection score by approximately 5.1% compared to the lidar-only baseline.
  • The fusion model was particularly effective under challenging conditions such as rain and night, demonstrating the benefits of sensor integration in enhancing detection reliability.
  • A novel loss function was introduced to handle the discontinuity in yaw representation, which improved the detection and orientation estimation capabilities of the fusion network.

5. Conclusion

The study successfully demonstrates that integrating lidar, radar, and camera data can significantly improve 3D object detection in autonomous vehicles. The fusion approach not only compensates for individual sensor weaknesses but also enhances the system’s overall performance, particularly in adverse environmental conditions.

Soft Label PU Learning

  Soft Label PU Learning Introduction Învățarea Pozitiv Neetichetată (PU) este o formă specializată de învățare automată care operează pe ba...