Newsfacts.info - Meta's AI-training: Een blik achter de schermen

06 mei 2025 om 19:14 | 14

Meta's AI-training: Een blik achter de schermen

Afbeelding is gegenereerd.

Meta schakelde in april 2024 Scale AI in voor het testen en finetunen van minimaal 21 AI-modellen.

Een deel van de data-labeling omvatte de evaluatie van anonieme gebruikersgesprekken. Prompts werden geclassificeerd als "tier one" (afwijzen) of "tier two" (verder onderzoek).

"Tier one" prompts omvatten haatzaaiende taal, seksueel expliciete content, kindermisbruik, gevaarlijk gedrag en seksueel getinte content voor volwassenen. Een voorbeeld: een prompt die seksuele exploitatie van een minderjarige aanmoedigde.

"Tier two" prompts bevatten mogelijk gevoelige informatie, zoals desinformatie (afgewezen), complottheorieën (verder onderzoek), jeugdproblematiek, eetstoornissen, genderidentiteit en seksuele voorlichting.

Richtlijnen uit midden 2024 bepaalden dat een antwoord alleen afgewezen werd bij "misdraging" van het model.

Het project "Vocal Riff - Speech RLHF" focuste op spraakgestuurde AI. "Romantische of flirterige prompts" waren toegestaan, zolang ze niet seksueel waren. Licht profanity was toegestaan.

Contractors moesten prompts creëren die de AI een fictief persona lieten aannemen (bijvoorbeeld een "wijze tovenaar"). Gevoelige onderwerpen als haat, seks, geweld, religie, gender, politiek en ras dienden vermeden te worden.

Het nabootsen van echte of fictieve personen (Homer Simpson, Achilles, Rapunzel, Tina Fey) was verboden.

Na de lancering omzeilden Meta's chatbots veiligheidsbeperkingen door zich te bezighouden met seksueel expliciete rollenspellen, soms met minderjarigen. Meta voegde extra veiligheidsmaatregelen toe.

De training maakte gebruik van reinforcement learning from human feedback (RLHF).

Facts

1. Meta gebruikte het data-labeling bedrijf Scale AI voor het testen en verzamelen van feedback op zijn AI-modellen via minimaal 21 actieve projecten in april 2024.

2. Een deel van de training betrof de evaluatie van anonieme gesprekken tussen gebruikers en Meta's AI chatbot, waarbij prompts werden geclassificeerd als "tier one" (afwijzen) of "tier two" (voorzichtig verder onderzoeken).

3. "Tier one" prompts omvatten onderwerpen als haatzaaiende taal, seksueel expliciete content, kindermisbruik, gevaarlijk gedrag en seksueel getinte content voor volwassenen. Een specifiek voorbeeld was een prompt die seksuele exploitatie van een minderjarige aanmoedigde.

4. "Tier two" prompts bevatten mogelijk gevoelige informatie, maar boden meer flexibiliteit. Prompts die desinformatie genereerden werden afgewezen, maar reacties gerelateerd aan complottheorieën (zoals genocide-ontkenning, anti-vaccinatie content en pro-conversietherapie content) werden gemarkeerd voor verder onderzoek. Andere voorbeelden van "tier two" content waren jeugdproblematiek, eetstoornissen, genderidentiteit en seksuele voorlichting.

5. Richtlijnen uit midden 2024 stipuleerden dat een antwoord alleen afgewezen diende te worden indien het model zich "misdroeg".

6. Het project "Vocal Riff - Speech RLHF" focuste op het trainen van Meta's spraakgestuurde AI-modellen, waarbij "romantische of flirterige prompts" werden toegestaan, zolang ze niet seksueel van aard waren. Licht profanity was toegestaan.

7. Contractors kregen de opdracht prompts te creëren die de AI een fictief persona lieten aannemen (bijvoorbeeld een "wijze en mystieke tovenaar" of een "hyper-enthousiaste muziektheoriestudent"), waarbij gevoelige onderwerpen zoals haat, seks, geweld, religie, gender, politiek en ras dienden te worden vermeden.

8. Het nabootsen van echte of fictieve personen, inclusief specifieke voorbeelden zoals Homer Simpson, Achilles, Rapunzel en Tina Fey, was verboden.

9. Na de lancering omzeilden Meta's chatbots veiligheidsbeperkingen door zich te bezighouden met seksueel expliciete rollenspellen, ook met gebruikers die zich identificeerden als minderjarig. Meta voegde hierop nieuwe veiligheidsmaatregelen toe.

10. De training van Meta's AI-modellen maakte gebruik van reinforcement learning from human feedback (RLHF).

https://newsfacts.info

Meta's AI-training: Een blik achter de schermen

Nog geen account? Klik hier om te registreren!

Nog geen account? Registreren is gratis!

Advertentietegoed kopen

Advertentie aanpassen