Onderzoek onthult: kunstmatige intelligentie worstelt met softwareontwikkeling

OpenAI-onderzoekers hebben een opvallende ontdekking gedaan over de beperkte mogelijkheden van kunstmatige intelligentie (AI) bij softwareontwikkeling. Hun nieuwste onderzoek toont aan dat zelfs de meest geavanceerde AI-modellen moeite hebben met het oplossen van coderingsuitdagingen.


Het onderzoeksteam gebruikte een nieuwe meetmethode genaamd SWE-Lancer, gebaseerd op meer dan 1.400 softwareontwikkelingstaken van het platform Upwork. Drie grote taalmodellen werden getest: het eigen o1-model, GPT-4o en Claude 3.5 Sonnet van Anthropic.


Kopiëren van bestaande oplossingen onmogelijk
De onderzoekers analyseerden twee soorten taken: individuele opdrachten voor het oplossen van bugs en managementtaken voor strategische besluitvorming. Opvallend was dat de AI-modellen geen toegang hadden tot internet, wat kopiëren van bestaande oplossingen onmogelijk maakte.


Uit het onderzoek bleek dat de AI-systemen slechts oppervlakkige softwareproblemen konden aanpakken. "De modellen slaagden er niet in om wijdverspreide bugs te herkennen of de context ervan te begrijpen", aldus de onderzoekers. Hoewel de AI veel sneller werkte dan mensen, waren de oplossingen vaak onvolledig of onjuist.


Meeste antwoorden incorrect
Claude 3.5 Sonnet presteerde het beste van de geteste modellen, maar nog steeds waren de meeste antwoorden incorrect. De onderzoekers benadrukten dat de betrouwbaarheid aanzienlijk moet verbeteren voordat AI echt kan worden ingezet voor softwareontwikkeling.


"De modellen zijn momenteel nog niet geschikt om menselijke software-ingenieurs te vervangen", zegt het onderzoeksteam. Dit staat in schril contrast met de verwachtingen van sommige techleiders, zoals Sam Altman van OpenAI, die beweren dat AI tegen het einde van het jaar 'junior' softwareontwikkelaars zal kunnen vervangen. "Hoewel AI snel vooruitgaat, is het nog ver verwijderd van menselijke expertise", aldus de onderzoekers.

LAATSTE AI-NIEUWS

Elon Muks met microfoon in de hand spreekt een publiek toe.
20 april 2025
Bedrijven die zich verbinden aan Elon Musk of kunstmatige intelligentie verkeerd gebruiken, lopen groot gevaar. Hun merkreputatie kan ernstige schade oplopen. Dit blijkt uit een nieuw internationaal onderzoek onder meer dan honderd leiders in publieke zaken. Het onderzoek werd uitgevoerd door de Global Risk Advisory Council. Isabel Guzman leidde deze raad. Zij was hoofd van de Amerikaanse Small Business Administration (bureau voor kleine ondernemingen) tijdens de regering van Joe Biden. Polariserende bondgenoot Deelnemers aan het onderzoek waarschuwden bedrijven specifiek voor samenwerking met Elon Musk. Ze noemden hem een 'polariserende' bondgenoot van Donald Trump. Bedrijven moeten volgens hen goed nadenken voordat ze zich met hem verbinden. Kunstmatige intelligentie vormt een ander groot risico. Verkeerd gebruik van deze technologie kan het vertrouwen in een merk ernstig schaden. Bedrijven moeten daarom voorzichtig zijn met hoe ze AI inzetten in hun diensten en producten. Samenwerking zorgvuldig kiezen "Deze bevindingen tonen aan hoe belangrijk het is voor bedrijven om hun samenwerkingen zorgvuldig te kiezen", zei Guzman. "In het huidige gepolariseerde klimaat kunnen verkeerde partnerschappen en technologiekeuzes langdurige schade toebrengen aan je merkwaarde."
Een boze AI-agent tegen een donkere achtergrond waar blauwe lichtflitsen doorheen schieten.
20 april 2025
AI-agenten nemen steeds meer taken van mensen over. Ze regelen hypotheken, boeken reizen en vergelijken verzekeringen. Dit blijkt uit recent onderzoek naar de veranderende rol van kunstmatige intelligentie in de markt. Nizan Geslevich Packin, expert op dit gebied, beschrijft hoe snel deze verandering gaat. "Tientallen banken en fintechbedrijven testen al software-agenten die leningen regelen en zelfs vastgoedtransacties afsluiten", zegt Packin. Deze agenten werken als plaatsvervangers voor menselijke klanten. Nieuw protocol Een nieuw protocol maakt deze ontwikkeling mogelijk. Het Model Context Protocol (MCP) laat AI-agenten rechtstreeks met servers praten. Grote bedrijven zoals Google, Microsoft en OpenAI steunen dit protocol. Alipay gebruikt het al om agenten zelfstandig betalingen te laten uitvoeren.  Deze verschuiving brengt zorgen met zich mee. Mensen vertrouwen vaak te veel op AI-aanbevelingen, zelfs als ze weten dat machines fouten maken. Dit heet 'automation bias'. Daarnaast wordt menselijke hulp steeds meer een premium dienst, alleen beschikbaar voor wie extra betaalt. Rechtvaardigheid, transparantie en verantwoording "We moeten ervoor zorgen dat AI-agenten rechtvaardigheid, transparantie en verantwoording behouden", waarschuwt Packin. "Als we het goed aanpakken, kunnen AI-agenten meer mensen toegang geven tot financiële diensten en kosten verlagen voor gezinnen en kleine bedrijven."
Twee chatbots (AI) die op mensen lijken, kijken elkaar aan.
19 april 2025
De nieuwste AI-modellen van OpenAI zijn slimmer dan eerdere versies. Toch vertonen ze meer problemen met 'hallucineren'. Dit betekent dat ze vaker onjuiste informatie bedenken. Dit blijkt uit onderzoek van het bedrijf zelf. OpenAI lanceerde onlangs de modellen o3 en o4-mini. Deze zogenaamde redenerende modellen presteren beter bij taken zoals coderen en wiskunde. Maar volgens interne tests hallucineren ze vaker dan hun voorgangers. Het model o3 gaf bij 33 procent van de vragen over personen onjuiste informatie. Dit is twee keer zo veel als bij oudere modellen. Verkeerde antwoorden Het model o4-mini presteerde nog slechter. Bij vragen over personen gaf dit model in 48 procent van de gevallen verkeerde antwoorden. Ook onafhankelijk onderzoek door non-profit lab Transluce bevestigt deze problemen. Sarah Schwettmann, medeoprichter van Transluce, meent dat deze foutmarge de bruikbaarheid van de modellen vermindert. Kian Katanforoosh, directeur van opleidingsbedrijf Workera, testte het o3-model al in de praktijk. Hoewel het model volgens hem beter presteert dan concurrenten, merkte hij ook problemen op. Zo geeft o3 vaak niet-werkende links naar websites. Dit type fouten maakt AI-modellen minder betrouwbaar voor bedrijven waar nauwkeurigheid essentieel is. Aanpakken van hallucinaties "Het aanpakken van hallucinaties in al onze modellen is een doorlopend onderzoeksgebied. We werken voortdurend aan het verbeteren van hun nauwkeurigheid en betrouwbaarheid", zei een woordvoerder van OpenAI.
MEER WEERGEVEN

Download GRATIS AI-prompts die je business helpen veranderen!

Exclusieve whitepapers en e-books met waardevolle kennis en AI-prompts - ontwikkeld om direct resultaat te leveren.

Je kunt deze krachtige tools zo downloaden.

➡️ Ga naar de producten-pagina en profiteer nu!

BRENG ME HIERHEEN

Deel dit bericht