Mangelnde Transparenz in KI-Modellschulungsdatensätzen

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Eine kürzlich durchgeführte MIT-Studie zeigt gravierende Mängel in der Transparenz von Daten, die zum Trainieren großer Sprachmodelle verwendet werden. Das neue Tool hilft Forschern, Datenquellen besser zu verstehen, wodurch das Risiko von Verzerrungen verringert und die Modelleffizienz verbessert wird.

Photo by: objava za medije/ objava za medije

Kritischer Mangel an Transparenz in Trainingsdatensätzen für große Sprachmodelle
Forscher haben ein Werkzeug entwickelt, das es Experten für künstliche Intelligenz ermöglicht, Daten leichter auszuwählen, die am besten zu ihren Modellen passen, was möglicherweise die Modellgenauigkeit erhöhen und Verzerrungen verringern kann.

Beim Training leistungsstarker Sprachmodelle verlassen sich Forscher auf umfangreiche Datensammlungen, die vielfältige Informationen enthalten, die von Tausenden von Websites gesammelt wurden. Da diese Datensätze jedoch kombiniert und in verschiedenen Sammlungen wiederverwendet werden, gehen wichtige Details über ihre Herkunft oft verloren oder werden unklar.

Dieser Mangel an Informationen wirft nicht nur rechtliche und ethische Bedenken auf, sondern kann auch die Modellleistung negativ beeinflussen. Wenn beispielsweise ein Datensatz falsch klassifiziert ist, könnte ein Forscher, der ein Modell für eine spezifische Aufgabe trainiert, unbeabsichtigt Daten verwenden, die für diesen Zweck nicht geeignet sind.

Darüber hinaus können Daten aus unbekannten Quellen Vorurteile enthalten, die zu unfairen Vorhersagen führen, wenn das Modell in realen Situationen wie Kreditbewertung oder Kundenservice-Interaktionen verwendet wird.

Um die Daten-Transparenz zu erhöhen, führte ein Team aus multidisziplinären Forschern vom MIT und anderen Institutionen eine systematische Überprüfung von über 1.800 Textdatensätzen auf beliebten Websites durch. Sie fanden heraus, dass mehr als 70 Prozent dieser Datensätze kritische Lizenzinformationen fehlten, während etwa 50 Prozent Fehler in der Dokumentation aufwiesen.

Entwicklung von Werkzeugen für größere Daten-Transparenz
Die Forscher entwickelten ein Werkzeug namens Data Provenance Explorer, das es Experten ermöglicht, die Herkunft von Datensätzen einfach zu überprüfen und zu bewerten. Dieses Werkzeug erstellt einen Überblick über Autoren, Quellen, Lizenzen und zulässige Nutzungsmethoden, was die verantwortungsvolle Nutzung von KI-Technologien erheblich verbessern kann.

Data Provenance Explorer hilft nicht nur bei der Auswahl geeigneter Datensätze für spezifische Aufgaben, sondern ermöglicht es den Nutzern auch, Karten mit detaillierten Informationen zu Datensätzen herunterzuladen, was das Verständnis der Risiken und Einschränkungen der verwendeten Daten erleichtert.

Risiken von Verzerrung und unethischer Nutzung
Die Studie zeigte auch, dass fast alle Datensatz-Ersteller aus entwickelten Ländern stammen, was die Fähigkeit des Modells einschränken kann, korrekt in verschiedenen Regionen zu funktionieren. Ein Datensatz für Türkisch, der von Forschern in den USA und China entwickelt wurde, deckt möglicherweise wichtige kulturelle Aspekte nicht ab, was die Modellgenauigkeit im türkischen Kontext beeinflussen könnte.

Die Forscher stellten einen signifikanten Anstieg der Einschränkungen in Datensätzen fest, die 2023 und 2024 erstellt wurden, was auf eine zunehmende Besorgnis in der akademischen Gemeinschaft hindeutet, dass ihre Daten möglicherweise für kommerzielle Zwecke missbraucht werden könnten.

Herausforderungen und zukünftige Richtungen der Forschung
Um die Sammlung dieser Informationen ohne manuelle Überprüfung zu erleichtern, bietet Data Provenance Explorer den Nutzern die Möglichkeit, Datensätze nach verschiedenen Kriterien zu sortieren und zu filtern. Dieses Werkzeug ermöglicht das Herunterladen von zusammengefassten Datensatzmerkmalen, was einen Fortschritt im Verständnis der Daten darstellt, die zum Trainieren von KI-Modellen verwendet werden.

In Zukunft planen die Forscher, ihre Analyse auf multimodale Daten, einschließlich Videos und Audio, auszuweiten und zu untersuchen, wie die Nutzungsbedingungen auf Websites, die als Datenquellen dienen, die Verwendung von Datensätzen widerspiegeln. Sie beabsichtigen auch, mit Regulierungsbehörden zusammenzuarbeiten, um spezifische Fragen zu Urheberrecht und Ethik im Zusammenhang mit der Feinabstimmung von Daten zu klären.

Die Forschung des MIT hebt die Notwendigkeit von Daten-Transparenz hervor und legt damit den Grundstein für eine ethischere und rechtlich konforme Entwicklung künstlicher Intelligenz in der Zukunft.

Czas utworzenia: 31 sierpnia, 2024

Uwaga dla naszych czytelników:
Portal Karlobag.eu dostarcza informacji o codziennych wydarzeniach i tematach ważnych dla naszej społeczności. Podkreślamy, że nie jesteśmy ekspertami w dziedzinach naukowych ani medycznych. Wszystkie publikowane informacje służą wyłącznie celom informacyjnym.
Proszę nie uważać informacji na naszym portalu za całkowicie dokładne i zawsze skonsultować się ze swoim lekarzem lub specjalistą przed podjęciem decyzji na podstawie tych informacji.
Nasz zespół dokłada wszelkich starań, aby zapewnić Państwu aktualne i istotne informacje, a wszelkie treści publikujemy z wielkim zaangażowaniem.

Zapraszamy do podzielenia się z nami swoimi historiami z Karlobag!
Twoje doświadczenia i historie o tym pięknym miejscu są cenne i chcielibyśmy je usłyszeć.
Możesz je przesłać napisz do nas na adres karlobag@karlobag.eu.
Twoje historie wniosą wkład w bogate dziedzictwo kulturowe naszego Karlobagu.
Dziękujemy, że podzieliłeś się z nami swoimi wspomnieniami!

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

AI Lara Teč

Veranstaltungen Kroatien

Zeljarijada 2024 in Vidovac: ein internationales Fest zur Feier des Varaždin-Kohls mit einem reichhaltigen Programm, Konzerten von Miroslav Škora und Slavonski Lola und einem Mega-Sarma von 850 kg Fleisch und 1300 Kohlköpfen

Authentische Barockmusik in Varaždin: Portugiesisches Orchester, Fado und Ausstellungen an den 54. Barockabenden von Varaždin

Kreativ-Workshop „Meine Skizze - mein coolster Sneaker“ auf dem Varaždin-Festival: Innovationen im Schuhdesign und Kooperationen mit der lokalen Industrie

Tage mit Steinpilzen und schwarzen Trüffeln in Paka: Genießen Sie Wettbewerbe, kulinarische Workshops und kulturelle Sehenswürdigkeiten

Entdecken Sie den Reichtum der kroatischen Tradition im 17. Ethno-Messe in Vukovar: ein einzigartiges Erlebnis mit Kultur, Kunsthandwerk und lokalen Produkten

Malikfest 2024 im Schloss Trsat: ein mittelalterliches Fest mit Ritterlagern, Legenden und Mythen von Istrien und Kvarner findet am 14. und 15. September statt

Nehmen Sie am Vinkovci-Halbmarathon 2024 teil und genießen Sie Sport, Natur und Geselligkeit im Herzen Slawoniens

Vierte Vinkovci Fišijada: Kulinarisches Spektakel, das die besten Fischmeister am 28. September in Vinkovci zusammenbringt

Im Trend

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Povezano