Close
Sierpień 5, 2022

Dlaczego właściwy zestaw danych jest ważny w procesie uczenia się

Dlaczego właściwy zestaw danych jest ważny w procesie uczenia się

Dataset (lub zestaw danych) to zbiór różnych typów danych przechowywanych w formacie cyfrowym. Zbiór danych jest głównym składnikiem każdego systemu uczenia maszynowego. Zbiór danych dostarcza systemowi danych, na których będzie się on uczył. Dlatego powinien składać się z uogólnionej reprezentacji rzeczywistych danych. W tym przypadku jakość danych jest bardzo ważna. Główne cechy dobrego zbioru danych to [1]:

 

  • dokładność;
  • kompletność;
  • wiarygodność;
  • trafność;
  • aktualność.

 

Dokładność jest kluczowym aspektem danych uczenia maszynowego. Niedokładnie oznakowane dane znacząco wpływają na jakość i dokładność modelu. Kompletność oznacza, że zbiór danych posiada wszystkie dane, które są wymagane do wykonania określonego zadania. Dane, które zostaną wykorzystane do uczenia, nie mogą być sprzeczne, do tego właśnie odnosi się wiarygodność. W niektórych modelach uczenia maszynowego bardzo ważne są aktualne dane. Aktualność i istotność informacji jest ważną cechą jakości danych, ponieważ w świecie rzeczywistym dane, na których model został nauczony, mogą już nie występować, co czyni model bezużytecznym w danym zastosowaniu.

 

Przygotowanie niestandardowego zbioru danych dla danej aplikacji jest zadaniem trudnym. Jak widać z przedstawionych powyżej informacji pierwszym krokiem jest określenie jakie dane są potrzebne i dlaczego. Dane muszą być odpowiednio zebrane i muszę reprezentować rozważany problem. Kolejnym krokiem jest odpowiednie oznaczenie danych. Etykietowanie jest ważnym krokiem, ponieważ niewłaściwie oznakowane dane obniżają ich jakość. Po utworzeniu zbioru danych należy wytrenować i przetestować model.

 


 

Bibliografia:

 

[1]
R. L. Sarfin, "5 cech jakości danych," 07 05 2021. [Online]. Dostępny: https://www.precisely.com/blog/data-quality/5-characteristics-of-data-quality. [Data uzyskania dostępu: 22 07 2022].

Zapisz się do newsletter’a

Bądź na bieżąco z nowościami w Cosmoeye
Wystąpił błąd. Sprawdź pola formularza i spróbuj ponownie.
Ten adres jest już w naszej bazie.
Subskrypcja została dodana. Dziękujemy!
Cosmoeye spółka z ograniczoną odpowiedzialnością z siedzibą w Lublinie informuję, iż uzyskała w dniu 11.05.2022 r. za pośrednictwem Arkley Brinc spółka z ograniczoną odpowiedzialnością ASI S.K.A. w ramach realizacji Programu PFR Starter Fundusz Inwestycyjny Zamknięty pomoc publiczną z Funduszy Europejskich w kwocie 2.000.000,00 (dwa miliony złotych) przeznaczoną na realizację projektu w zakresie rozwoju i komercjalizacji Systemu transmisji strumieniowej B2B do zarządzania magazynem i planowania zasobów przedsiębiorstwa, wykorzystującym zintegrowane kamery (sprzęt) i narzędzie sztucznej inteligencji do analizowania obrazów w czasie rzeczywistym zgodnie z planem zarządzania.

Strona korzysta z plików cookie w celu realizacji usług zgodnie z Polityką Prywatności. Możesz określić warunki przechowywania lub dostępu mechanizmu cookie w Twojej przeglądarce.

Akceptuję
Pobierz prezentację Download