Dlaczego właściwy zestaw danych jest ważny w procesie uczenia się

Dataset (lub zestaw danych) to zbiór różnych typów danych przechowywanych w formacie cyfrowym. Zbiór danych jest głównym składnikiem każdego systemu uczenia maszynowego. Zbiór danych dostarcza systemowi danych, na których będzie się on uczył. Dlatego powinien składać się z uogólnionej reprezentacji rzeczywistych danych. W tym przypadku jakość danych jest bardzo ważna. Główne cechy dobrego zbioru danych to [1]:

dokładność;
kompletność;
wiarygodność;
trafność;
aktualność.

Dokładność jest kluczowym aspektem danych uczenia maszynowego. Niedokładnie oznakowane dane znacząco wpływają na jakość i dokładność modelu. Kompletność oznacza, że zbiór danych posiada wszystkie dane, które są wymagane do wykonania określonego zadania. Dane, które zostaną wykorzystane do uczenia, nie mogą być sprzeczne, do tego właśnie odnosi się wiarygodność. W niektórych modelach uczenia maszynowego bardzo ważne są aktualne dane. Aktualność i istotność informacji jest ważną cechą jakości danych, ponieważ w świecie rzeczywistym dane, na których model został nauczony, mogą już nie występować, co czyni model bezużytecznym w danym zastosowaniu.

Przygotowanie niestandardowego zbioru danych dla danej aplikacji jest zadaniem trudnym. Jak widać z przedstawionych powyżej informacji pierwszym krokiem jest określenie jakie dane są potrzebne i dlaczego. Dane muszą być odpowiednio zebrane i muszę reprezentować rozważany problem. Kolejnym krokiem jest odpowiednie oznaczenie danych. Etykietowanie jest ważnym krokiem, ponieważ niewłaściwie oznakowane dane obniżają ich jakość. Po utworzeniu zbioru danych należy wytrenować i przetestować model.

Bibliografia:

[1]
R. L. Sarfin, "5 cech jakości danych," 07 05 2021. [Online]. Dostępny: https://www.precisely.com/blog/data-quality/5-characteristics-of-data-quality. [Data uzyskania dostępu: 22 07 2022].

Dlaczego właściwy zestaw danych jest ważny w procesie uczenia się

Zobacz również

Zapisz się do newsletter’a

Zostaw swoje dane, aby otrzymać prezentację

Wiadomość została wysłana. Dziękujemy!

Zostaw swoje dane,
aby otrzymać prezentację