Strona korzysta z plików cookie w celu realizacji usług zgodnie z Polityką Prywatności. Możesz określić warunki przechowywania lub dostępu mechanizmu cookie w Twojej przeglądarce.
Dataset (lub zestaw danych) to zbiór różnych typów danych przechowywanych w formacie cyfrowym. Zbiór danych jest głównym składnikiem każdego systemu uczenia maszynowego. Zbiór danych dostarcza systemowi danych, na których będzie się on uczył. Dlatego powinien składać się z uogólnionej reprezentacji rzeczywistych danych. W tym przypadku jakość danych jest bardzo ważna. Główne cechy dobrego zbioru danych to [1]:
Dokładność jest kluczowym aspektem danych uczenia maszynowego. Niedokładnie oznakowane dane znacząco wpływają na jakość i dokładność modelu. Kompletność oznacza, że zbiór danych posiada wszystkie dane, które są wymagane do wykonania określonego zadania. Dane, które zostaną wykorzystane do uczenia, nie mogą być sprzeczne, do tego właśnie odnosi się wiarygodność. W niektórych modelach uczenia maszynowego bardzo ważne są aktualne dane. Aktualność i istotność informacji jest ważną cechą jakości danych, ponieważ w świecie rzeczywistym dane, na których model został nauczony, mogą już nie występować, co czyni model bezużytecznym w danym zastosowaniu.
Przygotowanie niestandardowego zbioru danych dla danej aplikacji jest zadaniem trudnym. Jak widać z przedstawionych powyżej informacji pierwszym krokiem jest określenie jakie dane są potrzebne i dlaczego. Dane muszą być odpowiednio zebrane i muszę reprezentować rozważany problem. Kolejnym krokiem jest odpowiednie oznaczenie danych. Etykietowanie jest ważnym krokiem, ponieważ niewłaściwie oznakowane dane obniżają ich jakość. Po utworzeniu zbioru danych należy wytrenować i przetestować model.
Bibliografia:
[1]
R. L. Sarfin, "5 cech jakości danych," 07 05 2021. [Online]. Dostępny: https://www.precisely.com/blog/data-quality/5-characteristics-of-data-quality. [Data uzyskania dostępu: 22 07 2022].