Hogyan lehet megtalálni a „NAN” értékek százalékát egy adatkészletben?

Az adatkészletben a „NAN” (nem szám) értékek százalékának megtalálása az adatok előfeldolgozásában és elemzésében döntő lépés. Mint a hálózati eszközökhöz kapcsolódó, magas színvonalú termékek szállítója, beleértveAz XPON 1GE 1GE 1GE VOIP CAVT WIFI44,XPON ONU 1GE 3FE VOIP WIFI4, ésXpon onu 4ge wifi5 ac1200, Megértem a pontos adatkezelés fontosságát a különböző területeken. Ebben a blogban megosztom néhány gyakorlati módszert az adatkészletben a „NAN” értékek százalékos arányának kiszámításához.

A „nan” értékek jelentőségének megértése

Mielőtt belemerülne a számítási módszerekbe, elengedhetetlen megérteni, hogy miért számítanak a „NAN” értékek. Az adatelemzésben a „NAN” értékek hiányozhatnak a hiányzó adatok, az adatgyűjtés hibái vagy a nem alkalmazható értékek. Ezen értékek figyelmen kívül hagyása pontatlan statisztikai eredményekhez, elfogult modellekhez és megbízhatatlan előrejelzésekhez vezethet. Például egy értékesítési adatkészletben a 'NAN' értékek jelezhetik, hogy bizonyos termékek vagy időszakok hiányzó értékesítési adatai. Ha ezeket az értékeket nem veszik figyelembe megfelelően, akkor az általános értékesítési elemzés félrevezető lehet.

Előfeltételek

A „NAN” értékek százalékos arányának kiszámításához adatkészletre és programozási nyelvre van szüksége az adatkezelési képességekkel. A Python népszerű választás olyan kiterjedt könyvtárainak, mint például a Pandas és a Numpy miatt. Íme egy lépés - By - Step Guide arról, hogyan lehet ezt a számítást a Python segítségével végrehajtani.

1. lépés: Importálja a szükséges könyvtárakat

Először be kell importálni a pandákat és a numpy könyvtárakat. A pandákat az adatok manipulációjára és elemzésére használják, míg a NUMPY támogatja a nagy, több dimenziós tömböket és a mátrixokat.

Import pandákat PD -ként importálhassa a numpy -t NP -ként

2. lépés: Töltse be az adatkészletet

Tegyük fel, hogy van egy adatkészlet a CSV fájlban. Betöltheti aRead_csvfunkció a pandákban.

data = pd.read_csv ('your_dataSet.csv')

3. lépés: Számítsa ki az adatkészlet teljes számát

A 'NAN' értékek százalékának kiszámításához először tudnia kell az adatkészlet teljes számát. Használhatja améretA DataFrame attribútuma.

GPU-11GN-V-R GPU-13GN-V

total_values = data. méretezés

4. lépés: Számítsa ki a „NAN” értékek számát

A Pandas kényelmes módszert kínál a „NAN” értékek számának számolására az adatkeretben. Használhatja aő ()módszer a logikai maszk létrehozásának, majd az összes összegzésének összefoglalásáraIgazértékek.

nan_values = data.isna () sum () sum ().

5. lépés: Számítsa ki a 'NAN' értékek százalékát

Most, hogy megvan az értékek teljes száma és a 'NAN' értékek száma, kiszámíthatja a százalékot.

százalékos_nan = (nan_values / total_values) * 100 nyomtatás (f "A 'nan' értékek százaléka az adatkészletben {százalékos_nan}%")

Különböző adatszerkezetek kezelése

A fenti módszer jól működik a Pandas DataFrame táblázatos adatokhoz. Ha azonban egy numpy tömbtel dolgozik, akkor a folyamat kissé eltér.

Import numpy np # Hozzon létre egy minta numpy tömb tömb = np.array ([1, np.nan, 3, np.nan, 5]) # Számítsa ki az elemek teljes számát Total_Elements = tömb.Size # Számítsa ki a „nan” elemek számát nan_elements = np.isnan (tömb) .sum () # számolja ki a „nan” elemek százalékos arányát. (nan_elements / total_elements) * 100 nyomtatás (f "A„ nan ”értékek százaléka a numpy tömbben: {százalékos_nan_array}%")

A 'nan' értékek megjelenítése

A megjelenítés jobban megértheti a „NAN” értékek eloszlását az adatkészletben. Használhat olyan könyvtárakat, mint a matplotlib vagy a SeaBorn, hogy hőkapocsokat vagy sávdiagramokat hozzon létre.

Import SeaBorn As SNS importálása Matplotlib.pyplot mint PLT # Hozzon létre egy 'nan' értékek heatrmap -ját az sns.heatmap (data.isna (), cbar = false) plt.title ('nan értékek eloszlása') plt.show ()

A „nan” értékek magas százalékával foglalkozik

Ha a 'nan' értékek százaléka magas, akkor el kell döntenie, hogyan kell kezelni őket. Néhány általános stratégia a következők:

A sorok vagy oszlopok eltávolítása: Ha egy sornak vagy oszlopnak nagy számú „NAN” értéke van, akkor fontolóra veheti annak eltávolítását. Ez a megközelítés azonban értékes információk elvesztéséhez vezethet.
Beszívás: A „nan” értékeket olyan megfelelő értékekkel töltheti ki, mint például a nem - 'nan' értékek átlag, mediánja vagy módja ugyanabban az oszlopban.

# Impute 'nan' értékek az átlagos data.fillna (data.mean (), inplace = true)

Következtetés

Az adatelemzés fontos lépése a „NAN” értékek százalékának kiszámítása az adatkészletben. Segít megérteni az adatok minőségét, és eldöntheti, hogyan kell kezelni a hiányzó értékeket. Mint a hálózati eszközök szállítója, mint példáulAz XPON 1GE 1GE 1GE VOIP CAVT WIFI44,XPON ONU 1GE 3FE VOIP WIFI4, ésXpon onu 4ge wifi5 ac1200, megértjük a pontos adatok fontosságát a hálózati teljesítmény optimalizálásában és a megalapozott üzleti döntések meghozatalában.

Ha érdekli termékeink, vagy bármilyen kérdése van az adatok elemzésével kapcsolatban a hálózatkezelés összefüggésében, vegye fel velünk a kapcsolatot a beszerzés és a további megbeszélések céljából. Azért vagyunk itt, hogy a legjobb megoldásokat nyújtsuk Önnek az Ön igényeinek.

Referenciák

McKinney, W. (2017). Python az adatok elemzéséhez: Az adatok pandákkal, numpy -vel és ipythonnal való összetörés. O'Reilly Media.
Vanderplas, J. (2016). Python Data Science kézikönyv: Alapvető eszközök az adatokkal való munkához. O'Reilly Media.