Visszatérés a weboldalhoz
Új vezető eszközök az analitika és a gépi tanulás területén

Új vezető eszközök az analitika és a gépi tanulás területén

2018. dec. 13.

Melyek az adatelemzők körében legnépszerűbb eszközök? Mi a különbség az R és a Python között? Cikkünkből megismerheted a data science terület legizgalmasabb kérdéseire adott válaszokat.

Adatelemzés

Annak ellenére, hogy az Excel és a hozzá hasonló adatelemző szoftverek rendkívül hasznosak, mindegyiknek megvan a maga hátránya. Az Excel-nek például meggyűlik a baja a hatalmas adattömegekkel. Más professzionális program vagy túlságosan drága, vagy nem áll mögötte egy lelkes, a nyelv, illetve a program fejlődéséért és előrehaladásáért sokat megtevő közösség.

Két dudás nem fér meg egy csárdában, szokták mondani. Erre most mégis rácáfolnánk. Az R és a Python napjaink két legismertebb és az elemzők által leginkább használt programozási nyelve. Az elmúlt években egyre inkább vezető szerepet töltöttek be az elemzői, programozási iparágakban, ahogy azt a mellékelt ábra is mutatja (Fig 1).

Analytics, Data Science, Machine Learning top tools

Az R egy vezető programozási nyelv, amely lehetővé teszi felhasználói számára, hogy különböző statisztikai számításokat, kimutatásokat, grafikonokat készíthessenek. A nyelvet előszeretettel használják cégek is, mivel könnyen letölthető plug-in-ek színes választékából lehet válogatni, és ha el is akadna valahol a felhasználó, számos forrásból szerezhet tudomást a "hogyan-továbbról".

A Python egy általános célú, magas szintű programozási nyelv, mint a C++ vagy a Java, annyi különbséggel, hogy lényegesen könnyebben elsajátítható. Ez a nyelv mindenre kiterjedő könyvtárral rendelkezik, ahol olyan területekhez készítettek külön bővítményeket, mint a matematika, a statisztika vagy a gépi tanulás.

De mégis minek köszönhető a mindent elsöprő népszerűségük, és hogy mind a szakmai berkekben, mind az átlagos felhasználók körében osztatlan a sikerük? Miért használják többek között olyan óriáscégek is, mint a Google, a Facebook, az IBM vagy a Mozilla?

Ezt vesszük most közelebbről szemügyre!

Nem csak ingyenes, de open source is

Az R és a Python is ingyenesen letölthető, de a szabad forráskódjuk teszi igazán vonzóvá őket. Így a kód szabadon másolható és módosítható, lelkes fejlesztők százai együttműködésének a terméke. Nagyon magas technikai színvonal a jellemzőjük.

Platformfüggetlen

Bármilyen operációs rendszeren futnak. Akár Mac-en, akár Windows-on is, de még Linux-on is, hogy csak a legnépszerűbbeket említsük.

Más programozási nyelveket (C/C++, Java) és különböző adatforrásokat is tudnak kezelni, beleértve az ODBC-adatforrásokat (Excel, Access), vagy más típusúakat, mint a PostgreSQL és egyéb statisztikai csomagokat (SAS, Stata, SPSS, Minitab).

Fejlett vizualizáció

A cikk középpontjában álló nyelvek remek adatvizualizációs eszközökkel rendelkeznek, ami nem elhanyagolható szempont a vállalatok számára. Elég, ha csak a különböző üzleti jelentésekre, kimutatásokra gondolunk.

Az R és a Python is magasszintű grafikai lehetőségeket kínál, és lehetővé teszi felhasználóinak, hogy kreatív ábrákat készíthessenek, többek között hisztogramokat, pontdiagramokat, stb. Ezek az ábrák könnyen testre szabhatók és interaktívvá tehetők.

E tekintetben az R kicsit a versenytársa előtt jár az olyan kiegészítő csomagoknak köszönhetően, mint a ggplot2 vagy a lattice, amelyek új szintre emelik az adatmegjelenítést.

Piacvezetők

A Python-nak figyelemre méltó bővítményei vannak a gépi tanulás és a deep learning területén, főleg annak köszönhetően, hogy számos informatikus inkább ezt használja. Emiatt az említett terület könyvtárai fejlettebbek, támogatottabbak, mint az R hasonló csomagjai. Ha elköteleződik valaki e területek mellett, érdemesebb a Python-ra támaszkodnia.

Az R, másrészről, inkább a hagyományos értelemben vett statisztikusok, illetve az adatelemzők kedvence. Emiatt több eszköz áll ennek a nyelvnek a felhasználói részére a statisztika területén. Köszönhetően az aktív közösségnek - amelynek számos, a saját területén szakértő is a része -  a legtöbb új statisztikai modell, megközelítés vagy technika korábban válik elérhetővé az R-ben, mint máshol.

Összegzés

Ha nem tudod eldönteni, hogy melyik nyelv mellett tedd le a voksod, nyugtasson meg az a gondolat, hogy aligha lehet rosszul dönteni. Többségében mind a két nyelv hasonló területeken alkalmazható, mégis jól megférnek egymás mellett, más a felhasználói bázisuk.

Dióhéjban: a Python hasznosabb, ha adatmanipulációra, ismételt feladatokra kerülne sor, és megjegyzendő, hogy talán könnyebben megtanulható. Míg az R piacvezető a statisztikai elemzések területén, illetve tökéletes választás, ha még magunk sem tudjuk, mihez kezdjünk egy adathalmazzal.

 

Forrás: KDnuggets