#Systém pro analýzu proudu dat v reálném čase
Současným trendem ve zpracování dat, zejména dat ve velkých objemech, je provádět jejich analýzu v reálném čase. Cílem této bakalářské práce je naimplementovat systém, který by v reálném čase prováděl analýzu příspěvků ze sociální sítě Twitter. K analýze bude použit framework Spark. Výsledky analýzy reprezentující přání uživatelů této sociální sítě budou persistovány ve vhodném úložišti a přístupná pomocí RESTového API. Proveďte následující kroky:
- Seznamte se s technologiemi, jež se používají pro zpracování proudů dat, zejména s frameworkem Spark.
- Navrhněte systém, který bude zpracovávat proud dat ze sociální sítě Twitter. Výsledky ukládejte a zpřístupněte pomocí RESTového API.
- Analyzujte metody používané pro zpracování textu. Vyberte několik základních, které implementujete do vámi navrženého systému tak, aby bylo možno prokázat jeho funkcionalitu.
- Systém za použití vhodných technologií naimplementujte.
- Implementaci otestujte.
- Zhodnoťte dosažené výsledky.
##Example website using provided API Twitter Wishes
##Available API endpoints:
http://twitter-wish-api.herokuapp.com/wish/?from=[timestamp]&to=[timestamp]&count=[count]
- returns list of wishes published in last 10 minutes, unless from and to parameters are specified. Number of results can be limited by using count.
http://twitter-wish-api.herokuapp.com/wish/<wish_id>
- same as /wish, but returns data for tweet with given id only
http://twitter-wish-api.herokuapp.com/wish/<wish_id>/mentions
- return users mentioned in wish with given id
http://twitter-wish-api.herokuapp.com/wish/<wish_id>/hashtags
- return hashtags contained in wish with given id
http://twitter-wish-api.herokuapp.com/user
- returns list of all users
http://twitter-wish-api.herokuapp.com/user/<user_id>
- same as /user, but rturn data for user with given id only
http://twitter-wish-api.herokuapp.com/user/<user_id>/wishes
- return given user's wishes
http://twitter-wish-api.herokuapp.com/user/<user_id>/mentioned_in
- return tweets given user was mentioned in
http://twitter-wish-api.herokuapp.com/hashtag/<hashtag>/wishes
- return tweets containing given hashtag
http://twitter-wish-api.herokuapp.com/stats/mentions/?from=[timestamp]&to=[timestamp]&count=[count]
- returns list of mentioned users and their mention count in last 10 minutes, unless from and to parameters are specified. The list is sorted by mention count. Number of results can be limited by using count.
http://twitter-wish-api.herokuapp.com/stats/hashtags/?from=[timestamp]&to=[timestamp]&count=[count]
- returns list of hashtags used and their usage count in last 10 minutes, unless from and to parameters are specified. The list is sorted by usage count. Number of results can be limited by using count.
- stats - number of tweets, english tweets, wishes and average sentiment in last 10 minutes or given time interval.
Author: David Viktora, [email protected], Faculty of Information Technology, Czech Technical University