新闻资讯

「广州私家侦探事务所哪家专业」微博超级话题爬虫,微博词频统计+情感分析+简单分类

微博超级主题爬虫,微博词频统计+情感分析+简单分类

添加了微博主题的常规爬网,包括讨论爬网和阅读量有待改善

爬行数据显示

搜寻器主文件:

微博普通主题: normal-topic-spyder.py

微博超级主题: super-topic-spyder.py

在搜寻器主文件的主要功能中输入要搜寻的超级电话的帐户,密码和名称「情感话题库」,以开始搜寻. 您需要提前安装所需的python库和chromedriver驱动程序

抓取后,数据将自动保存在当前目录的excel文件中,每一行均为微博数据.

提示: 普通主题爬网需要添加#,例如#topic#,不需要添加超级​​主题;通常,微博中的超级主题用菱形标记,并且一般主题的格式为#topic#

使用硒来模拟浏览器登录进行爬网,特定主题爬网的数量受到微博的限制. 目前,一个主题的微博最大数量为8000个. 我选择使用移动网页爬网以获得最佳的爬网效果.

帐户和IP的数量对于爬网单个超级电话不是很有帮助,因此仅设置了一个帐户和ip模式. 如果您需要同时搜寻多个超级麦克风,则可以自己添加它们.

如果需要抓取多部超级电话,可以选择使用cookie登录,这是最方便的.

Jieba库用于分词. 最后,仅对单词分割结果进行计数并存储在txt中.

调用百度大脑的api接口. 您可以自己注册密钥. 该平台不限于通话次数. 有关详细的界面「情感话题库」,请参见百度大脑.

欢迎大家参与并改进: 如果您还有其他问题,请提交问题

联系我们

CONTACT US

广州及时雨私家侦探(广州本地私家侦探公司)

微信:185-2064-4544

电话:185-2064-4544

地址:广州市天河区

广州出轨调查