快捷搜索:

互联网知识

当前位置:betway必威官网手机版 > 互联网知识 > 产品经理AI指北,告诉你产品经理在看什么

产品经理AI指北,告诉你产品经理在看什么

来源:http://www.abirdfarm.com 作者:betway必威官网手机版 时间:2019-07-13 19:13

原标题:产品经理AI指北(一):企业AI产品经理采购指南

    前段时间学习完了python,再加上最近需要找工作,决定爬取招聘网站(本文以拉勾网为抓取对象),通过建立相关数据模型,分析产品经理相关要求和职责,指导简历制作及今后产品努力的方向。

实习僧网站招聘信息爬取以及可视化操作,招聘信息

目标:用Python抓取实习僧网站上数据分析相关岗位信息,并用Python做可视化分析

软件:Python 3.0 版本

作为互联网界的两个对立的物种,产品汪与程序猿似乎就像一对天生的死对头;但是在产品开发链条上紧密合作的双方,只有通力合作,才能更好地推动项目发展。那么产品经理平日里面都在看那些文章呢?我们程序猿该如何投其所好呢?我爬取了人人都是产品经理栏目下的所有文章,看看产品经理都喜欢看什么。

眼看接近年末,马上就要迎来新一轮的跳槽季。通过爬虫抓取了百度社会招聘的一些信息,让我们通过数据来看看,百度的产品经理招聘是怎样的一种存在?

文章通过教学爬取招聘数据的方式,详细剖析了当今AI产品经理的岗位需求和企业招聘情况。

(1)确定目标

 一、 实习僧网站爬虫介绍 

实习僧网址:

 

在搜索框输入 数据 然后跳转到一下页面,Fn f12 就能看到网页调试工具。

刷新页面,然后点进第一个链接

url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页,可以知道共109页数据。

 图片 1

 

然后利用request Headers信息用来模拟浏览器登录。

网页上右键后查看源代码。我们要爬取职位名称,职位详情网址,月薪,工作地点等信息。写得正则表达为:

 

好了。基本工作完成,这就需要进一步构建代码了。

 

如何翻页,爬取下一页呢,就是利用循环对参数P的调整,实现整个页面的抓取。

 

然后就是对爬取字段的组合,并且写入excel文件。

需要用到: import xlwt #读写Excel 文件

 

最终运行代码,得到结果,共1085条记录,用时30秒多。

 

 

<图片 2image

图片 3

图片 4

     本文以拉勾网作为抓取对象,主要在于拉勾网是互联网求职者的一个重要渠道,分析拉勾网具有一定参考意义。

二、PTYHON数据分析

 

首先导入需要用到的包,然后读取Excel文件

 

得到:

 

网址数据暂时用不上 因此就删除这两列

 

 

 

主要从薪酬,工作天数,工作地点和时间要求四个方面分析。

 

 

先看一个简单的:

1 工作天数的要求和分布

 

2 实习时间的要求

 

 

 

3 实习地点的分布

 

 

What the hell?

 

过滤掉频数小于5的

 

 

4 实习薪酬的水平

 

 

额 同样的问题,,,

 

 

168个类别,所以挤成那个样子了。。。过滤掉频数小于10的。

 

 

总结一下:

实习地点:数据分析岗位实习北京和上海集中较多,然后是广州和深圳。其次是二线城市,成都,南京,杭州等。

工作天数:要求5天/周的实习最多,占比达到44.61%,其次是4/周和3/周。

实习时间:要求至少3个月的实习最多,其次是6个月,4个月。

实习薪酬:集中在100-120元区间上的最多。超过一半的实习工资超过了100。


第一次写,欢迎指正。

目标:用Python抓取实习僧网站上数据分析相关岗位信息,并用Python做可视化分析 软件...

1. 分析背景

一、数据来源&处理

使用八爪鱼爬取百度社会招聘中以下六个字段的信息:岗位名称、工作地点、工作职责、职责要求、发布时间、招聘人数。一共爬取2321条数据,存储至excel。

通过excel筛选出满足以下三个条件的数据:① 岗位类别为产品② 岗位名称中需带有产品二字(因为很多运营岗的岗位类别为产品)③ 发布时间不晚于2016年1月1日最终剩下454条数据可供分析数据下载地址

商业情报领域,有一个被称为奥地利学派的理论,他们主要关注不能量化的信息,而非公式化的信息,认为这类信息才是高利润的来源,并且指出商业情报工作的重点,应该是不能用数据或统计分析方法解决的问题。

(2)获取数据

1.1. 为什么选择「人人都是产品经理」

二、数据分析

① 想要成为百度的产品经理,你有95%的几率在帝都吸霾。

通过爬取的数据来看,作为一只产品狗,如果你打算入职百度的话,有95%以上的几率在帝都吸霾。(其实由于百度总部在北京,大部分员工都会在北京办公啦)

图片 5产品岗&技术岗工作地点对比

② 毕竟大部分岗位的名额都是若干,如果你真的够优秀,相信一定会有一个你的工作机会。

75%的产品岗对人员的需求是若干,10%的岗位明确只需要一个人,比较夸张的是,存在2%的岗位,需要招聘5个以上的人。对于技术岗而言,若干的比例更重。联想到坊间传言:百度重技术、腾讯重产品、阿里重运营。从这个比例可以看出,对于百度而言,技术人才多多益善。

图片 6产品岗&技术岗人员需求对比

③ 下半年的工作机会多于上半年,冬季是一个比较适合跳槽的季节

统计每天发布的产品岗位数量,16年12月至17年1月存在大量招聘需求。所以想要跳槽去百度的同学,冬季可以准备了哦~

图片 7产品岗招聘发布日期次数分布

④ 百度在发布招聘岗位时,更希望你拥有2-3年的工作经验。

通过提取职责要求中的关键词:1年、2年、3年、4年、5年。大部分是有2年或3年以上的工作经验优先。当你只有1年工作经验的时候,要考虑清楚是否还需要再沉淀1年,再找新的工作。

图片 8工作年限要求

⑤ 就个人素质而言,你需要互联网的相关经验,关注并热爱这个行业。良好的分析能力和沟通能力十分重要。要善于团队合作,协调各方面的资源来推动需求落地。能够独立解决问题,学习和逻辑思维能力强,创新能力和责任心也是必不可少的。

通过分词工具,将职责要求进行分词,得到175个出现频率10次以上高频词汇。再通过手动分类,将这175个词汇分成了:个人素质和能力要求两大类。

个人素质包括一些不易量化的软能力,文字云如下图所示:

图片 9

⑥ 在社招中,就个人能力而言,相关工作经验和相关背景十分重要,学历要求大多为本科及以上,对于数据需要有较强的分析和敏感力。一些工具,如PPT、Axure、Visio需要熟练掌握。一些文档,如MRD、PRD需具有独立撰写能力。

和校招不同的是,相关的工作经验和背景是极大的加分项。校招企业是抱着以培养人才的目的来选择员工,更看重潜质,愿意花一定时间来教你。而社招则是希望来到公司后,直接上手干事情。

产品经理在工作中会面对大量数据,虽说一部分公司会有专门从事数据分析的同事,但是自身具备数据分析能力,能够更快的发现产品问题。

图片 10

人人都是产品经理,这一行入门容易,因为对产品经理的要求以个人素质居多,而个人素质这种东西并不是短短几十分钟的面试可以充分了解的。想要成为一名优秀的产品经理,需要长期培养自己各方面的能力,厚积薄发。

希望各位观众老爷在17年能够做自己喜欢的事情,从事自己热爱的职业。

尽管眼下十分艰难,可日后这段经历说不定就会开花结果。——《我的职业是小说家》

我个人其实很欣赏这个理论,如果能够通过数据的统计分析能够发现需求的话,那么产品经理的价值和意义怎么去体现,产品经理真正的价值应该是体现在:用数据和统计分析方法无法直观体现和挖掘需求的数据上。

     确定好目标好,下一步就到了获取数据源步骤。获取数据源是数据分析的前提和基础。获取数据源主要有五种常见的方式:

人人都是产品经理是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、招聘、社群为一体,全方位服务产品人和运营人,成立8年举办在线讲座500 期,线下分享会300 场,产品经理大会、运营大会20 场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监。选取这个社区更有代表性。

John:

好久不见,我是Kevin。近期也想从产品经理转行成为一名AI产品经理,我需要做什么样的准备呢?

Kevin

2018年9月8日

1.互联网公开数据

1.2. 分析内容

Kevin:

     互联网公开数据主要通过搜索获取,例如,想要获取2016收集销量排行数据,可通过输入相关关键词获取相应结果,图1 2016年收集销量排行榜,输入“手机销量排行榜2016”,得出有关销售量结果。

  • 分析人人都是产品经理产品经理栏目下的 6574 篇文章的基本情况,包括收藏数、评论数、点赞数等
  • 发掘最受欢迎的文章及作者
  • 分析文章标题长度与受欢迎程度之间的关系
  • 展现产品经理都在看什么

已经收到你的来信,的确好久不见!既然你想成为一名AI产品经理,那我今天先给你说一下企业对于AI产品经理有怎样的要求吧?

图片 11

1.3. 分析工具

一、爬取招聘数据

图1 2016年收集销量排行榜

  • Python 3.6
  • Matplotlib
  • WordCloud
  • Jieba

我们从拉勾上爬取有关AI产品经理的招聘数据:

      当然,直接通过搜索引擎获取结果是一件比较幸运的事,不过,在获取数据时,一般不会直接获取到想要的数据。除了互联网公开数据外,本地数据也是一个重要数据来源渠道。

2. 数据抓取

图片 12

2.本地数据

使用 Python编写的爬虫抓取了人人都是产品经理社区的产品经理栏目下的所有文章并保存为csv格式,文章抓取时期为 2012年6月至 2019 年 1月 21 日,共计6574篇文章。抓取 了 10 个字段信息:文章标题、作者、作者简介、发文时间、浏览量、收藏量、点赞量、评论量、正文、文章链接。

完整的代码下载地址:

     本地数据主要指存储在本地电脑、网盘等载体内的数据,以PDF、Word、Excel及CSV为主。例如,图2 快消品行业分析报告,收集了快消品在营销、趋势等方面的数据。

2.1. 目标网站分析

链接: 密码:b5dz

图片 13

这是要爬取的网页界面,可以看到是直接加载出来的,没有AJAX,爬取起来毫无难度。

在范冰的《增长黑客》一书中,提到增长黑客使用的各种方法,包括:A/B 测试、数据抓取、排队机制、提供有损服务等。由于今天我们的任务主要是基于数据分析的,我们就来简单的了解一下数据抓取。

 图2  快消品行业分析报告

图片 14image

作为产品经理、增长黑客、亦或AI产品经理,难免会在日常工作中需要使用和分析第三方的数据,比如百度API Store,聚合数据等公开的第三方数据服务提供商,从事淘宝客产品的伙伴,可能需要分析淘宝的商品数据。

3.API数据

仔细观察要爬取的网页,我们可以看到页面连接有规律可循,连接中page后面的参数就是页面数,所以我们编写爬虫时可以直接用for循环来构造所有页面连接代码如下:

不管是哪一种类型的产品经理,遇到问题的第一时间,想到的并不是需要用写代码去解决问题(请记住我们是产品经理,我们不是负责开发的伙伴),而是利用现有的工具,数据的抓取工作也是同样的道理。现有的第三方工具,比如八爪鱼(

     API数据是一个重要的数据渠道,尤其随着互联网数据存储量越来越大以及众多网站开放了API接口,使得API接口数据成为重要形式。目前,有很多API数据应用市场,例如,百度API store ,聚合数据等,整合各种类型API,用户可通过申请apikey,获取相关数据。例如,想要获取全国天气实时数据,可通过调用天气API,获取实时数据。图 3 全国天气数据接口,申请APIkey,导入相应库,获取数据。

1import requests2from bs4 import BeautifulSoup3import csv45headers = {'Accept': 'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8',6 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',7 'Cache-Control': 'max-age=0',8 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',9 'Connection': 'keep-alive',10 'Host': 'www.woshipm.com',11 'Cookie' : 't=MHpOYzlnMmp6dkFJTEVmS3pDeldrSWRTazlBOXpkRjBzRXpZOU4yVkNZWWl5QVhMVXBjMU5WcnpwQ2NCQS90ZkVsZ3lTU2Z0T3puVVZFWFRFOXR1TnVrbUV2UFlsQWxuemY4NG1wWFRYMENVdDRPQ1psK0NFZGJDZ0lsN3BQZmo=; s=Njg4NDkxLCwxNTQyMTk0MTEzMDI5LCxodHRwczovL3N0YXRpYy53b3NoaXBtLmNvbS9XWF9VXzIwMTgwNV8yMDE4MDUyMjE2MTcxN180OTQ0LmpwZz9pbWFnZVZpZXcyLzIvdy84MCwsJUU1JUE0JUE3JUU4JTk5JUJF; Hm_lvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547467553,1547544101,1547874937,1547952696; Hm_lpvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547953708'12 }13for page_number in range:14page_url = "'

如果现有第三方工具不能满足需要的情况,例如John的尴尬情况,因为八爪鱼只提供Windows的版本,我的Mac无法运行,所以我选了用Python编写爬虫。而产品经理涉及相关的爬虫工作,我们只需要了解基础的爬虫程序就可以了,如果要从事比较深入的工作,好吧你可以转行从事开发的工作了,少年!

图片 15

  • str(page_number) '页>>>')16response = requests.get(url=page_url, headers=headers)</pre>

我们先写一个最基本的爬虫小程序。

图 3 全国天气数据接口

页面连链接构造完之后我们可以开始爬取文章详情页,提取所需要的信息,在这里用到的解析库是BeautifulSoup,整个爬虫非常简单,完整代码如下:

工作:Python2.7

4.数据库数据

<1#!/usr/bin/env python2# -- encoding: utf-8 --34import requests5from bs4 import BeautifulSoup6import csv78headers = {'Accept': 'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8',9 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',10 'Cache-Control': 'max-age=0',11 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',12 'Connection': 'keep-alive',13 'Host': 'www.woshipm.com',14 'Cookie' : 't=MHpOYzlnMmp6dkFJTEVmS3pDeldrSWRTazlBOXpkRjBzRXpZOU4yVkNZWWl5QVhMVXBjMU5WcnpwQ2NCQS90ZkVsZ3lTU2Z0T3puVVZFWFRFOXR1TnVrbUV2UFlsQWxuemY4NG1wWFRYMENVdDRPQ1psK0NFZGJDZ0lsN3BQZmo=; s=Njg4NDkxLCwxNTQyMTk0MTEzMDI5LCxodHRwczovL3N0YXRpYy53b3NoaXBtLmNvbS9XWF9VXzIwMTgwNV8yMDE4MDUyMjE2MTcxN180OTQ0LmpwZz9pbWFnZVZpZXcyLzIvdy84MCwsJUU1JUE0JUE3JUU4JTk5JUJF; Hm_lvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547467553,1547544101,1547874937,1547952696; Hm_lpvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547953708'15 }16with open('data.csv', 'w', encoding='utf-8',newline='') as csvfile:17 fieldnames = ['title', 'author', 'author_des', 'date', 'views', 'loves', 'zans', 'comment_num','art', 'url']18 writer = csv.DictWriter(csvfile, fieldnames=fieldnames)19 writer.writeheader()20 for page_number in range:21 page_url = " print('正在抓取第' str(page_number) '页>>>')23 response = requests.get(url=page_url, headers=headers)24 if response.status_code == 200:25 page_data = response.text26 if page_data:27 soup = BeautifulSoup(page_data, 'lxml')28 article_urls = soup.find_all("h2", class_="post-title")29 for item in article_urls:3031 url = item.find.get32 # 文章页面解析,获取文章标题、作者、作者简介、日期、浏览量、收藏量、点赞量、评论量、正文、文章链接33 response = requests.get(url=url, headers=headers)34 # time.sleep35 print('正在抓取:' url)36 # print(response.status_code)37 if response.status_code == 200:38 article = response.text39 # print40 if article:41 try:42 soup = BeautifulSoup(article, 'lxml')43 # 文章标题44

目的:第一个爬虫程序

    数据库是存储数据的重要载体,目前,常用的数据库有mysql、sqlserver及oracle等,读取数据库数据需要sql语句。

title = soup.find(class_='article-title').get_text45 # 作者46 author

soup.find(class_='post-meta-items').find_previous_siblings()[1].find.get_text47 # 作者简介48 author_des = soup.find(class_='post-meta-items').find_previous_siblings()[0].get_text49 # 日期50 date = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[0].get_text51 # 浏览量52 views = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[1].get_text53 # 收藏量54 loves = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[2].get_text55 # 点赞量56 zans = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[3].get_text57 # 评论量58 comment = soup.find('ol', class_="comment-list").find_all59 comment_num = len60 # 正文61 art = soup.find(class_="grap").get_text6263 writer.writerow({'title':title, 'author':author, 'author_des':author_des, 'date':date, 'views':views, 'loves':int, 'zans':int, 'comment_num':int(comment_num), 'art':art, 'url':url})64 print({'title':title, 'author':author, 'author_des':author_des, 'date':date, 'views':views, 'loves':loves, 'zans':zans, 'comment_num':comment_num})65 except:66 print67 print</pre>

在这里说一点,评论数的爬取,观察文章详情页你可以发现并没有评论数,我这里是直接计算出来的,可以看到评论是嵌套在ol里面,抓起所有的li,然后就可以计算出,代码如下:

1 # 评论量2 comment = soup.find('ol', class_="comment-list").find_all3 comment_num = len</pre>

这样,我们运行一下爬虫就能够顺利爬取 594 页的结果了,我这里一共抓取了 6574 条结果,大概也就玩了两把吃鸡就抓完了。

图片 16image

以上,就完成了数据的获取。有了数据我们就可以着手分析,不过这之前还需简单地进行一下数据的清洗、处理。

3. 数据清洗处理

首先,我们需要把csv文件转换为 DataFrame。

1# 将csv数据转为dataframe2csv_file = "data.csv"3csv_data = pd.read_csv(csv_file, low_memory=False) # 防止弹出警告4csv_df = pd.DataFrame5print</pre>

下面我们看一下数据的总体情况,可以看到数据的维度是 6574 行 × 10 列。需要将 views 列更改为数值格式、date 列更改为日期格式。

1print(csv_df.shape) # 查看行数和列数2print(csv_df.info # 查看总体情况3print(csv_df.head # 输出前5行4#运行结果56<class 'pandas.core.frame.DataFrame'>7RangeIndex: 6574 entries, 0 to 65738Data columns (total 10 columns):9title 6574 non-null object10author 6574 non-null object11author_des 6135 non-null object12date 6574 non-null object13views 6574 non-null object14loves 6574 non-null int6415zans 6574 non-null int6416comment_num 6574 non-null int6417art 6574 non-null object18url 6574 non-null object19dtypes: int64, object20memory usage: 513.7 KB21None22 title ... url230 2018,我产品生涯的第二年是这样度过的 ... 从《啥是佩奇》提炼出的产品三部曲 ... “采坑,填坑”,项目的那些事儿(第六阶段:测试验收) ... 如何成为CEO信任的产品经理? ... 如何让程序员放下手中的刀? ... rows x 10 columns]</pre>

date列更改为日期非常简单,代码如下:

1# 修改date列时间,并转换为 datetime 格式2csv_df['date'] = pd.to_datetime(csv_df['date'])</pre>

views列处理思路是增加一列,名字就叫views_num吧,我们可以观察到views列有的数值是整数,有的则是1.7万这种,代码如下:

1#!/usr/bin/env python2# -- encoding: utf-8 --34import pandas as pd5import numpy as np6import matplotlib.pyplot as plt7import seaborn as sns8import re9from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator10import jieba11import os12from PIL import Image13from os import path14from decimal import *1516#views列处理17def views_to_num:18 m = re.search('.?',item['views'])19 if m:20 ns = item['views'][:-1]21 nss = Decimal1000022 else:23 nss = item['views']24 return int2526# 数据清洗处理27def parse_woshipm():28 # 将csv数据转为dataframe29 csv_file = "data.csv"30 csv_data = pd.read_csv(csv_file, low_memory=False) # 防止弹出警告31 csv_df = pd.DataFrame32 # print(csv_df.shape) # 查看行数和列数33 # print(csv_df.info # 查看总体情况34 # print(csv_df.head # 输出前5行3536 # 修改date列时间,并转换为 datetime 格式37 csv_df['date'] = pd.to_datetime(csv_df['date'])38 #将views字符串数字化,增加一列views_num39 csv_df['views_num']产品经理AI指北,告诉你产品经理在看什么。 = csv_df.apply(views_to_num,axis = 1)40 print(csv_df.info414243if name == 'main':44 parse_woshipm()</pre>

我们再输出一下看看各列数据类型:

1<class 'pandas.core.frame.DataFrame'>2RangeIndex: 6574 entries, 0 to 65733Data columns (total 11 columns):4title 6574 non-null object5author 6574 non-null object6author_des 6135 non-null object7date 6574 non-null datetime64[ns]8views 6574 non-null object9loves 6574 non-null int6410zans 6574 non-null int6411comment_num 6574 non-null int6412art 6574 non-null object13url 6574 non-null object14views_num 6574 non-null int6415dtypes: datetime64ns, int64, object16memory usage: 565.0 KB17None</pre>

可以看到数据类型已经变成我们想要的了, 下面,我们看一下数据是否有重复,如果有,那么需要删除。

1# 判断整行是否有重复值,如果运行结果为True,表明有重复值2# print(any(csv_df.duplicated3# 显示True,表明有重复值,进一步提取出重复值数量4data_duplicated = csv_df.duplicated().value_counts()5# print(data_duplicated)6#运行结果7# True8# False9# 656210# True11# 1212# dtype: int6413# 删除重复值14data = csv_df.drop_duplicates(keep='first')15# 删除部分行后,index中断,需重新设置index16data = data.reset_index(drop=True)</pre>

然后,我们再增加两列数据,一列是文章标题长度列,一列是年份列,便于后面进行分析。

1#增加标题长度列和年份列2data['title_length'] = data['title'].apply3data['year'] = data['date'].dt.year</pre>

以上,就完成了基本的数据清洗处理过程,针对这些数据可以开始进行分析了。

4. 描述性数据分析

通常,数据分析主要分为四类: 「描述型分析」、「诊断型分析」「预测型分析」「规范型分析」。「描述型分析」是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法,是这四类中最为常见的数据分析类型。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性(如平均值、中位数和众数等)和离散型(反映数据的波动性大小,如方差、标准差等)。

这里,我们主要进行描述性分析,数据主要为数值型数据(包括离散型变量和连续型变量)和文本数据。

4.1. 总体情况

先来看一下总体情况,使用了data.describe() 方法对数值型变量进行统计分析。

图片 17image

<input placeholder="图片描述" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX; padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

mean 表示平均值,std表示标准差,从上面可以简要得出以下几个结论:

  • 产品经理热爱学习,看到好的文章就收藏下来。75%的文章收藏量破百,50%的文章浏览量破百;
  • 产品话少,对别人的文章很少会评头论足。文章的评论数都寥寥无几。
  • 产品不愿意承认别人比自己优秀。绝大部分文章点赞数都是一二十个,所以程序猿们以后不要在产品面前吹嘘技术如何了得了,产品是不会承认你厉害的。

对于非数值型变量(author、date),使用 describe() 方法会产生另外一种汇总统计。

1print(data['author'].describe2print(data['date'].describe3#结果4count 65625unique 15316top Nairo7freq 3158Name: author, dtype: object9count 656210unique 182711top 2015-01-29 00:00:0012freq 1613first 2012-11-25 00:00:0014last 2019-01-21 00:00:0015Name: date, dtype: object</pre>

unique 表示唯一值数量,top 表示出现次数最多的变量,freq 表示该变量出现的次数,所以可以简单得出以下几个结论:

  • 一共有1531位作者为社区的产品经理栏目贡献了文章,其中贡献量最大的作者叫 Nairo ,贡献了315篇;
  • 在2015年1月29日栏目文章发布数最大,达到了16篇。栏目第一篇文章发布在2012年11月25日。

4.2. 不同时期文章发布的数量变化

图片 18image

从图中可以看到,网站文章发布数量在2012到2015年逐年递增,增幅很大,这可能与网站的知名度提高有关;2015年2季度之后比较平稳。后面的分析代码就不一一贴出,文末会留下代码下载链接。

4.3. 文章浏览量 TOP10

接下来,到了我们比较关心的问题:几万篇文章里,到底哪些文章写得比较好或者比较火

图片 19image

这里以阅读量作为衡量标准,排在第一的是《 小白产品经理看产品:什么是互联网产品》,第一名的浏览量遥遥领先于第二名,接近百万,看来很多社区里面很多都是产品小白。而且看这几篇文章标题,貌似都是介绍什么是产品经理,产品经理干什么,看来社区里面初级产品挺多的。

4.4. 历年文章收藏量 TOP3

在了解文章的总体排名之后,我们来看看历年的文章排名是怎样的。这里,每年选取了收藏量最多的 3 篇文章。

图片 20image图片 21image

从图中可以看出,2015年是的那篇文章收藏量是最多的,达到了2000,文章内容则是后台产品设计,看来这篇文章里面干货满满。

4.4.1. 最高产作者 TOP20

上面,我们从收藏量指标进行了分析,下面,我们关注一下发布文章的作者。前面提到发文最多的是Nairo,贡献了315篇,这里我们看看还有哪些比较高产的作者。

图片 22image

可以看到第一名遥遥领先,是个狼人,大家可以关注一下这些优质作者。

4.4.2. 平均文章收藏量最多作者 TOP 10

我们关注一个作者除了是因为文章高产以外,可能更看重的是其文章水准。这里我们选择「文章平均收藏量」这个指标,来看看文章水准比较高的作者是哪些人。这里,为了避免出现「某作者只写了一篇高收藏率的文章」这种不能代表其真实水准的情况,我们将筛选范围定在至少发布过 5 篇文章的作者们。

图片 23image

对比这张图和前面的发文数量排行榜,我们可以发现这张图的作者均没有上榜,相比于数量,质量可能更重要吧。

4.5. 文章评论数最多 TOP10

说完了收藏量。下面,我们再来看看评论数量最多的文章是哪些。

图片 24image

我们可以看到大部分都与初级产品有关,而且我们可以看到评论多,收藏量也挺多的,我们进一步探寻两者之间关系。

图片 25image

我们可以发现绝大部分文章评论数和收藏量都很小。

4.6. 文章标题长度

下面,我们再来看看文章标题的长度和阅读量之间有没有什么关系。

图片 26image

我们可以看到文章标题长度在20左右时阅读量普遍较高。

4.7. 文本分析

最后,我们从这 5 万篇文章中的正文内容中看看产品经理都在看什么。

 ##学习Python中有不明白推荐加入交流群 号:960410445 群里有志同道合的小伙伴,互帮互助, 群里有不错的视频学习教程和PDF!

图片 27image

我们可以看到设计、工作、数据、功能、需求、项目等都是产品经理们关注的东西,产品们也很辛苦啊,程序猿以后不要吐槽自己多辛苦了。

5. 小结

  • 本文简要分析了人人都是产品经理产品经理栏目下6574篇文章信息,大致了解了产品经理都在看什么。
  • 发掘了那些优秀的文章和作者,能够产品新人指明方向。
  • 告诉了程序猿与产品经理聊天时该说什么。
  • 本文尚未做深入的文本挖掘,而文本挖掘可能比数据挖掘涵盖的信息量更大,更有价值。进行这些分析需要机器学习和深度学习的知识。

图片 28

5.爬虫数据

第一行代码是:

    数据爬取是当前获取数据的一种重要方式,通过比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。不过,爬虫数据需要具有一定的编程基础,当前在爬取数据方面常用的是python。本文爬取拉勾网也是采取python作为爬虫语言,下面,本文在获取数据时,采取数据抓取的方式,着重阐述如何爬取拉勾网相关数据的。

# -*- coding:UTF-8 -*-

爬取拉勾网:

如果我们是使用的Python工具,第一行代码一定先写下这句,这是为了使我们在编写代码时,能够使用中文的注释或者一些中文字符。

    数据爬取,简单的说,就是利用python写一个定向爬虫脚本,抓取北京产品经理在工作年限、学历要求及行业领域等方面的数据,通过数据数据挖掘模型,分析各个维度下产品经理相关要求。如图4产品经理抓取界面

OK我们导入requests库,requests库的开发者为我们提供了详细的中文教程,查询起来很方便,万事请问度娘。如果我们需要使用Python进行网络请求,requests将是我们十分常用的库。

图片 29

import requests

           图4 产品经理抓取界面

让我们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。我们可以这样理解:get的中文意思是得到、抓住,那这个requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。我们就以百度为例:

     通过分析检查元素-network-doc-分析http请求方式(getpost)-分析网页div、css选择类之后,选择requests、BeautifulSoup、正在表达式等工具后,开始爬虫(此处省去爬虫具体分析及爬虫过程),爬虫结束后,将爬虫结果存入本地Excel(由于数据量较少,没有使用mysql)。如图 5  部分代码界面

if __name__ == ‘__main__’:

图片 30

target = ‘

                                图5 爬虫结果界面

req = requests.get(url=target)

     获取数据后,将数据存储在EXcel中,此时数据较乱,会出现空值等情况,针对此情况,需要进行数据清洗的过程。

print(req.text)

(3)清洗数据

运行程序,我们看到以下结果:

      爬虫获得的数据,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。通过对数据清洗后,下图6 数据清洗后的数据

图片 31

图片 32

我们已经完成了我们的第一个小程序。大家可以把链接换成其他的链接,尝试一下爬取我们感兴趣的内容。

图 6 清洗后数据

再者,我们来说一下比较深入一点的爬虫抓取工程,通常思路:

(4)整理数据及分析

  1. 找到我们目标数据的API;
  2. Python模拟GET请求获取数据;
  3. 保存数据,等待我们去揭开他的神秘面纱。

     清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,由于数据量较少,并没有采用Spss,而是Excel。整理完相关数据后,确定分析的维度及指标,一般计算一些二级指标就可以,例如,通过计算手机销售量同比、环比等增长率。如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。当然,非数字的数据,还通常用分词统计,例如,岗位要求可以采用sae分词统计及关键词抽离等方式,抽离出关键标签及统计。

我们以本次爬取拉勾的招聘数据为例,笔者首先找到招聘数据的API:

(5)结      论

图片 33

    做完以上工作后,下一步对数据分析并制作数据报表。主要涉及到工资分配表,图7 工资分配表、图8工作经验表、图9公司简介表、图10岗位要求表

具体的实现过程,可以从百度网盘中下载源码。

图片 34

程序运行完之后,数据如下图所示:

图7 工资分配表

二、数据分析及理解

图片 35

我们开始对获取到的数据进行分析和理解:

图 8-1工作经验表

链接: 密码:b5dz

图片 36

给大家分享一个模板,我们基础的数据分析和理解工作,也可以参考该模板:

图 8-2工作经验表(年限)

# 1. 准备

图片 37

  1. # a) 导入类库
  2. # b) 导入数据集
  3. # c) 初步描述性统计

图8-3工作经验表(学历)

# 2. 预处理数据

图片 38

  1. # a) 数据清洗
  2. # b) 特征选择
  3. # c) 数据转换

图9公司简介表

# 3. 概述数据

图片 39

  1. # a) 描述性统计
  2. # b) 数据可视化

图10岗位要求表

2.1 导入数据

     通过图7 工资分配表可知,北京地区产品经理主要集中在10K-20K之间(此次没有对各个区间合并),工作经验主要要求在1-3年及3-5年两个区间,学历以最低本科学历为主,公司方面,以不需要融资、A轮及上市公司为主,通过岗位要求关键词提炼,工具技能(axure、visio等)为基本要求,除了基本的需求分析、产品流程外,数据分析技术能力、市场能力也是一些比较看重的。(注:时间较仓促,分析的维度及采集数据较少)

通过Pandas导入CSV文件,CSV 文件是用逗号(,)分隔的文本文件。

    作者简介:励秣,某公司产品经理,目前正在寻找后台或数据产品,希望有坑者“收留”,微信:15005417866。13年,985本科毕业,毕业前有近两年开发实践工作,擅长java、python,毕业后,在某知名在线租房公司一年产品运营工作,转产品近3年,且以后台为主,涉及到一些数据相关设计,希望大家帮忙推荐。

图片 40

我们导入数据后,可以通过head方法查看一下我们的数据是否正常导入。

Data.head()

我们数据已经正常导入。

2.2 初步描述性统计数据

图片 41

我们的数据维度:共有450行,11列数据。这说明我们总共抓取到450条招聘信息,而11列说明我们设定爬取的参数时,设定了11个参数或指标。

我们查看数据概述数据,如果数据大部分为数字或者全是数值型数据的话,通过data.describe()方法查看数据,能够帮我们直观的看到数据的整体情况,比如最大值、最小值、中位数等数据。

图片 42

由于我们此次抓取的数据都是对象,所以呈现了上述的情况,不过我们依然可以看到数据共有450条,招聘的公司总数有308条,开出的工资条件总共有71种薪水范围。

数据类型:

图片 43

查看数据类型的重要一点,就是我们需不需要对数据类型进行转换。

2.3 数据清洗

我们进行数据清洗,通常采用的方式:

  1. 删除空值数据;
  2. 去除重复值数据;
  3. 删除异常值数据;
  4. 删除包含某个关键词的数据或者不包含某个关键词的数据。

我们此次采取的是删除包含某个关键词的数据:

图片 44

2.4 对数据进行可视化理解

通常我们的数据可视化包含:

  1. 分布直方图
  2. 箱线图
  3. 线性图
  4. 饼图
  5. 词云

matplotlib包含了丰富的图表,大家可以到官网上去选择自己需要用到的图表。(matplotlib:

我们此次用到的首先是饼图,查看全国主要城市,对于AI产品经理的招聘情况:

图片 45

① 全国主要城市AI产品经理的招聘情况:

图片 46

城市:

  • 上海 82
  • 东莞 1
  • 佛山 1
  • 北京 153
  • 南京 12
  • 南宁 1
  • 厦门 11
  • 合肥 5
  • 天津 3
  • 宁波 2
  • 常州 1
  • 广州 51
  • 成都 3
  • 杭州 64
  • 武汉 12
  • 济南 2
  • 深圳 14
  • 珠海 2
  • 石家庄 1
  • 苏州 11
  • 西安 4
  • 贵阳 1
  • 郑州 4
  • 重庆 3
  • 长沙 5

从数据来看:北京AI产品经理招聘岗位153个,上海82个,杭州64个,广州51个。通过地理分布来看,AI产品经理作为一个新的产品经理品种,仍是集中在北上杭广三大地区。

② AI产品产品经理工资情况:

图片 47

图片 48

AI产品经理工资平均数为16K,25%的伙伴能拿到19K,最高是55K,而最低仅有3K,平均工资在16K左右。由此来看,AI产品经理是产品经理这个种群中高收入的人群,产品经理虽然散步在互联网行业的各个角落,但是AI产品经理目前主要分布在并且集中在使用大数据、机器学习、深度学习、智能家居、车联网等与前沿技术相关联的公司。虽然技术的发展,AI产品将是一个新的增长极。

图片 49

图片 50

从工资的分布直方图来看,主要工资集中在15-20K左右居多,其次为10K-15K左右。从抓取的数据来看,多数工资的构成仍然是普通产品经理岗位的工资,10K-15K左右为数据产品经理的薪资范围,15-20K是真正属于AI产品经理的岗位薪资。

③ 职位福利:

图片 51

图片 52

我们将职位福利这一列的数据汇总,按照词频生成词云。可见五险一金在职位福利里出现的频率最高,其次是平台,工作氛围、年终奖、期权等。

④ 学历要求:

图片 53

从数据来看,R-squared的值为0.185,说明工作经验和学历仅仅解释了工资变异性的18.5%。

这一点其实比较好理解,因为我们抓取的数据中,title其实主要仍然是普通产品经理的岗位工作,普通产品经理的岗位工作、数据产品经理,AI产品经理的实际工作内容差异还是比较大的。

普通产品经理主要仍然是进行产品原型设计和完成三大文档的工作;数据行产品经理可能会经常使用Python、R等工具进行工作;AI产品经理将设计NLP、MPL等方面的工作。另外,各个公司的规模和它愿意开出的工资也不尽相同。

图片 54

从这次数据分析来看,Kevin是不是对去从事AI产品经理充满了信心呢?

Kevin,我们今天看了AI产品经理的岗位需求和企业招聘情况,我们下次聊聊关于AI产品经理在思维上和普通产品经理岗位有着怎样的不同。请关注《产品经理AI指北(二):AI产品经理思维6顶思考帽》

作者:John_Ren,微信公众号:产品经理与增长黑客,id: pmgrowth

本文由 @John_Ren 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议返回搜狐,查看更多

责任编辑:

本文由betway必威官网手机版发布于互联网知识,转载请注明出处:产品经理AI指北,告诉你产品经理在看什么

关键词: