feat: add pandas solutions to lc problems: No.3056~3060 (#2389)

yanglbme · web-flow · commit 4f3ccae05181 · 2024-02-29T10:44:45.000+08:00
diff --git a/solution/3000-3099/3056.Snaps Analysis/README.md b/solution/3000-3099/3056.Snaps Analysis/README.md
@@ -116,6 +116,30 @@ FROM
 GROUP BY 1;
 ```
 
+```python
+import pandas as pd
+
+
+def snap_analysis(activities: pd.DataFrame, age: pd.DataFrame) -> pd.DataFrame:
+    merged_df = pd.merge(activities, age, on="user_id")
+    total_time_per_age_activity = (
+        merged_df.groupby(["age_bucket", "activity_type"])["time_spent"]
+        .sum()
+        .reset_index()
+    )
+    pivot_df = total_time_per_age_activity.pivot(
+        index="age_bucket", columns="activity_type", values="time_spent"
+    ).reset_index()
+    pivot_df = pivot_df.fillna(0)
+    pivot_df["send_perc"] = round(
+        100 * pivot_df["send"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    pivot_df["open_perc"] = round(
+        100 * pivot_df["open"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    return pivot_df[["age_bucket", "send_perc", "open_perc"]]
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3056.Snaps Analysis/README_EN.md b/solution/3000-3099/3056.Snaps Analysis/README_EN.md
@@ -114,6 +114,30 @@ FROM
 GROUP BY 1;
 ```
 
+```python
+import pandas as pd
+
+
+def snap_analysis(activities: pd.DataFrame, age: pd.DataFrame) -> pd.DataFrame:
+    merged_df = pd.merge(activities, age, on="user_id")
+    total_time_per_age_activity = (
+        merged_df.groupby(["age_bucket", "activity_type"])["time_spent"]
+        .sum()
+        .reset_index()
+    )
+    pivot_df = total_time_per_age_activity.pivot(
+        index="age_bucket", columns="activity_type", values="time_spent"
+    ).reset_index()
+    pivot_df = pivot_df.fillna(0)
+    pivot_df["send_perc"] = round(
+        100 * pivot_df["send"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    pivot_df["open_perc"] = round(
+        100 * pivot_df["open"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    return pivot_df[["age_bucket", "send_perc", "open_perc"]]
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3056.Snaps Analysis/Solution.py b/solution/3000-3099/3056.Snaps Analysis/Solution.py
@@ -0,0 +1,21 @@
+import pandas as pd
+
+
+def snap_analysis(activities: pd.DataFrame, age: pd.DataFrame) -> pd.DataFrame:
+    merged_df = pd.merge(activities, age, on="user_id")
+    total_time_per_age_activity = (
+        merged_df.groupby(["age_bucket", "activity_type"])["time_spent"]
+        .sum()
+        .reset_index()
+    )
+    pivot_df = total_time_per_age_activity.pivot(
+        index="age_bucket", columns="activity_type", values="time_spent"
+    ).reset_index()
+    pivot_df = pivot_df.fillna(0)
+    pivot_df["send_perc"] = round(
+        100 * pivot_df["send"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    pivot_df["open_perc"] = round(
+        100 * pivot_df["open"] / (pivot_df["send"] + pivot_df["open"]), 2
+    )
+    return pivot_df[["age_bucket", "send_perc", "open_perc"]]
diff --git a/solution/3000-3099/3057.Employees Project Allocation/README.md b/solution/3000-3099/3057.Employees Project Allocation/README.md
@@ -114,6 +114,24 @@ WHERE workload > avg_workload
 ORDER BY 1, 2;
 ```
 
+```python
+import pandas as pd
+
+
+def employees_with_above_avg_workload(
+    project: pd.DataFrame, employees: pd.DataFrame
+) -> pd.DataFrame:
+    merged_df = pd.merge(project, employees, on="employee_id")
+    avg_workload_per_team = merged_df.groupby("team")["workload"].mean().reset_index()
+    merged_df = pd.merge(
+        merged_df, avg_workload_per_team, on="team", suffixes=("", "_avg")
+    )
+    ans = merged_df[merged_df["workload"] > merged_df["workload_avg"]]
+    ans = ans[["employee_id", "project_id", "name", "workload"]]
+    ans = ans.rename(columns={"name": "employee_name", "workload": "project_workload"})
+    return ans.sort_values(by=["employee_id", "project_id"])
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3057.Employees Project Allocation/README_EN.md b/solution/3000-3099/3057.Employees Project Allocation/README_EN.md
@@ -112,6 +112,24 @@ WHERE workload > avg_workload
 ORDER BY 1, 2;
 ```
 
+```python
+import pandas as pd
+
+
+def employees_with_above_avg_workload(
+    project: pd.DataFrame, employees: pd.DataFrame
+) -> pd.DataFrame:
+    merged_df = pd.merge(project, employees, on="employee_id")
+    avg_workload_per_team = merged_df.groupby("team")["workload"].mean().reset_index()
+    merged_df = pd.merge(
+        merged_df, avg_workload_per_team, on="team", suffixes=("", "_avg")
+    )
+    ans = merged_df[merged_df["workload"] > merged_df["workload_avg"]]
+    ans = ans[["employee_id", "project_id", "name", "workload"]]
+    ans = ans.rename(columns={"name": "employee_name", "workload": "project_workload"})
+    return ans.sort_values(by=["employee_id", "project_id"])
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3057.Employees Project Allocation/Solution.py b/solution/3000-3099/3057.Employees Project Allocation/Solution.py
@@ -0,0 +1,15 @@
+import pandas as pd
+
+
+def employees_with_above_avg_workload(
+    project: pd.DataFrame, employees: pd.DataFrame
+) -> pd.DataFrame:
+    merged_df = pd.merge(project, employees, on="employee_id")
+    avg_workload_per_team = merged_df.groupby("team")["workload"].mean().reset_index()
+    merged_df = pd.merge(
+        merged_df, avg_workload_per_team, on="team", suffixes=("", "_avg")
+    )
+    ans = merged_df[merged_df["workload"] > merged_df["workload_avg"]]
+    ans = ans[["employee_id", "project_id", "name", "workload"]]
+    ans = ans.rename(columns={"name": "employee_name", "workload": "project_workload"})
+    return ans.sort_values(by=["employee_id", "project_id"])
diff --git a/solution/3000-3099/3058.Friends With No Mutual Friends/README.md b/solution/3000-3099/3058.Friends With No Mutual Friends/README.md
@@ -90,6 +90,32 @@ WHERE
 ORDER BY 1, 2;
 ```
 
+```python
+import pandas as pd
+
+
+def friends_with_no_mutual_friends(friends: pd.DataFrame) -> pd.DataFrame:
+    cp = friends.copy()
+    t = cp[["user_id1", "user_id2"]].copy()
+    t = pd.concat(
+        [
+            t,
+            cp[["user_id2", "user_id1"]].rename(
+                columns={"user_id2": "user_id1", "user_id1": "user_id2"}
+            ),
+        ]
+    )
+    merged = t.merge(t, left_on="user_id2", right_on="user_id2")
+    ans = cp[
+        ~cp.apply(
+            lambda x: (x["user_id1"], x["user_id2"])
+            in zip(merged["user_id1_x"], merged["user_id1_y"]),
+            axis=1,
+        )
+    ]
+    return ans.sort_values(by=["user_id1", "user_id2"])
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3058.Friends With No Mutual Friends/README_EN.md b/solution/3000-3099/3058.Friends With No Mutual Friends/README_EN.md
@@ -88,6 +88,32 @@ WHERE
 ORDER BY 1, 2;
 ```
 
+```python
+import pandas as pd
+
+
+def friends_with_no_mutual_friends(friends: pd.DataFrame) -> pd.DataFrame:
+    cp = friends.copy()
+    t = cp[["user_id1", "user_id2"]].copy()
+    t = pd.concat(
+        [
+            t,
+            cp[["user_id2", "user_id1"]].rename(
+                columns={"user_id2": "user_id1", "user_id1": "user_id2"}
+            ),
+        ]
+    )
+    merged = t.merge(t, left_on="user_id2", right_on="user_id2")
+    ans = cp[
+        ~cp.apply(
+            lambda x: (x["user_id1"], x["user_id2"])
+            in zip(merged["user_id1_x"], merged["user_id1_y"]),
+            axis=1,
+        )
+    ]
+    return ans.sort_values(by=["user_id1", "user_id2"])
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3058.Friends With No Mutual Friends/Solution.py b/solution/3000-3099/3058.Friends With No Mutual Friends/Solution.py
@@ -0,0 +1,23 @@
+import pandas as pd
+
+
+def friends_with_no_mutual_friends(friends: pd.DataFrame) -> pd.DataFrame:
+    cp = friends.copy()
+    t = cp[["user_id1", "user_id2"]].copy()
+    t = pd.concat(
+        [
+            t,
+            cp[["user_id2", "user_id1"]].rename(
+                columns={"user_id2": "user_id1", "user_id1": "user_id2"}
+            ),
+        ]
+    )
+    merged = t.merge(t, left_on="user_id2", right_on="user_id2")
+    ans = cp[
+        ~cp.apply(
+            lambda x: (x["user_id1"], x["user_id2"])
+            in zip(merged["user_id1_x"], merged["user_id1_y"]),
+            axis=1,
+        )
+    ]
+    return ans.sort_values(by=["user_id1", "user_id2"])
diff --git a/solution/3000-3099/3059.Find All Unique Email Domains/README.md b/solution/3000-3099/3059.Find All Unique Email Domains/README.md
@@ -72,6 +72,21 @@ GROUP BY 1
 ORDER BY 1;
 ```
 
+```python
+import pandas as pd
+
+
+def find_unique_email_domains(emails: pd.DataFrame) -> pd.DataFrame:
+    emails["email_domain"] = emails["email"].str.split("@").str[-1]
+    emails = emails[emails["email"].str.contains(".com")]
+    return (
+        emails.groupby("email_domain")
+        .size()
+        .reset_index(name="count")
+        .sort_values(by="email_domain")
+    )
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3059.Find All Unique Email Domains/README_EN.md b/solution/3000-3099/3059.Find All Unique Email Domains/README_EN.md
@@ -70,6 +70,21 @@ GROUP BY 1
 ORDER BY 1;
 ```
 
+```python
+import pandas as pd
+
+
+def find_unique_email_domains(emails: pd.DataFrame) -> pd.DataFrame:
+    emails["email_domain"] = emails["email"].str.split("@").str[-1]
+    emails = emails[emails["email"].str.contains(".com")]
+    return (
+        emails.groupby("email_domain")
+        .size()
+        .reset_index(name="count")
+        .sort_values(by="email_domain")
+    )
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3059.Find All Unique Email Domains/Solution.py b/solution/3000-3099/3059.Find All Unique Email Domains/Solution.py
@@ -0,0 +1,12 @@
+import pandas as pd
+
+
+def find_unique_email_domains(emails: pd.DataFrame) -> pd.DataFrame:
+    emails["email_domain"] = emails["email"].str.split("@").str[-1]
+    emails = emails[emails["email"].str.contains(".com")]
+    return (
+        emails.groupby("email_domain")
+        .size()
+        .reset_index(name="count")
+        .sort_values(by="email_domain")
+    )
diff --git a/solution/3000-3099/3060.User Activities within Time Bounds/README.md b/solution/3000-3099/3060.User Activities within Time Bounds/README.md
@@ -93,6 +93,22 @@ FROM T
 WHERE TIMESTAMPDIFF(HOUR, prev_session_end, session_start) <= 12;
 ```
 
+```python
+import pandas as pd
+
+
+def user_activities(sessions: pd.DataFrame) -> pd.DataFrame:
+    sessions = sessions.sort_values(by=["user_id", "session_start"])
+    sessions["prev_session_end"] = sessions.groupby(["user_id", "session_type"])[
+        "session_end"
+    ].shift(1)
+    sessions_filtered = sessions[
+        sessions["session_start"] - sessions["prev_session_end"]
+        <= pd.Timedelta(hours=12)
+    ]
+    return pd.DataFrame({"user_id": sessions_filtered["user_id"].unique()})
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3060.User Activities within Time Bounds/README_EN.md b/solution/3000-3099/3060.User Activities within Time Bounds/README_EN.md
@@ -91,6 +91,22 @@ FROM T
 WHERE TIMESTAMPDIFF(HOUR, prev_session_end, session_start) <= 12;
 ```
 
+```python
+import pandas as pd
+
+
+def user_activities(sessions: pd.DataFrame) -> pd.DataFrame:
+    sessions = sessions.sort_values(by=["user_id", "session_start"])
+    sessions["prev_session_end"] = sessions.groupby(["user_id", "session_type"])[
+        "session_end"
+    ].shift(1)
+    sessions_filtered = sessions[
+        sessions["session_start"] - sessions["prev_session_end"]
+        <= pd.Timedelta(hours=12)
+    ]
+    return pd.DataFrame({"user_id": sessions_filtered["user_id"].unique()})
+```
+
 <!-- tabs:end -->
 
 <!-- end -->
diff --git a/solution/3000-3099/3060.User Activities within Time Bounds/Solution.py b/solution/3000-3099/3060.User Activities within Time Bounds/Solution.py
@@ -0,0 +1,13 @@
+import pandas as pd
+
+
+def user_activities(sessions: pd.DataFrame) -> pd.DataFrame:
+    sessions = sessions.sort_values(by=["user_id", "session_start"])
+    sessions["prev_session_end"] = sessions.groupby(["user_id", "session_type"])[
+        "session_end"
+    ].shift(1)
+    sessions_filtered = sessions[
+        sessions["session_start"] - sessions["prev_session_end"]
+        <= pd.Timedelta(hours=12)
+    ]
+    return pd.DataFrame({"user_id": sessions_filtered["user_id"].unique()})