2025/03 9

[0319 TIL] sql 심화 6회차 수업

https://medium.com/@khjin1002/sql-test-e07c2816a181 현진튜터님 블로그꼭 sql 쿼리테스트 전 가서 참고하기 여기 맨 마지막에 group by cohort_month 하면 절대 누적합 안나오므로 그룹바이하지 않기  누적합 거꾸로 구하는것: sum(cohort_size) over ( order by cohort_month desc) as acc_sum  문자열 합칠 때 Concat (‘ ‘ , ‘ ‘)A || b || c 그러나 컬럼을 이을때 사용 시, 안에 null값이 있다면concat은 null 무시하고 더해주나,더블파이브는 null이 됨.    Db 엔진에 따라 다르나, null 있어도 값으로 더해짐 그리고 2번도 더해짐 450+450 null을 0으로 대체해서..

SQL 2025.03.19

[0313 TIL] 최종 프로젝트 6일차 (컬럼 정의, 전처리)

오늘 한 일파일 outer로 합치면서 주제별로 파일 다시만들기(4개, 전처리까지)마케팅퍼포먼스 - 뉴 유저 디스카운트(날릴건지, 분산시킬건지), 피드백 - 키워드 세그먼트 분류커스터머 - 지역 재분류, 이메일 날리기 이 중1번했는데, 합칠 파일들이 2,3,4라서 걔네 다시 전달받은걸로 수정하기(내일)    수요예측 모델링에 필요한 데이터는 2번 베스트셀러 찾기에서 만든 데이터로 활용3번을 위해서는 커스터머 데이터에 지역을 200여개의 데이터를 blinkit에서 배송 가능 지역이라고 알려준 30개의 도시에 분류해서 넣는 작업 성공해야함. eda보고서 위해 컬럼 재정의함 버릴 컬럼은  버리고, 생성할 컬럼도 만듬  ! unit_price * quantity 곱하기!!!!!!! 뉴 컬럼 만들기~이거 내일 해야함

최종 프로젝트 2025.03.14

[0311 TIL] 최종 프로젝트 4일차 ( blinkit 조사 , eda-products, 튜터링)

카테고리별 할인율 봤으니 , 전체적인 카테고리별 가격대 형성이 궁금해서 박스플럿 시각화→ snacks & Munchies 카테고리에 이상치처럼 높은 금액대 보이나,바차트로 봤을 때 전체적으로 고루 분포되어있고 이상치로 보기 어려움. 900루피(만육천원) 대의 과자 구매?가능하다고 판단, 제거하지 않기     https://blinkit.com/ https://en.wikipedia.org/wiki/Blinkit 인도에서 1위의 즉석 배달 서비스이동 중에 쇼핑하고 몇 분 안에 무엇이든 배달받으세요. 식료품부터 신선한 과일과 채소, 케이크와 제빵류, 육류와 해산물, 화장품, 모바일과 액세서리, 전자제품, 유아용품 등 모든 것을 구매하세요. 가능한 가장 빠르고 안전한 방법으로 집 앞까지 배달해드립니다.일상의 ..

최종 프로젝트 2025.03.12

[0310 TIL] 최종 프로젝트 3일차 (EDA-blinkit_products)

현재 환율 / 3년 내 크게 변화 없음 (16~17루피) 전일 추가 eda 아이디어 체크하기 카테고리별 제품명과 제품 수 확인 [x] 금액단위확인→루피일듯.. 한국 환율로 바꿔봤을 때도 납득 가능한 정도의 금액대🟢실판매가(price) 가장 높은 제품과 금액 / 가장 낮은 제품과 금액 확인  제품별 가격 다른것(개수 차이? 브랜드 차이?)→ 제품별로 브랜드 중복 X, 가격 다 다름 egg예시로 보면 989루피(1만6천원)부터 58루피(975원)까지 다양한 가격대 분포(갯수 정보 X)결론 : 갯수 차이가 날 것으로 예상 그러나 정보 없음 / 브랜드 차이 또한 있음 동일 제품에 브랜드 중복 없음 전체 컬럼 히스토그램 분포 확인→ 가격은 12~996루피 사이 분포 → 할인율(margin_percentage)는..

최종 프로젝트 2025.03.11

[0310 TIL] SQL 스탠다드 3회차(SQL 활용 : 고급 쿼리를 통한 퍼널, 리텐션, 코호트 분석 - 3회차)

group by 최적화카디널리티가 높은 순으로 앞에 위치할수록 좋다Cardinality = 고유값의 대부분이 균등하게 분산 [쿼리 성능 최적화][Amazon Athena] https://aws.amazon.com/ko/blogs/korea/top-10-performance-tuning-tips-for-amazon-athena/[빅쿼리] https://cloud.google.com/bigquery/docs/best-practices-performance-compute?hl=ko Amazon Athena – 10가지 성능 향상 팁 | Amazon Web ServicesAmazon Athena는 표준 SQL을 통해 Amazon S3에 저장된 데이터를 쉽게 분석 할 수 있는 대화식 쿼리 서비스입니다. Athen..

SQL 2025.03.10

[0307 TIL] 최종 프로젝트 2일차(인도 배달데이터 EDA -blinkit_products)

다양한 데이터들이 있었지만 그 중에서도 제품명이 들어있는 프로덕트 테이블을 열어보고 싶었다컬럼명 및 데이터타입 확인함.숫자형 데이터들은 평균과 최대최솟값 확인함-> shelf_life_days 라는 유통기한 은 최소 3일, 최대 365일인 제품들로 구성, 유통기한이 짧은 제품은 우리 회사의 재고가 많기보다는 회전율이 빨라야겠다고 생각-> 가격 컬럼과 mrp 컬럼의 차이를 명확히 하려고 mrp 검색.. 일단 이렇게 이해함. 최대소매가? 라고 하는데 원래 책정된 가격으로 이해하였고, price는 현재 판매가이므로 mrp-price하면 할인금액이 높은 순으로 확인할 수 있겠구나 생각함.일단 어떤 카테고리의 제품들이 있는지 확인함-> 카테고리별로 제품명과 제품 수 확인해봐야겠다!(추가) 브랜드도 있길래 까봤는데..

최종 프로젝트 2025.03.07

[0307 TIL] (최종 프로젝트 2일차) / sql 심화 2강(any-order funnel, open funnel, closed funnel)

오늘 한 것 sql 1강 녹강으로 다시 복습,최종 프로젝트 데이터 탐색(지방vs도시 이커머스 소비패턴분석)-> 자료 없어서 패스인도 블링킷 배달회사 데이터 사용하기로 결정 후 products 파일에 집중해서 eda 진행심화 2강 라이브수강(클로즈퍼널로직 공부했는데 너무너무 재밌게 들었다..!!!) 라이브코딩 해설 https://datalemur.com/questions/rolling-average-tweets  Twitter SQL Interview Question: 3-Day Rolling TweetsTwitter SQL Interview Question: Write a query to calculate the rolling average tweet count over a 3-day period.dat..

SQL 2025.03.07

[0306 TIL] 최종프로젝트 1일차(주제 선정, 데이터 찾기 - 진행중~)

오늘 한 일- 오전 10시 스크럼 및 회의 -> 각자 생각했던 주제 데이터 찾고 시간 더 갖고 점심시간 후 회의-1시반 회의 -> 각자 준비해온 데이터셋 및 주제 소개, 각자 튜터님께 질문하기, 회의 결론 : 각자 최대한 많은 주제를 찾아보기 (브레인스토밍) 해서 4시 회의- 4시 반 튜터님 질의응답 -> 나쁘지 않은 주제 4가지 선택해주심-7시 회의, 멘토링 2회.. 1 서울 직장인들의 특징별 점심 트렌드 분석-지역/상권별/나이/연차/기업유형별로 점심 트렌드 분류-지역별 네이버 지도/카카오맵 크롤링 후 리스트업, 메뉴명과 가격 찾고 평균-찾은 관련 데이터셋https://golmok.seoul.go.kr/stateArea.dohttps://data.seoul.go.kr/dataList/OA-15569/S..

최종 프로젝트 2025.03.06