일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 영상 프레임 추출
- 토글 그룹
- 강의실2
- 2020 KAKAO BLIND RECRUITMENT
- 탄막 이동
- SWEA
- 3344
- MySQL
- 알고리즘
- 걷는건귀찮아
- c#
- 원형
- 마우스 따라다니기
- 탄막 스킬 범위
- 백준
- 문자열 압축
- 단어 수학
- 18249
- 알고리즘 목차
- 자료구조 목차
- 탄막
- 그리디알고리즘
- 우분투
- 윈도우
- AI Hub
- 회의실 배정
- 3273
- 유니티
- 수 만들기
- mysqld.sock
- Today
- Total
와이유스토리
[문자열 처리] (2) 프로그래머스 문자열 압축 - 2020 KAKAO BLIND RECRUITMENT> 문자열 압축 본문
[문자열 처리] (2) 프로그래머스 문자열 압축 - 2020 KAKAO BLIND RECRUITMENT> 문자열 압축
유(YOO) 2021. 5. 30. 17:03※ 문자열 압축이란?
문자열이 주어질 때, 같은 문자가 여러 번 반복되는 것을 압축하여 공간을 절약하는 방법입니다.
예를 들어 10개의 a는 10a로 나타낼 수 있으며 10글자를 2글자로 압축할 수 있습니다.
문자열 다음과 같은 단계에 걸쳐 압축합니다.
- n 크기의 문자 배열을 초기화합니다.
- 문자열 압축 결과를 0으로 선언합니다.
- 배열을 탐색하고 반복되는 종류의 문자를 계산합니다.
- 문자의 수가 1이면 압축된 배열에 있는 유일한 문자로 간주되므로 결과를 1씩 증가시킵니다.
- 그렇지 않으면 문자와 개수 모두에 대해 결과를 계산합니다.
(1) 문제
https://programmers.co.kr/learn/courses/30/lessons/60057
데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.
간단한 예로 "aabbaccc"의 경우 "2a2ba3c"(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다. 예를 들면, "abcabcdede"와 같은 문자열은 전혀 압축되지 않습니다. "어피치"는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.
예를 들어, "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다. 다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.
다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.
압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.
제한사항
- s의 길이는 1 이상 1,000 이하입니다.
- s는 알파벳 소문자로만 이루어져 있습니다.
입출력 예
s | result |
"aabbaccc" | 7 |
"ababcdcdababcdcd" | 9 |
"abcabcdede" | 8 |
"abcabcabcabcdededededede" | 14 |
"xababcdcdababcdcd" | 17 |
입출력 예에 대한 설명
입출력 예 #1
문자열을 1개 단위로 잘라 압축했을 때 가장 짧습니다.
입출력 예 #2
문자열을 8개 단위로 잘라 압축했을 때 가장 짧습니다.
입출력 예 #3
문자열을 3개 단위로 잘라 압축했을 때 가장 짧습니다.
입출력 예 #4
문자열을 2개 단위로 자르면 "abcabcabcabc6de" 가 됩니다.
문자열을 3개 단위로 자르면 "4abcdededededede" 가 됩니다.
문자열을 4개 단위로 자르면 "abcabcabcabc3dede" 가 됩니다.
문자열을 6개 단위로 자를 경우 "2abcabc2dedede"가 되며, 이때의 길이가 14로 가장 짧습니다.
입출력 예 #5
문자열은 제일 앞부터 정해진 길이만큼 잘라야 합니다.
따라서 주어진 문자열을 x / ababcdcd / ababcdcd 로 자르는 것은 불가능 합니다.
이 경우 어떻게 문자열을 잘라도 압축되지 않으므로 가장 짧은 길이는 17이 됩니다.
(2) 설명
문자열의 단위별로 문자열 압축을 시도하여 가장 짧게 압축한 문자열의 길이를 구하는 문제입니다.
문자열의 길이가 최대 1,000자이므로 O(N^2)으로 풀어도 상관없습니다.
문자열의 단위는 최소 1개의 문자부터 최대 (문자열의 길이/2)개의 문자들까지 가능합니다.
그 이유는 문자열의 단위의 길이가 (문자열의 길이/2)를 넘으면 문자열 안에서 문자열의 단위만큼의 문자들이 반복할 수가 없기 때문입니다. 반복을 하지 않으면 뒤의 문자들은 그대로 붙여버리기 때문에 문자열의 길이는 원래 길이와 똑같습니다. 예를 들어 "aabbaccc" 문자열에서 반복이 가능한 문자열의 단위는 최소 1개부터 최대 4개까지 확인하면 되고, 5개부터는 반복이 불가능해 압축을 해도 여전히 문자열의 길이는 8이 됩니다. "aabbaccca"와 같이 문자열의 개수가 홀수일 때 또한 반복이 가능한 문자열의 단위는 최소 1개부터 최대 4개까지 확인해 보면 됩니다.
따라서 문자열의 단위는 1<=i<=(문자열의 길이(len)/2) 까지 for문을 이용해 반복합니다.
총 문자열의 길이(len)에서 문자열의 단위가 i개의 문자들일 때, i개의 문자들은 (len/i)번 반복합니다.
(len/i)를 times로 선언하면, 한 문자열 안에서 문자열의 단위별로 문자들을 0<=j<=times까지 반복을 확인합니다.
예시1번으로 그림을 그리자면 반복문을 이용해 확인할 부분은 다음과 같습니다.
부분 문자열을 확인할 수 있는 substring 함수를 이용해 인덱스 i*j~i*(j+1) 문자들과 i*(j+1)~i*(j+2) 문자들을 비교하여
같으면 반복 횟수(num)을 증가시키고, 더 이상 반복하지 않으면 리스트(str)에 추가합니다.
한 문자열의 단위마다 이를 반복한 후, 리스트 안을 확인하여 압축한 문자열의 길이(cal)를 계산합니다.
리스트 안에 1이 들어있는 경우, 문자 하나 반복으로 숫자가 추가되지 않으므로 cal에는 1을 더합니다.
1을 제외한 나머지 리스트 안에 있는 숫자들은 문자열의 단위(i)에 반복 횟수의 자릿수를 cal에 더합니다.
예를 들어 문자열 단위의 반복 횟수가 10이면 결과 문자열의 길이는 2가 늘어나는 것입니다.
cal 계산 완료 후, cal과 answer 중 최솟값을 answer에 저장합니다.
이를 모든 문자열의 단위에서 반복합니다.
(3) 풀이(Java)
import java.util.ArrayList;
class Solution {
public int solution(String s) {
ArrayList<Integer> str=new ArrayList();
int answer = s.length();
int len = answer;
int num, cal, times; // 반복 횟수, 결과, 한 문자열 안에 i개 문자 반복 가능한 갯수
for(int i = 1; i <= len/2; i++)
{
str.clear(); // ArrayList clear
num=1;
cal=0;
times = len/i; // 최대 반복 횟수
for(int j=0; j<times-1; j++) // 문자열 비교
{
if(s.substring(i*(j),i*(j+1)).equals(s.substring(i*(j+1),i*(j+2))))
num++;
else {
str.add(num);
num=1;
}
}
str.add(num); // 마지막 부분 넣기
for(int j : str)
{
if(j==1)
cal+=i;
else
cal+=Integer.toString(j).length()+i; // 문자열 개수와 반복횟수 자릿수
}
cal+=len-i*times; // 나머지 문자열 더함
answer = Math.min(answer, cal);
}
return answer;
}
}
'코딩테스트 > 문자열' 카테고리의 다른 글
[문자열] 프로그래머스 신고 결과 받기 Python (0) | 2022.02.02 |
---|---|
[문자열] 프로그래머스 숫자 문자열과 영단어 Python (0) | 2021.12.29 |
[문자열] 프로그래머스 신규 아이디 추천 C++, Python (0) | 2021.12.29 |
[문자열 처리] (3) 문자열 검색 - 프로그래머스 2020 KAKAO BLIND RECRUITMENT > 가사 검색(트라이 알고리즘) (0) | 2021.05.30 |
[문자열 처리] (1) 문자열 정렬 - 프로그래머스 2018 KAKAO BLIND RECRUITMENT > 파일명 정렬 (0) | 2021.05.30 |