'분류 전체보기' 카테고리의 글 목록 (16 Page)

'분류 전체보기'에 해당되는 글 160건

2018.12.21 RG SAZABI 가조 + 데칼
2018.12.19 서래마을 맛집 - VANGUNDY 스테이크하우스
2018.12.17 MG 에일스트라이크 건담 마무리
2018.12.11 HGUC 시난주 스타인 내러티브 버전
2018.12.11 MG 건담 RX 78 3.0 디 오리진 버전
2018.12.11 에일스트라이트 건담 리마스터 버전
2017.10.12 임시 - designing data-intensive application - Describing performance
2017.10.12 Scability 에 대해서 트위터의 경우로 살짝 알아보자(Desingning data-intensive application)
2015.06.25 시 한 수 0001
2014.12.11 허니버터칩인가 질소칩인가

액션베이스 4 (0)	2018.12.22
두달 간의 조립 (0)	2018.12.22
MG 에일스트라이크 건담 마무리 (0)	2018.12.17
HGUC 시난주 스타인 내러티브 버전 (0)	2018.12.11
에일스트라이트 건담 리마스터 버전 (0)	2018.12.11

서래마을 맛집 - VANGUNDY 스테이크하우스

카테고리 없음 2018. 12. 19. 14:39

가성비 갑(평일 런치)
자세한 것은 검색엔진으로
맛은 한국인 입맛에 맞춘 양도 넉넉

Posted by 두다다쿵

액션베이스 4 (0)	2018.12.22
두달 간의 조립 (0)	2018.12.22
RG SAZABI 가조 + 데칼 (0)	2018.12.21
HGUC 시난주 스타인 내러티브 버전 (0)	2018.12.11
에일스트라이트 건담 리마스터 버전 (0)	2018.12.11

액션베이스 4 (0)	2018.12.22
두달 간의 조립 (0)	2018.12.22
RG SAZABI 가조 + 데칼 (0)	2018.12.21
MG 에일스트라이크 건담 마무리 (0)	2018.12.17
에일스트라이트 건담 리마스터 버전 (0)	2018.12.11

액션베이스 4 (0)	2018.12.22
두달 간의 조립 (0)	2018.12.22
RG SAZABI 가조 + 데칼 (0)	2018.12.21
MG 에일스트라이크 건담 마무리 (0)	2018.12.17
HGUC 시난주 스타인 내러티브 버전 (0)	2018.12.11

임시 - designing data-intensive application - Describing performance

Study 2017. 10. 12. 15:06

In a batch-processing system such as Hadoop, we usually care about throughput—the number of records we can process per second, or the total time it takes to run a job on a dataset of a certain size

하둡 같은 배치 시스템에서 성능 지표는 소위 말하는 스루풋 (초당 처리해야할 레코드의 수) 이나 일정 사이즈로 어떤 데이터셋을 처리하는 총 시간등이다.

In online systems, latency is usually more important—the time it takes to serve a request, also known as response time.

온라인 시스템에서는 응답시간이라고 알려진 지표 - 각각의 요청을 처리하는데 걸린 시간 - Latency

We therefore need to think of latency not as a single number, but as a probability distribution.

latency는 측정할 때 마다 살짝 달라질 수 있어서 단일 수치로 취급하지말고 정규분포 형태로 취급해야 한다.

Now, when testing a system at various levels of load, you can track the median and higher percentiles of response times in order to get a quick measure of the performance.

다양한 부하를 받는 시스템을 테스트 하기 위해서는 평균 대신 중앙값 이나 상위의 percentile 백분위 계수(뭔가 퍼포먼스가 제일 떨어지는 놈)를 사용해야 한다.

90	59.7	평균
70	70	중간값
80	80	percentile 상위 80%
70
1
1
65
70
80
70

High percentiles become especially important in backend services that are called multiple times as part of serving a single end-user request. Even if you make the calls in parallel, the end-user request still needs to wait for the slowest of the parallel calls to complete

대박 중요 (왜 굳이 상위 백분위 계수의 값이 (즉 성능이 떨어지는 최악의 수치들이) 중요한 이유는 병렬처리 환경에서 저렇게 편차를 보이는 퍼포먼스가 나왔을때 결국 그 병렬처리의 끝은 맨 마지막에 끝난 놈의 수치가 퍼포먼스가 되기 때문에....)

'Study' 카테고리의 다른 글

Scability 에 대해서 트위터의 경우로 살짝 알아보자(Desingning data-intensive application) (0)	2017.10.12

Posted by 두다다쿵

Scability 에 대해서 트위터의 경우로 살짝 알아보자(Desingning data-intensive application)

Study 2017. 10. 12. 14:33

The tools and technologies that help data-intensive applications store and process data have been rapidly adapting to these changes. New types of database system (“NoSQL”) have been getting lots of attention, but message queues, caches, search indexes, frameworks for batch and stream processing, and related technologies are very important too. Many applications use some combination of these.

RDB에서 시작된 데이터 시스템은 시간이 지남에 따라 다양한 요구사항을 대응하여 새로운 기술들을 마구 쏟아내었다. 비정형데이터를 처리하기 위한 NoSQL 이 대표적이다. 하지만 메시지 큐 , 캐시 , Search Index, 배치프레임워크(아마도 Hadoop을) , 그리고 스트림 처리(CQL, 예를 들자면 스플렁크) 역시도 데이터 처리 기술에서 중요한 역할을 차지하며 많은 애플리케이션들이 이런 기술들을 조합해서 사용하고 있다.

그리하여 각 기술의 장단점과 언제 어떻게 써야 하는지를 알아보겠다는게 이 책의 목표같다.(매우 당찬 포부다)

 Store data so that they, or another application, can find it again later (databases),

 Remember the result of an expensive operation, to speed up reads (caches),

 Allow users to search data by keyword or filter it in various ways (search indexes),

 Send a message to another process, to be handled asynchronously (message queues),

 Observe what is happening, and act on events as they occur (stream processing),

 Periodically crunch a large amount of accumulated data (batch processing).

Reliability The system should continue to work correctly (performing the correct function at the desired performance) even in the face of adversity (hardware or software faults, and even human error).

Scalability As the system grows (in data volume, traffic volume or complexity), there should be reasonable ways of dealing with that growth.

Maintainability Over time, many different people will work on the system (engineering and operations, both maintaining current behavior and adapting the system to new use cases), and they should all be able 14 to work on it productively.

Scalability

1번 방식 : 트윗 계정에 로그인 할 때 위에 처럼 전통적인 RDB 에서 자신이 팔로우 하는 사람들의 트윗들을 JOIN으로 쿼리해서 타임라인에 뿌린다. 쿼리는 다음과 같을 것이라고 한다.

2번 방식은 일종의 캐쉬를 이용한 방식인데 1번과 달리 계정 사용자가 로그인할 때 쿼리 하는 방식이 아니라 트윗을 등록하는 사람이 일단 글로벌 저장소(캐쉬)에 푸쉬를 하면 개별 계정들이 자신의 타임라인에 대한 캐쉬를 가지고 있고 글로벌 저장소는 들어온 트윗을 각각의 팔로워들의 캐쉬에 밀어 넣는 방식이다.

1번을 매번 타임라인을 확인할때마다 쿼리를 해야하는 방식인데 실제 트위터를 운영하다보니(?) 사람들이 트윗을 등록하는데 쓰는 시간보다 자신의 타임라인을 읽는데 (서버의) 더 많은 자원을 쓴다는 것을 알았고 그래서 타임라인은 퀴리로 요청하기보다는 캐쉬로 유지하고 푸쉬를 받는 방식을 취하는 것이다. 등록하는 일이 비교적 더 적으니까 그때 더 많은 일을 하자는 것이다

However, the downside of approach 2 is that posting a tweet now requires a lot of extra work. On average, a tweet is delivered to about 75 followers, so 4.6 k tweets per second become 345 k writes per second to the home timeline caches

2번 방식에서 고려해야 할 load 는 팔로워가 많은 유저가 트윗을 등록했을때 그 팔로워의 수만큼 푸쉬하는 작업이 늘어나기 때문에 이 부분에서 얼마나 많은 팔로워의 캐쉬들에 트윗을 복제해서 푸시해줘야 하는데 그 양이 결국 Scability의 고려 사항이 되는 것이다.

현재 트위터는 2번을 주된 방식으로 하되 아까 언급했던 팔로워가 많은 셀러브리티들의 트윗은 1번 방식으로 긁어와서 2번에 수집한 내용과 섞어서 하이브리드로 동작한다고 한다. 이게 핵심인듯

Twitter is moving to a hybrid of both approaches. Most users’ tweets continue to be fanned out to home timelines at the time when they are posted, but a small number of users with a very large number of followers are excepted from this fan-out. Instead, when the home timeline is read, the tweets from celebrities followed by the user are fetched separately and merged with the home timeline when the timeline is read, like in approach 1.

이 부분을 읽어보니 Scability가 뭔지 대충 알 것 같다. 좋은 책인거 같다

'Study' 카테고리의 다른 글

임시 - designing data-intensive application - Describing performance (0)	2017.10.12

Posted by 두다다쿵

시 한 수 0001

여행 2015. 6. 25. 10:19

제목 : 43200 vs 3

월급이 들어오기 까지 걸리는 시간 30일 = 43200분

월급이 나가는데 걸리는 시간 단 3분

컵라면 만도 못한 내 월급

지은이 : 야이뚱뚱한뚱뚱이야

'여행' 카테고리의 다른 글

판교 현대 백화점 교보문고 (0)	2019.02.01
스파라스파 (수영장 이름임) (0)	2019.01.01
자주 가는 곤지암 리조트 변경사항 (0)	2018.12.31
겨울을 즐기자@곤지암리조트 (0)	2018.12.30

Posted by 두다다쿵

허니버터칩인가 질소칩인가

혼잣말 2014. 12. 11. 11:13

대중은 빨리 쉽게 잊어버린다.

고쳐쓰자면 대중은 자신에게 불편한 것들을 빨리 쉽게 잊을려고 한다.

그러니까 불길같은 정의감과 언제 그랬냐듯한 열광 사이에는

깻잎 한장 정도의 차이만 있을 뿐이다.

- 허니 버터칩 대란을 지켜보다가 -

추신) 절대 못먹어서 이러는거 아님

'혼잣말' 카테고리의 다른 글

황량한 구 수산시장 (0)	2019.02.04
아침 밥상 2019 (0)	2019.01.04
존버 2019 (0)	2019.01.03
백조의 호수 탄천상황 (0)	2019.01.02
왜 한국에서는 문고판이 드문 것인가 (0)	2018.12.31

Posted by 두다다쿵

이전 1 ··· 13 14 15 16 다음

두다다쿵

'분류 전체보기'에 해당되는 글 160건

RG SAZABI 가조 + 데칼

'소일거리 > 프라모델' 카테고리의 다른 글

서래마을 맛집 - VANGUNDY 스테이크하우스

MG 에일스트라이크 건담 마무리

'소일거리 > 프라모델' 카테고리의 다른 글

HGUC 시난주 스타인 내러티브 버전

'소일거리 > 프라모델' 카테고리의 다른 글

MG 건담 RX 78 3.0 디 오리진 버전

에일스트라이트 건담 리마스터 버전

'소일거리 > 프라모델' 카테고리의 다른 글

임시 - designing data-intensive application - Describing performance

'Study' 카테고리의 다른 글

Scability 에 대해서 트위터의 경우로 살짝 알아보자(Desingning data-intensive application)

'Study' 카테고리의 다른 글

시 한 수 0001

'여행' 카테고리의 다른 글

허니버터칩인가 질소칩인가

'혼잣말' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바