본문 바로가기
기타

7.10의 새로운 기능

2020. 12. 20.
반응형

7.10의 새로운 기능

인덱싱 속도 향상

Elasticsearch 7.10은 인덱싱 속도를 최대 20 % 향상시킵니다. 트랜잭션 로그에 항목을 추가하는 데 필요한 조정을 줄였습니다 . 이 감소는 더 많은 동시성을 허용하고 트랜잭션 로그 버퍼 크기를에서 8KB로 증가시킵니다 1MB. 그러나 전체 텍스트 검색 및 기타 분석 집약적 사용 사례에서는 성능 향상이 더 낮습니다. 인덱싱 체인이 무거울수록 이득이 낮아 지므로 많은 필드, 인제 스트 파이프 라인 또는 전체 텍스트 인덱싱을 포함하는 인덱싱 체인의 이득이 낮아집니다.

더 공간 효율적인 인덱스

Elasticsearch 7.10은 Apache Lucene 8.7에 의존하며, 이는 특히 _source. 벤치마킹 한 다양한 데이터 세트에서 0 %에서 10 % 사이의 공간 감소를 발견했습니다. 이 변경 사항은 특히 문서 전반에 걸쳐 중복 데이터가 많은 데이터 세트에 도움이됩니다. 이는 일반적으로 모든 문서에서 데이터를 생성 한 호스트에 대한 메타 데이터를 반복하는 Observability 솔루션에 의해 생성되는 문서의 경우입니다.

Elasticsearch는 index.codec저장된 필드를 얼마나 적극적으로 압축하는지 Elasticsearch에 알리 도록 설정 을 구성하는 기능을 제공 합니다. 두 값을 지원 default하고 best_compression이 변화에 더 나은 압축을 얻을 것이다.

데이터 계층

7.10은 Elasticsearch 내에서 공식화 된 데이터 계층의 개념을 도입합니다. 데이터 계층 은 비용, 성능 및 데이터의 폭 / 깊이에 대한 최적화를 사용자에게 제어 할 수있는 단순하고 통합 된 접근 방식입니다. 이 공식화 이전에는 많은 사용자가 사용자 지정 노드 특성을 사용하고 ILM을 사용하여 클러스터 내 데이터의 수명주기와 위치를 관리하는 자체 계층 토폴로지를 구성했습니다.

이 형식화를 통해 데이터 계층 (콘텐츠, 핫, 웜 및 콜드)은 노드 역할을 사용하여 명시 적으로 구성 할 수 있으며 인덱스 수준 데이터 계층 할당 필터링을 사용하여 특정 계층 내에 할당되도록 인덱스를 구성 할 수 있습니다 . ILM은 이러한 계층을 사용 하여 인덱스가 수명주기 단계를 거치는 동안 노드간에 데이터  자동으로 마이그레이션 합니다.

데이터 스트림에 의해 추상화 된 새로 생성 된 인덱스  data_hot자동으로 계층에 할당 되고 독립형 인덱스는 data_content계층에 자동으로 할당 됩니다. 기존 data역할이 있는 노드 는 모든 계층의 일부로 간주됩니다.

분류 분석을위한 AUC ROC 평가 지표

수신기 작동 특성 곡선 아래 영역 (AUC ROC) 은 7.3 이후 이상 값 감지에 사용 가능했으며 이제 분류 분석에 사용할 수있는 평가 메트릭입니다. AUC ROC는 서로 다른 예측 확률 임계 값에서 분류 프로세스의 성능을 나타냅니다. 특정 클래스에 대한 참 양성 비율은 곡선을 생성하기 위해 다른 임계 값 수준에서 결합 된 다른 모든 클래스의 비율과 비교됩니다.

데이터 프레임 분석의 맞춤형 기능 프로세서

피처 프로세서를 사용하면 문서 필드에서 프로세스 피처를 추출 할 수 있습니다. 모델 학습 및 모델 배포에서 이러한 기능을 사용할 수 있습니다. 사용자 지정 기능 프로세서는 검색 및 수집시 사용할 수있는 기능을 생성하는 메커니즘을 제공하며 인덱스에서 공간을 차지하지 않습니다. 이 프로세스는 피쳐 생성과 결과 모델을보다 긴밀하게 결합합니다. 그 결과 기능과 모델이 동일한 라이프 사이클을 쉽게 따를 수 있으므로 모델 관리가 단순화됩니다.

검색을위한 시점 (PIT)

7.10에서는 검색에 대한 인덱스 상태를 보존하는 간단한 방법 인 PIT (point in time)를 도입했습니다. PIT는 UI를보다 반응 적으로 만들어 최종 사용자 경험을 개선합니다.

기본적으로 검색 요청은 응답을 반환하기 전에 완전한 결과를 기다립니다. 예를 들어 상위 적중 및 집계를 검색하는 검색은 상위 적중 및 집계가 모두 계산 된 후에 만 ​​응답을 반환합니다. 그러나 집계는 일반적으로 최고 적중보다 계산 속도가 더 느리고 비용이 많이 듭니다. 결합 된 요청을 보내는 대신 상위 적중에 대한 요청과 집계에 대한 요청의 두 가지 개별 요청을 보낼 수 있습니다. 별도의 검색 요청을 사용하면 UI는 사용 가능한 즉시 상위 히트를 표시하고 느린 집계 요청이 완료된 후 집계 데이터를 표시 할 수 있습니다. PIT를 사용하여 두 검색 요청이 동일한 데이터 및 인덱스 상태에서 실행되도록 할 수 있습니다.

검색에서 PIT를 사용하려면 먼저 새로운 개방형 PIT API를 사용하여 PIT를 명시 적으로 만들어야합니다 . keep_alive후속 요청이 기간을 연장하지 않으면 PIT는 자동으로 가비지 수집 됩니다.

반응형

댓글