hadoop 4

[ Impala ] illegalstateexception Grouping expr NULL return type BOOLEAN but its output tuple slot has type NULL_TYPE 에러 해결

Impala 에서 쿼리를 돌리다가 중복 데이터가 나와서 중복데이터를 제거하기 위해 DISTINCT 를 사용했다. 쿼리를 다시 돌렸을 때, 해당 에러가 발생했다. illegalstateexception Grouping expr NULL return type BOOLEAN but its output tuple slot has type NULL_TYPE 구글링을 했었을 때, 다행히도 해당 에러에 대해 아파치 이슈로 올라와 있었다. https://issues.apache.org/jira/browse/IMPALA-4042 [IMPALA-4042] count(distinct NULL) fails on a view - ASF JIRA Affects Version/s: Impala 2.7.0 issues.apache...

HADOOP 2023.08.03

[ Hadoop ] ACID SQL Update error (Map operator initialization failed) - HIVE

일반 설정으로는 Hive에서 update 쿼리를 처리할 수 없다. 왜냐하면 Hive는 애초에 update & delete 등 데이터의 변화를 고려하지 않고 설계되었기 때문이다. 이것에 대한 설명은 나중에 따로 포스팅을 작성할 예정이다. 아무튼 ACID를 적용하면 UPDATE & DELETE 쿼리를 할 수 있다. 최근에 쿼리를 작성하다가. 해당 에러 때문에 구글링하는데 시간소비를 굉장히 오래했다. [에러내용] SQL Error [500051] [HY000]: [Cloudera][HiveJDBCDriver](500051) ERROR processing query/statement. Error Code: 2, SQL state: Error while processing statement: FAILED: Exe..

HADOOP 2022.07.25

[ Impala ] ExecQueryFlnstances rpc query_id failed 에러 해결

VM환경에 Hadoop을 설치하고, 간단한 테스트를 하기 위해서 데이터를 25만건 정도 테이블에 넣다가, 이러한 에러가 발생했다. ExecQueryFlnstances rpc query_id failed. Memory limit exceeded Query could not start because the backend Impala daemon is over its memory limit Error occurred on backend quickstart cloudera:22000 Memory left in process limit: -171.87 MB.. 메모리 관련해서 에러가 발생하였는데, 어떠한 쿼리를 써도 저러한 에러가 동일하게 발생했다. 해결하는 방법은 cloudera MANAGER에 들어가서 해당 ..

HADOOP 2022.03.07

[ Hadoop ] HDFS 에 파일 UPLOAD 하기

HIVE에 데이터를 LOAD 하는 방법은 여러가지가 있다. LOCAL DATA를 바로 LOAD하는 방법도 있지만, HDFS에 적재하고 LOAD하는 방법도 있다. (HDFS : Hadoop Distributed File System) 여기서는 HDFS에 파일을 적재하는 방법에 대해 설명하는 글이다. 당연히 Hadoop 이 설치되어있고, 현재 구동 중인 상태여야 가능하다. 1. Hadoop을 구동시키고, 터미널에 접속한다. 2. HDFS에 DATA를 넣을 폴더를 먼저 만든다. (있다면 굳이 안들어도 된다.) $ hadoop fs -mkdir [폴더이름] 2-1. -ls 명령어를 입력하면 현재 위치의 파일(폴더포함)들 목록을 볼 수 있다. $ hadoop fs -ls 3. put 명령어를 통해서 파일을 upl..

HADOOP 2022.02.25