Hive est une base de données construite sur Hadoop et facilite la synthèse des données, les requêtes ad hoc et l'analyse de grands ensembles de données stockés dans un système de fichiers distribué compatible Hadoop. Hive fournit un mécanisme pour projeter la structure sur ces données et interroger les données à l'aide d'un langage de type SQL appelé HiveQL.

hive...

Je souhaite sélectionner des lignes dont les valeurs contiennent une chaîne dans une colonne. Par exemple, je souhaite sélectionner toutes les lignes dont les valeurs contiennent une chaîne '123' dans la colonne 'app'. tableau: app id 123helper xdas 323helper fafd 2123helper ds....
28 mai 2020 à 12:05
J'essaie de créer une nouvelle table avec la table existante à l'aide de la requête Hive. Lors de la création d'une nouvelle table, je souhaite ajouter une nouvelle colonne et insérer l'horodatage actuel pour toutes les lignes. Par exemple: Table de sortie: |user_id|user_name|user_address| |1001 ....
21 mai 2020 à 09:21
J'ai un ensemble de données pour ressembler à ceci: - Id working_hour 1005 2019-10-23 08:35:00 1006 2019-10-23 00:54:59 1007 2019-10-23 00:24:57 1008 2019-10-23 06:40:00 1009 2019-10-23 03:50:00 1010 2019-10-23 03:25:01 1005 2019-10-24 05:25:00 1006 2019-10-24 01:39:59 ....
17 mai 2020 à 20:44
Je suis assez nouveau dans Hive et j'ai créé un tableau ci-dessous il y a quelques mois create table TableName ( EntityRelationship varchar(20), EntityID varchar(50), EntityName varchar(50), CLUSTERED BY (EntityID) INTO 60 BUCKETS STORED AS ORC ) Cependant, maintenant j'ai réal....
20 avril 2020 à 08:03
J'utilise SQL avec pyspark et hive, et je suis nouveau dans tout cela. J'ai une table de ruche avec une colonne de type chaîne, comme ceci: id | values 1 | '2;4;4' 2 | '5;1' 3 | '8;0;4' Je veux créer une requête pour obtenir ceci: id | values | sum 1 | '2.2;4;4' | 10.2 2 | '5;1.2' | 6.2 3....
27 mars 2020 à 22:11
Modifier: j'utilise Apache Hive (version 3.1.0.3.1.5.0-152) Lorsque j'exécute la requête suivante: insert into delta_table (select * from batch_table where loaddate=(select max(loaddate) from batch_table)); Je reçois cette erreur: Expression de sous-requête non prise en charge 'loaddate': seules les....
10 mars 2020 à 16:49
Voici le problème: j'ai cette table de transfert: key0 key1 timestamp partition_key 5 5 2020-03-03 14:42:21.548 1 5 4 2020-03-03 14:40:11.871 1 4 3 2020-03-03 14:43:47.602 2 Et cette table cible: key0 key1 timestamp partition_key 5 4 2020-03-03 13:43:16.695 1 5 5 ....
3 mars 2020 à 18:52
Je dois effectuer un comptage sur la table Hive et générer le résultat dans un fichier texte et le déposer à un autre emplacement comme déclencheur. La sortie de la ruche ressemble actuellement à ceci: +-------------+----------+ | _c0 | _c1 | +-------------+----------+ | 2020-03-01 | 3....
1 mars 2020 à 23:53
J'ai un groupe très basique par requête à Athena où je voudrais utiliser un alias. On peut faire fonctionner l'exemple en mettant la même référence dans le groupe par, mais ce n'est pas vraiment pratique quand il y a des modifications de colonnes complexes en cours et que la logique doit être copiée....
10 févr. 2020 à 03:51
J'ai les données ci-dessous qui contiennent des objectifs mensuels pour un ensemble d'identifiants. Les cibles sont pour chaque identifiant, pour chaque mois en 2020. Le tableau nommé targets. La colonne month indique le mois de l'année. +-------+-------+----+--------+ | month | name | id | target ....
4 févr. 2020 à 01:01
Exemple simplifié: Dans ruche , j'ai un tableau t avec deux colonnes: Name, Value Bob, 2 Betty, 4 Robb, 3 Je veux faire un case when qui utilise le total de la colonne Valeur: Select Name , CASE When value>0.5*sum(value) over () THEN ‘0’ When value>0.9*sum(value) over () T....
7 janv. 2020 à 18:28
Fichier Json d'entrée { "CarBrands": [{ "carid": "100bw", "filter_condition": " (YEAR == \"2009\" AND FACTS BETWEEN 0001 AND 200 AND STORE==\"UK"\" AND RESALE in (\"2015\")) ", }, { "carid": "25xw", "....
Supposons que j'ai quelques exemples de données dans table_name_a comme ci-dessous: code val_a date ------------------------- 1 00001 500 20191101 2 00001 1000 20191130 3 00002 200 20191101 4 00002 400 20191130 5 00003 200 20191101 6 00003 600....
30 déc. 2019 à 10:49
J'ai deux colonnes appelées quantité et prix . La quantité est divisée par le prix. Si le résultat contient décimal , je veux le nombre avant la décimale. Ou bien, le nombre tel qu'il est. ....
30 déc. 2019 à 03:34
J'ai une grande expérience de travail avec les tables partitionnées Hive. J'utilise Hive 2.X. J'ai passé un entretien à un poste de Big Data Solution Architect et on m'a posé la question ci-dessous. Question: Comment ingéreriez-vous des données en streaming dans une table Hive partitionnée à la da....
j'ai besoin d'aide pour analyser les chaînes qui sont séparées par un tuyau. le premier nombre est la clé, et la chaîne suivante après le tube sont des valeurs pour cette clé en centaines |01|00109394|05|84|08|34353637 cela doit être divisé en clés qui sont le nombre de longueur = 2 après les premi....
19 déc. 2019 à 21:56
J'ai une table comme celle-ci où les clés sont [c_1, c_2, c_3], je veux des non doublons dans ma table. Contribution : C1 C2 C3 C4 C5 A1 D1 V1 X1 F3 A2 D1 V1 X2 F2 A1 D1 V1 X1 F3 A2 D1 V1 X2 F2 A4 D1 V2 X1 F3 ....
17 déc. 2019 à 12:24
J'ai une table appelée custtable, j'ai 3 colonnes custid, pays, date il y a 5 pays dans le pays: 'CH', 'US', 'UK', 'FR' et 'GE' J'espère avoir une requête élégante pour savoir comment plusieurs [custid] uniques dans 5 pays. Actuellement, je peux utiliser la sous-requête et la table temporaire pour t....
17 déc. 2019 à 10:51
J'ai ces deux tableaux: table1: name (string), actual (double), yyyy_mm_dd (date) table2: name (string), expected(double), yyyy_mm_dd (string) table1 contient des données du 01-01-2018 jusqu'au jour actuel, table2 contient des données prévues pour l'année 2020. Mon problème est que table1 n'a aucun....
16 déc. 2019 à 16:22
Je rencontre un problème pour supprimer les valeurs nulles des colonnes de latitude et de longitude dans la ruche. J'ai utilisé la fonction replace2 et toutes les autres données sur stackoverflow, mais je n'obtiens pas toutes les valeurs nulles supprimées. Le type de données est en virgule flottante....
16 déc. 2019 à 10:18
J'essaie d'écrire un script pour répertorier toutes les tables de toutes les bases de données dans impala en utilisant python. Je suis coincé dans la section de boucle. for i in databases.db: cur.execute("show tables in", &i) #error occurs here output11 = pd.DataFrame(cur.fetchall()) p....
14 déc. 2019 à 02:11
J'ai une table nommée mensuel_agg qui contient des données agrégées mensuelles. +------------+-----+----------+-----------+---------------+--------------+-------------+----------+---------+ | yyyy_mm_dd | id | app | ex_status | active_status | active_count | active_base | ex_count | ex_base | ....
13 déc. 2019 à 16:30
J'ai plusieurs tableaux dans le format suivant: Utilisateurs de table - ID lang 1 EN 2 EN 3 DE Tableau A - ID event1 event2 1 5 1 2 null 1 3 11 null Tableau B - ID event1 event10 1 2 1 3 2 null Donc après concat / rejoindre les tables sur la colonne ID ma table finale ....
12 déc. 2019 à 12:21
Le tableau ressemble à ceci: ID |CITY ---------------------------------- 1 |London|Paris|Tokyo 2 |Tokyo|Barcelona|Mumbai|London 3 |Vienna|Paris|Seattle La colonne de la ville contient environ 1000+ valeurs qui sont | délimité Je veux créer une colonne de drapeau pour indiqu....
J'ai la valeur de 58,3308% dans le tableau (inclure le caractère%), j'ai besoin d'une sortie de 0,583308 et la requête SQL comme ci-dessous fonctionne correctement dans la console SQL select to_char((rtrim('58.3308%', '%') /100), '0.999999') from dual; Mais je reçois cette erreur dans mon code pyth....
19 nov. 2019 à 10:01