BigQuery veri analizi daha kolay hale getirmek için büyük yeni özellikler alır

Michael Manoochehri, Geliştirici Programları Mühendisi olarak, Cloud Platformu

Google BigQuery’deki kolay hızlı bir şekilde büyük miktarda veri analiz etmek için tasarlanmıştır. Ezici bir çoğunlukla, geliştiriciler daha da işlerini kolaylaştırmak için özellikleri için bize sordu. Bugün BigQuery bir sorgu ve veri türlerini daha geniş bir yelpazede, tablo yapısı ile daha fazla esneklik ve işbirlikçi analiz için daha iyi araçlar verir güncellemeleri bir koleksiyon hazırlıyor. Büyük JOIN ve Büyük Grup Toplamalardan çoklu veri setlerinden anlayışlar ayıklanması zor olabilir ve zaman yapabilirsiniz alıcı. Gerçekleştirmede geleneksel bir veritabanı sistemi ile sorgulamak için çok büyük hale geldiklerinde bu özellikle doğrudur. 

Geleneksel veri tabanları ile, katılma ve gruplandırma gibi SQL fonksiyonları genellikle analiz için verileri bir araya getirmek için kullanılır. Verilerinizi geleneksel veritabanı sığmayacak kadar büyük olduğu zaman ne olur? Terabaytlık veri setleri ile çalışmak genellikle pahalı altyapı ve zamanın büyük yatırım, karmaşık MapReduce iş akışları gelişmekte gerektirir. 

Çok sık olarak, üçünün bir arada bulunuyor. geliştirici geribildirim yanıt olarak, biz analistler ve geliştiricilerin SQL benzeri toplu tabanlı işleme gerek kalmadan katılmak ve veri setleri ile ilgili toplam sorguları hızlı çalışmasına olanak veren yeni özellikler fırlatıyorlar. Yeni Big JOIN özelliği kullanıcıların ortak anahtar ile iki büyük tablodaki verileri birleştirme tarafından belirlenen bir sonucu üretmek için yeteneği verir. Büyük JOIN aksi takdirde kullanıcılar SQL kullanarak birleştirmek işlemleri belirtmek için izin vererek, veri dönüşümü adım gerektirecek veri analizi kolaylaştırır. Popüler web uygulamaları satır her hafta milyarlarca büyüyebilir kullanıcı etkinliği günlükleri üretmek. Küçük gruplar halinde kullanıcılar Bölme analizi için önemli bir adımdır. Ancak, kullanıcılar her grup milyonlarca numara yapabilirsiniz. Böyle büyük hacimler için bu işlemek için, önemli ölçüde bir sonuç kümesinde toplanabilir farklı değerlerin sayısını artırır .. Bu yeni özellikleri kullanmak için, sadece BY yan tümceleri HER JOIN değiştirici veya GROUP ekleyin 

Daha Fazlası


1 22
/ * HER Örneğin JOIN
* En iyi 10 en Düzenlenen Vikipedi sayfaları seçer
Shakespeare’in eserlerinde görünür * kelime.
* /SEÇ
TOP (wiki.title, 10), COUNT (*)
KAYNAKLANAN
[publicdata: samples.wikipedia] wiki OLARAK
HER JOIN
[publicdata: samples.shakespeare] shakespeare OLARAK
AÇIK
shakespeare.word = wiki.title;

En iyi uygulamalar da dahil olmak üzere daha fazla bilgi için, HER ve GRUP HER TARAFINDAN JOIN kullanırken, BigQuery’deki ziyaret sorgu referans . Native destek TIMESTAMP veri türü içinAyrıca geliştiricilerin en sık istekleri birine yanıt olarak, yeni bir TIMESTAMP veri türü ekliyoruz . Bu yeni veri türü dilimi farkı bilgileri koruyarak, MySQL gibi veritabanlarını kullanıcılarına tanıdık biçimlerde tarih ve saat değerleri içe aktarmanızı sağlar. yeni veri türü ile birlikte, diğer formatlar içine TIMESTAMP alanları dönüştürme aralıklarını hesaplamak ve ayıklamak için yeni fonksiyonlar geldi Böyle saat, haftanın günü ve çeyrek gibi bileşenler.

/ * TIMESTAMP Örneğin
hangi gün saat * GitHub eylemler için en popüler?
* Bu sorgu github_timeline “created_at” tarih saat dönüştürür   
BigQuery’deki TIMESTAMP için * dizeleri, ve her birinden saatte ayıklar.
* /SEÇ
SAAT ( TIMESTAMP event_create_hour, AS (created_at))
 EVENT_COUNT OLARAK COUNT (*)
GELEN
 : [samples.github_timeline publicdata]
GROUP BY
 event_create_hour
ORDER BY
 EVENT_COUNT DESC;

Bizim mevcut TIMESTAMP işlevleri hakkında daha fazlasını okuyun sorgu başvuru kılavuzu. mevcut BigQuery’deki tabloları sütunlar ekleme hızlı hareket büyük miktarda veri ile çalışırken, sizin tablolar için ek alanlar eklemek gerektiğini bulmak için nadir değildir. . Geliştirici geribildirim yanıt olarak, biz mevcut BigQuery’deki tabloları yeni sütunlar eklemek için yeteneği ekledi : “güncelleme Tablolar” veya “Tablolar: yama” BigQuery’deki Bu özellikten yararlanmak için, sadece birini kullanarak ek sütunlar ile yeni bir şema sağlar API yöntemleri. Bu özellik hakkında daha fazla bilgi için, ziyaret BigQuery’deki API referans . BigQuery’deki Web UI: Dataset bağlantılar ve dataset paylaşım bildirimleri BigQuery’deki zaman kendi gerçekleştirmede nasıl paylaşıldığı çok ince taneli kontrolü ile proje sahipleri sağlamıştır. Takımlar işbirlikçi veri analizi üzerinde çalışmak için daha kolay hale getirmek için, biz BigQuery’deki Web UI bireysel veri setleri doğrudan bağlantılar ekledik.Bu hızla bir dataset erişmek için yetkili kullanıcılar için uygun bir yol sağlar, ve imi ve paylaşım için olanak sağlar. Buna ek olarak, biz de onlar dataset erişim ayrıcalıkları verilen oldum ne zaman kullanıcıları bilgilendirmek için e-posta bildirimleri ekledik. Bir dataset paylaşımı kontrol panelinden başka bir kullanıcı ile paylaştı edildiğinde, BigQuery’deki dataset doğrudan bir bağlantı içeren bir bildirim e-postası gönderir.

Bu yeni özellikler üzerinden çalışırken kullanmak için BigQuery’deki UI kamu gerçekleştirmede bir koleksiyon sunuyor. Başlamak için, bizim ziyaret sayfa işareti ve Hızlı Başlangıç ​​kılavuzu . Siz de bir göz atmalısınız bizim API docs ve ilgili BigQuery’deki gelişimi hakkında sorular sormak yığın taşması . Son olarak, bize geribildirim vermek ve üzerinde tartışmaya katılmak unutma Cloud Platformu Geliştiriciler Google+ sayfası . Michael Manoochehri Google Cloud Platformu destekleyen Geliştirici Programları mühendisidir. Onun amacı cloud computing ve veri analizi evrensel olarak erişilebilir ve kullanışlı hale yardımcı olmaktır.

Bunları da beğenebilirsin Yazarın diğer makaleleri